Internetlinguistik. Konstanze Marx
Чтение книги онлайн.

Читать онлайн книгу Internetlinguistik - Konstanze Marx страница 8

Название: Internetlinguistik

Автор: Konstanze Marx

Издательство: Bookwire

Жанр: Документальная литература

Серия: narr studienbücher

isbn: 9783823302360

isbn:

СКАЧАТЬ Größenordnung von meist mehreren Millionen Textwörtern vorliegen;

       normalerweise elektronisch verfügbar und maschinenlesbar sind;

       in der Regel nur sinnvoll unter Einsatz von Computern, typischerweise mittels statistischer Verfahren, untersucht und analysiert werden können. (Paprotté 2002: 366)

      Auch Texte, die online erschienen sind, sind inzwischen in Korpora erfasst worden. Das Didi-Korpus beispielsweise (DiDi = „Digital Natives – Digital Immigrants. Schreiben auf Social Network Sites“) basiert auf Datenspenden von 136 Nutzer*innen. Es umfasst etwa 650.000 Tokens und setzt sich aus 11.102 Facebook-Status-Meldungen, 6.507 Pinnwand-Kommentaren und 22.218 Chat-Nachrichten zusammen. Diese sind für Nutzer*innen frei zugänglich, die eine Vertraulichkeitsvereinbarung unterzeichnen.

      Das Korpus deWac ist Teil eines Projektes, das unter dem Namen WaCky von Linguist*innen und Fachinformatiker*innen initiiert wurde. Es wurde über Suchanfragen aus Webseiten der de-Domäne zusammengestellt und enthält 1,7 Milliarden Wörter, die nach Wortarten erfasst und gekennzeichnet (POS-tagged) sowie lemmatisiert (verstichwortet) wurden. Das Korpus kann nach einer Anmeldung per E-Mail auf den eigenen Rechner geladen werden. Auch für andere Sprachen sind nach diesem Muster Korpora generiert worden.

      Das Dortmunder Chatkorpus beinhaltet Chats aus den Handlungsbereichen Freizeit, Beratung, Medien und Lehr-/Lernkontexten und ist sowohl für linguistische als auch für sprachdidaktische Zwecke geeignet (siehe Beißwenger 2013). Es umfasst 478 Chat-Mitschnitte (140.240 Nutzerbeiträge, 1,06 Millionen Token), die in den Jahren 2002–2008 zusammengestellt und nach Äußerungsbeiträgen, Zuschreibungsbeiträgen und Systemmeldungen annotiert wurden. Die Suche nach Emoticons, Ausdrücken in Asterisken oder @-Adressierungen ist mit Hilfe eines Java-basierten Suchwerkzeuges möglich. Ein Releasekorpus mit 385 Dokumenten (59.876 Chat-Beiträgen bzw. 551.762 lfd. Wortformen) ist frei verfügbar. Die Beiträge sind ebenfalls grob nach inhaltlichen (und technologischen) Kriterien annotiert: Äußerungsbeiträge werden von Zuschreibungsbeiträgen und Systemmeldungen unterschieden. Bei Äußerungsbeiträgen handelt es sich um Eingaben in das Texteingabefeld, wie z. B.: Hallo ruebennase, wieso langweilst du dich?. In Zuschreibungsbeiträgen referieren Chatter*innen zumeist in der 3. Person auf sich selbst oder das Chat-GeschehenChat, indem sie die Eingabe durch ein Codesegment so modifizieren, dass ein Platzhalter für die Namen der Teilnehmer*innen entsteht, der dann durch das System eingesetzt wird, wie z. B. ruebennase langweilt sich immer noch … Systemmeldungen machen technische Funktionen, wie einloggen, ausloggen etc., sichtbar, sie werden vom Server erzeugt, wie z. B. rübennase betritt den Raum. (vgl. zum gesamten Abschnitt Beißwenger 2013a).

      Daten aus der Alltagskommunikation mittels elektronischer Kurznachrichten liegen in der MoCoDa (Mobile Communication Database) vor. Die derzeit 2.206 Dialoge (19.224 Nachrichten, 1.063.531 Zeichen) sind im vertrauten mehrfarbigen für mobile Messengerdienste typischen Layout abgebildet. Metadaten wie Alter, Geschlecht, Bildungsgrad, Standort, Tarif, Eingabemodus, Beziehung der Schreiber*innen zueinander, ergänzende Informationen zum Dialog, Eingabeart/-medium und der Modus, wie die Daten eingestellt worden sind, werden zum jeweils aufgerufenen Dialog angezeigt. Besonders benutzerfreundlich ist, dass die Dialoge inhaltlich verstichwortet sind, so dass eine Suche durchgeführt werden kann. Das KorpusKorpus kann für die Forschung und Lehre genutzt werden. Es ist lediglich ein Passwort notwendig, dass via E-Mail bei Wolfgang Imo (Universität Hamburg) erfragt werden kann.

      Gerade im Entstehen befindet sich die MoCoDa2. Diese Datenbank ist – wie der Name schon nahelegt – eine Erweiterung der MoCoDa. Ende 2019 verfügte die Datenbank über 367 Chats, 31.811 Nachrichten, 247.587 Tokens und damit 1.021.704 Zeichen. Zu Erweiterung der Datenbasis werden fortlaufend Datenspenden gesammelt. Ein Video zur Anleitung ist unter der folgenden Adresse verfügbar: https://db.mocoda2.de/#/c/home.

      Vorstellen möchten wir auch das Projekt What’s up Switzerland. Im Rahmen dieses Projekts wurde 2014 eine große WhatsApp-Datenbasis erstellt (ca. 617 Chats, ca. 750.000 Nachrichten, ca. 5,5Mio. Tokens und 350.000 Emojis). Es gibt auch ein Satellitenprojekt What’s up Deutschland. Aus dem Projekt gingen nicht nur zahlreiche Publikationen hervor. Die Forscher*innen sind derzeit zudem dabei, die Datenbasis für die sprachwissenschaftliche Forschung aufzubereiten, die voraussichtlich ab März 2020 verfügbar sein wird.

      Eine Sammlung mit etwa 1.500 SMS von Schülern und Schülerinnen und Studierenden der Universitäten Osnabrück und Hannover kann als pdf-Datei von der Seite mediensprache.net heruntergeladen werden. Dialogische Sequenzen finden sich hier nicht, aber Angaben zum Geschlecht und dem Alter der Autor*innen.

      Ein aus neun Teilkorpora bestehendes Wikipedia-Korpus ist über das Portal und Recherchesystem COSMASII des Leibniz-Instituts für Deutsche Sprache Mannheim unter den Bedingungen der CC-BY-SA-Lizenz nutzbar. Es umfasst Artikelseiten aus den Jahren 2013, 2015 und 2017 im Umfang von 3.160.142.331 Textwörtern, Diskussionsseiten der Jahre 2013, 2015 und 2017 im Umfang von 733.809.373 Textwörtern und Nutzerdiskussionen aus den Jahren 2015 und 2017 im Umfang von 612.561.557 Textwörtern.

      Weblogs und Kommentare sind in das BBAW-Korpus zum Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS) integriert (Barbaresi/Würzner 2014). Mit Hilfe des Fußballlinguistik-Korpus von Simon Meier (TU Dresden) können 290 Taktikanalysen der Taktikblogs niemalsallein.de und halbfeldflanke.de untersucht werden. Darüber hinaus bietet das Korpus derzeit ein umfangreiches mehrsprachiges vollannotiertes Repertoire an Liveticker-Daten, Spielberichten und Taktikanalysen aus den Jahren 2006 bis 2017 (31,5 Mio. Tokens). Das Korpus kann nach einer unkomplizierten Registrierung kostenlos genutzt werden (Meier 2017).

      Unter https://www.youtube.com/user/CLARINGermany kann man sich über die CLARIN-D-Infrastruktur für die sprachbasierte Forschung in den Geistes- und Sozialwissenschaften informieren. Empfohlen seien auch die CLARIN-D-YouTube-Tutorials. In kurzen Videos werden hier Schritt-für-Schritt-Anleitungen zur Nutzung von Korpora, digitalen Werkzeugen und Webservices gegeben.

       Mini-Glossar Korpuslinguistik

      annotieren: zusätzlich zu den sprachlichen Daten innerhalb einer Datenbank werden sprachwissenschaftlich relevante Daten gespeichert, z. B. Wortarten (‚taggingtagging‘) oder die syntaktische Struktur bei komplexen Äußerungen (‚parsing‘). Das ist ein mühsamer manueller Vorgang, der deshalb häufig von automatischen Verfahren übernommen wird. Diese sind wiederum sehr fehleranfällig, so dass eine manuelle Nachbearbeitung notwendig ist.

      lemmatisieren: die einem Lexem zugehörige unflektierte Grundform wird notiert, z. B. für das Lexem ging das Lemma gehen oder für Räume das Lemma Raum.

      KonkordanzKonkordanz: Liste von Kotexten für ein Schlüssel-Lexem

      Bruchpilot in: „Die Bilanz von Bruchpilot Wowereit“ (n-tv.de, 2013-03-19); „Streicht dem Bruchpiloten Wowereit die Pension“ (berliner-kurier.de, 2012-07-21); „Bruchpilot Wowereit tauft den A380“ (bz.de, 2012-05-22); „Die Nähe zur Partei wurde der Zeitung jedoch spätestens mit dem Grounding der Swissair und ihrer [sic!] freisinnigen Bruchpiloten zum Verhängnis“ (zeit.de, 2010-04-08)

      KollokationKollokationen: Ausdruck aus mehreren Wörtern mit (statistisch) starkem Zusammenhalt

      auf Nummer sicher gehen in: „Die Flughafenplaner wollen auf Nummer sicher gehen: Die endgültige Entscheidung СКАЧАТЬ