Название: Internetlinguistik
Автор: Konstanze Marx
Издательство: Bookwire
Жанр: Документальная литература
Серия: narr studienbücher
isbn: 9783823302360
isbn:
Part-of-speech-Tagging (POS-tagging): regelbasiertes Etikettieren von Token im KorpusKorpus mit entsprechenden Wortarten
In/PRÄP Berlin/N sprach/VFIN man/PRONINDEF über/PRÄP den/ART Rücktritt/N von/PRÄP Klaus/EIGENN Wowereit/EIGENN1.
TokenToken: Kleinste Einheit in einem Korpus. Über die Anzahl der Tokens wird die Korpusgröße bestimmt.
Von1 Anfang2 an3 war4 der5 massive6 politische7 Einfluss8 von9 Wowereit10 und11 Platzeck12 das13 Todesurteil14 für15 das16 Bauprojekt17 an18 Berlins19 Stadtrand20.
TypeType: Identische Tokens in einem KorpusKorpus. Über die Anzahl der Types wird die Vokabelgröße bestimmt.
Von1 Anfang2 an3 war4 der5 massive6 politische7 Einfluss8 von Wowereit9 und10 Platzeck11 das12 Todesurteil13 für14 das Bauprojekt15 an Berlins16 Stadtrand17.
DiDi-Korpus: https://commul.eurac.edu/annis/didi
deWac: http://wacky.sslmit.unibo.it/doku.php?id=corpora
Chat-Korpus: www.chatkorpus.tu-dortmund.de
MoCoDa: https://mocoda.spracheinteraktion.de
MoCoDa2: https://db.mocoda2.de/#/c/home
SMS: www.mediensprache.net/archiv/corpora/sms_os_h.pdf
Wikipedia: https://cosmas2.ids-mannheim.de/cosmas2-web/
Blogs und Webkorpus: www.dwds.de/d/k-spezial#blogs Liveticker und Blogs: https://fussballlinguistik.linguistik.tu-berlin.de
Welche Schwierigkeiten können sich bei der Arbeit mit bereits bestehenden Korpora ergeben?
Mit bestehenden, annotierten Korpora zu arbeiten, birgt durchaus Nachteile, insbesondere wenn man die Linguistik als Wissenschaft auffasst, die „regelmäßige Beziehungen zwischen sprachlichen Formen und kommunikativen Funktionen beschreiben will“ (Consten 2014). So können bei der Annotation nicht nur formale Zuordnungsfehler entstehen. Wenn es den Personen, die annotieren, nicht gelingt, eine Äußerung ohne eigene Interpretation, in eine vorgegebene Maske einzupassen, kann das Datenmaterial gar verfälscht werden. Die Interpretation wiederum ist ein natürlicher mit dem Verstehen von Text verbundener Prozess (vgl. Consten 2014 und auch Kapitel 4.3.1). Unter anderem darin liegt die Ursache, dass sich selbst aufwändig generierten und annotierten Korpora keine Antworten auf spezifische Fragen, wie „die Funktion syntaktischer Satzmodi als Marker für Sprechakttypen, die informationsstrukturierende Wirkung von Wortstellungsvariationen, die semantisch-logisch kaum beschreibbare Bedeutung mancher Modalpartikeln [oder] der referenzsemantische Effekt von Definitheit“ (Consten 2014) entnehmen lassen. Auch intentionale Normabweichungen lassen sich z. B. nur schwer von Fehlern abgrenzen. Unmöglich ist es zudem, vom Nicht-Vorkommen eines Phänomens im Korpus auf ein generelles Nicht-Vorkommen im Sprachgebrauch zu schließen (Schlobinski 2011: 133 f.).
Unabhängig davon, ob man nun explorativ vorgehen oder einer Hypothese nachgehen möchte, ist es also durchaus ratsam, selbst Daten zu erheben und zu einem Korpus zusammenzustellen. Nicht zuletzt aus forschungspraktischen Erwägungen (Kosten- und Ressourcenersparnis) drängt sich die Frage auf, inwieweit nicht auch das gesamte WWW als Korpus genutzt und entsprechend ausgewertet werden kann.
Das World Wide Web verfügt über eine unüberschaubare Datenmenge, die frei verfügbar und leicht zugänglich ist. Zudem entfällt ein mühsames Transkribieren, weil sie bereits in schriftlicher Form vorliegen. Theoretisch kann das WWW also für alle möglichen sprachwissenschaftlichen Forschungsfragen genutzt werden. Die Texte sind jedoch zumeist in Dokumente eingebettet, die weitere Kodierungen aufweisen (Menüführungen, Werbung, sog. Boilerplates usw.), vgl. Schulte im Walde/Zinsmeister (2006).
Zudem sind oftmals keine Meta-Informationen verfügbar. Wer ist beispielsweise der*die Autor*in eines Textes? Wie sind seine*ihre Sprachkompetenzen einzuschätzen? Zu berücksichtigen ist auch, welche Sprache im Web vorherrschend ist und ob das Web überhaupt repräsentativ ist für den Sprachgebrauch, den man untersuchen möchte. Damit einher geht die Frage nach den Textsorten, die im Web vorkommen (siehe auch Kapitel 5.4, vgl. auch Bubenhofer 2011). Auch die rechtlichen Grundlagen erschweren die Anwendung des WWW als Korpus.
Geben Sie in drei Suchmaschinen Ihrer Wahl das Stichwort Persuasion ein. Welche Ergebnisse erhalten Sie?
Problematisch ist zudem, dass die Suchmaschinen nicht die Funktionalitäten aufweisen, die für sprachwissenschaftliche Zwecke vonnöten sind. Die Defizite im Hinblick auf die Abfragesprache, die Annotationen, die Repräsentativität der erfassten Webseiten und Intransparenz beim Indizieren und Ranking werden bei Bubenhofer (2011) erläutert und werden hier zusammengefasst wiedergegeben:
„beschränkte Abfragesprache: Es ist […] nicht möglich, mit Auslassungszeichen zu arbeiten, also „reguläre Ausdrücke“ zu verwenden. Normalerweise beherrscht eine Abfragesprache (z. B. in Datenbanken) spezielle Zeichen wie *, + oder ?, um einen oder mehrere Buchstaben offen zu lassen. Möchte man z. B. alle Flexionsformen und Komposita des Wortes ‚Hund‘ finden, kann man nicht einfach ‚Hund*‘ eingeben und findet dann auch ‚Hundegebell‘ oder ‚Hunde‘.“
Fehlende Annotationen: „die indizierten Webseiten [sind] nicht linguistisch annotiert. Man kann also nicht einfach so nach Präpositionalphrasen oder nach Adjektiv-Nomen-Konstruktionen suchen.
Repräsentativität der erfassten Webseiten: „[…] eine Suchmaschine [kann] mit ihrem Webcrawler nicht СКАЧАТЬ