Deutsche Sprachgeschichte. Stefan Hartmann
Чтение книги онлайн.

Читать онлайн книгу Deutsche Sprachgeschichte - Stefan Hartmann страница 12

Название: Deutsche Sprachgeschichte

Автор: Stefan Hartmann

Издательство: Bookwire

Жанр: Документальная литература

Серия:

isbn: 9783846348239

isbn:

СКАЧАТЬ uns eine Sprache spricht, liegt es nahe, sich in der Auseinandersetzung mit Sprache, gerade mit der eigenen Muttersprache, auf die eigene Intuition zu verlassen. Tatsächlich war diese Art, Sprachwissenschaft zu betreiben, gerade in der zweiten Hälfte des 20. Jahrhunderts weit verbreitet: Weitreichende Theorien wurden anhand selbst erdachter Beispielsätze und ad hoc gefällter Grammatikalitätsurteile erarbeitet. In einigen wenigen Bereichen ist diese Vorgehensweise noch heute verbreitet. Im Allgemeinen aber hat sich die Erkenntnis durchgesetzt, dass die eigene Intuition nicht immer ein guter Ratgeber ist (vgl. Gibbs 2006). Wer heute ernsthaft Sprachwissenschaft betreiben will, muss die eigenen Thesen auf empirische Daten stützen.

      Für die historische Sprachwissenschaft war die eigene Intuition ohnehin nie eine wirkliche Option – auch wenn manche versierten Kenner des Alt- oder Mittelhochdeutschen sicherlich eine bemerkenswerte Intuition für frühere Sprachstufen entwickelt haben. Die Kenntnis dieser Sprachstufen musste immer mit Hilfe zeitgenössischer Texte erarbeitet werden. Wenn authentische Texte nach wissenschaftlichen Prinzipien ausgewogen zusammengestellt werden, um ein möglichst repräsentatives Bild einer bestimmten Sprache oder Sprachvarietät zu ermöglichen, spricht man von einem Korpus (übrigens im Neutrum: das Korpus, nicht *der Korpus!).

      Ein Korpus ist also zunächst eine Sammlung authentischer Sprachdaten (vgl. Lemnitzer & Zinsmeister 2015). Diese Daten können ganz unterschiedlicher Natur sein, ebenso wie die Prinzipien, nach denen sie zusammengestellt wurden, stark variieren. Korpora des 20. und 21. Jahrhunderts umfassen oftmals nicht nur geschriebenen Text, sondern auch gesprochene Sprache oder Videoaufzeichnungen, sodass auch Informationen etwa zu sprachbegleitender Gestik oder zu Gebärdensprachen der wissenschaftlichen Untersuchung zugänglich werden. Für die Forschung zu älteren Sprachstufen sind wir hingegen ganz auf geschriebene Texte angewiesen.

      Die sprachhistorischen Korpora, die für das Deutsche derzeit zur Verfügung stehen, sind gerade im Vergleich zu ihren englischen Pendants wenig umfangreich. Immerhin jedoch können wir im Vergleich zu den meisten Sprachen der Welt, die wenig bis gar nicht dokumentiert sind (vgl. z.B. Hammarström & Nordhoff 2011), auf erfreulich umfangreiche und stetig wachsende Ressourcen zurückgreifen. Eine Übersicht über derzeit verfügbare deutschsprachige Korpora findet sich in Infobox 3. Darüber hinaus ist mit „Deutsch Diachron Digital“ seit einiger Zeit eine ganze Reihe sprachhistorischer Korpora in Arbeit (http://www.deutschdiachrondigital.de/). Zur Zeit der Drucklegung dieses Buches war das Projekt jedoch noch nicht abgeschlossen.

       Infobox 3: Diachrone deutschsprachige Korpora

      Referenzkorpus Altdeutsch und Referenzkorpus Mittelhochdeutsch. Das Referenzkorpus Altdeutsch (REA) enthält alle überlieferten Textzeugnisse des Ahd. und Altsächischen in linguistisch aufbereiteter Form. Im Dezember 2015 wurde mit dem Referenzkorpus Mittelhochdeutsch (REM) eine weitere bedeutende Lücke in der deutschen Korpuslandschaft geschlossen. Das REM umfasst zum einen das Korpus, das der Mittelhochdeutschen Grammatik (Klein et al. 2009; weitere Bände folgen) zugrundeliegt (MiGraKo). Das MiGraKo wird ergänzt durch Zusatztexte, die unter dem etwas irreführenden Namen „Referenzkorpus Mittelhochdeutsch im engeren Sinn“ zusammengefasst sind (eReM). Wer mit einem ausgewogenen Korpus arbeiten möchte, sollte also MiGraKo nutzen, das 102 Texte mit etwa 1 Million Wortformen umfasst (vgl. Klein & Dipper 2016: 3); wer auf größere Datenmengen angewiesen ist und Abstriche bei der Ausgewogenheit machen kann, kann zusätzlich die Ergänzungstexte heranziehen.

      Link: https://korpling.german.hu-berlin.de/annis3/ddd (REA)

      https://www.linguistics.rub.de/annis/annis3/REM/ (REM)

      Bonner Frühneuhochdeutschkorpus. Das Bonner Frühneuhochdeutschkorpus (kurz FnhdC) ist ein vergleichsweise kleines, aber dafür handannotiertes Korpus – die Probleme und Ungenauigkeiten, die mit maschineller Annotation einhergehen, finden sich hier also nicht. Es umfasst vier Zeitschnitte, die jeweils die zweite Hälfte des 14. bis 17. Jahrhunderts abdecken. Das FnhdC kann online über die Schnittstelle ANNIS durchsucht werden. Achtung: Nur ein Teil der Wörter ist lemmatisiert, also mit der Information zur Grundform des jeweiligen Wortes versehen (s.u. im Abschnitt „Anatomie eines Korpus“), daher sollte man sich nicht auf die Lemma-Annotation verlassen.

      Link: https://korpora.zim.uni-due.de/Fnhd/

      DWDS-Kernkorpus. Über das digitale Wörterbuch der deutschen Sprache (DWDS) sind u.a. die DWDS-Kernkorpora des 20. und des 21. Jahrhunderts sowie ein Korpus mit Texten der Wochenzeitung DIE ZEIT verfügbar. Weiterhin gibt es als Spezialkorpora z.B. ein DDR-Korpus und ein Filmuntertitelkorpus. Tipp: Die Referenz- und Zeitungskorpora lassen sich auch gemeinsam durchsuchen, indem man in der Korpusauswahl die Option „Referenz- und Zeitungskorpora (aggregiert)“ auswählt.

      Link: www.dwds.de

      GerManC. Das GerManC-Korpus ist so konzipiert, dass es an das Bonner Frühneuhochdeutschkorpus anknüpft, wobei der letzte Zeitschnitt des FnhdC bewusst mit dem ersten Zeitschnitt des GerManC überlappt: Wenn man beide Korpora heranzieht und in diesem Zeitschnitt deutliche Unterschiede zwischen beiden Korpora findet, kann man dann nämlich davon ausgehen, dass die beobachteten Differenzen nicht (nur) auf Sprachwandel zurückzuführen sind, sondern beispielsweise text- oder textsortenspezifisch oder gar idiosynkratisch sind. Das GerManC-Korpus umfasst etwa 600.000 Tokens aus drei Zeitschnitten von 1650 bis 1800. Das Korpus lässt sich über das Oxford Text Archive (http://ota.ox.ac.uk/desc/2544) in verschiedenen Formaten (Rohtexte und annotierte Texte) herunterladen und mit Tools wie z.B. AntConc explorieren, zudem ist es auch über Cosmas II (s.u. „Deutsches Referenzkorpus“) verfügbar.

      Link: http://www.llc.manchester.ac.uk/research/projects/germanc/germancplus/

      Deutsches Textarchiv. Das deutsche Textarchiv ist eine noch in Arbeit befindliche Sammlung deutschsprachiger Texte aus dem Zeitraum von 1600 bis 1900. Bei der Textauswahl wurde darauf geachtet, Texte auszuwählen, die überregional wirksam waren, um die „Entwicklung einer überregionalen Umgangssprache im hochdeutschen Sprachraum seit dem Ende der frühneuhochdeutschen Sprachperiode“ zu dokumentieren (vgl. http://deutschestextarchiv.de/doku/textauswahl). Die derzeit 2276 Texte sind vier verschiedenen Textsorten zugeordnet. Allerdings sind die Textsorten „Belletristik“ und „Gebrauchsliteratur“ derzeit noch deutlich überrepräsentiert; auch weisen die einzelnen Texte deutliche Unterschiede in ihrer Länge auf. Jedoch gibt es die Rohdaten auch zum Download, sodass sich prinzipiell aus der Textsammlung ein ausgewogenes Korpus zusammenstellen lässt.

      Link: http://deutschestextarchiv.de

      Deutsches Referenzkorpus (DeReKo). Das über Cosmas II zugängliche DeReKo ist in unterschiedliche sogenannte „Archive“ untergliedert, wobei aus sprachgeschichtlicher Perspektive insbesondere das HIST-Archiv interessant ist. Dieses umfasst Texte von der Mitte des 17. bis zum 20. Jahrhundert, wobei es einige Überschneidungen mit dem Hauptarchiv W gibt. Jedes Archiv besteht aus mehreren Korpora, aus denen sich bei Bedarf auch eigene, benutzerdefinierte Korpora zusammenstellen lassen.

      Link: СКАЧАТЬ