Название: Korpusgestützte Textanalyse
Автор: Manfred Stede
Издательство: Bookwire
Жанр: Документальная литература
Серия: narr studienbücher
isbn: 9783823301547
isbn:
Wir sollten nicht in die Versuchung geraten, eine solche Liste wiederum als ‚Definition‘ zu betrachten. Die Merkmale sind nicht alle gleichermaßen notwendig, damit ein komplexes sprachliches Zeichen als ‚Text‘ aufzufassen ist (allerdings lässt sich wohl sagen, dass sie in der Summe durchaus als hinreichend gelten dürften). Stattdessen können wir sie als Merkmale ansehen, nach denen ein Text mehr oder weniger prototypischPrototypikalität eines Textes ist: Je mehr Abweichungen, desto „ungewöhnlicher“ ist ein vorliegendes Text-Exemplar.
Auf der anderen Seite muss sich eine solche Merkmal-Liste der Prüfung aussetzen lassen, ob die einzelnen Merkmale hinlänglich unabhängig voneinander sind. Für Kohäsion und Kohärenz hatten wir dies bereits anhand von Beispielen gezeigt. Auch für die anderen sollte idealerweise gelten, dass jeweils ein Merkmal von einem Text verletzt werden kann, ohne dass andere Merkmale dabei zwangsläufig ebenfalls Schaden nehmen. Für die oben aufgeführten Merkmale gelingt dies allerdings nur bedingt; eine Wechselwirkung ist beispielsweise zwischen den Kriterien ‚Akzeptabilität‘ und ‚Situationalität‘ zu vermuten: Ein Text, der für die Äußerungssituation unangemessen ist, wird sicherlich auch als nicht-akzeptabel einzuordnen sein. Umgekehrt allerdings kann Nicht-Akzeptabilität auch auf die Verletzung eines anderen Kriteriums zurückzuführen sein als dem der SituationalitätSituationalität, so dass die beiden Kriterien sicherlich nicht einander äquivalent sind. Das Merkmal ‚IntentionalitätIntentionalität‘ ist in der Praxis ausgesprochen schwierig zu untersuchen: Woher nehmen wir die Gewissheit, dass der Autor nicht eher wahl- und ziellos seine, immerhin vielleicht kohärent wirkenden, Sätze aneinandergereiht hat? Wir haben diese Gewissheit nicht, entscheidend ist aber, dass wir als Leser diese Intentionalität dem Autor nahezu automatisch unterstellen: Sobald wir uns mit der Lektüre eines Textes beschäftigen, nehmen wir an, dass er mit einer bestimmten Absicht erstellt wurde, und ein zentraler Aspekt des Verstehens ist genau die Rekonstruktion dieser Absicht. (Dieser Punkt wird uns im nächsten Kapitel und später in den Kapiteln 7 und 10 noch genauer beschäftigen.)
Zusammenfassend stellen wir fest, dass TextualitätTextualität ein graduelles Maß ist, dem Texte mehr oder weniger Genüge tun; sie lässt sich durch eine Reihe von Merkmalen charakterisieren – und sie entbindet uns von der müßigen Aufgabe, nach einer vorgeblich klaren, „binären“ Unterscheidung zwischen Texten und Nicht-Texten zu suchen. Die Merkmale sind dabei nicht gleichrangig; darauf weist auch Sandig (2000) in ihrer Untersuchung der PrototypikalitätPrototypikalität eines Textes von Texten hin. Sie rückt die Textfunktion in den Mittelpunkt und nennt dann Kohäsion, Kohärenz, Situationalität und Thematizität als nachgeordnete Merkmale, anschließend eine ganze Reihe weiterer Aspekte, die dann allerdings als peripher gelten, so zum Beispiel die Zweidimensionalität des Textes, seine Gliederung etc.
2.5 Korpusuntersuchungen zu Kohäsion und Kohärenz
Einige der in Abschnitt 2.2.1 genannten kohäsiven Mittel lassen sich auch in nicht oder nur geringfügig annotierten Korpora unmittelbar recherchieren. Hierzu zählen Pronomina und Konnektoren, denn bei ihnen handelt es sich um geschlossene Wortklassen von relativ überschaubarem Umfang.1 Eine zweite Gruppe, repräsentiert durch die Ellipsen, ist prinzipiell zunächst nicht suchbar, weil das Phänomen eben durch die Abwesenheit einer eigentlich erwarteten lexikalischen Form charakterisiert ist. Um hierzu Korpusuntersuchungen anzustellen, bedarf es daher zuvor einer manuellen Annotation. Die dritte Gruppe schließlich bilden Kohäsionsmittel, die für den Menschen leicht beobachtbar, für die Maschine aber schwer erkennbar sind. Dazu zählt die Substitution: Um die kohäsive Relation in Weil Paul die Buche im sumpfigen Boden pflanzte, gedieh der Baum nur schlecht zu identifizieren, ist lexikalisches Wissen erforderlich; genauer: eine Ressource, die Hypo- und Hyperonyme sowie Synonyme zu einem gegebenen Wort liefert. Für viele Sprachen sind diese, mit unterschiedlichem Umfang, in maschinenlesbarer Form verfügbar, vor allem WordNet2 für Englisch (Miller, 1995), sowie GermaNet3 für Deutsch (Hamp u. Feldweg, 1997, Henrich u. Hinrichs, 2010). Mit ihrer Hilfe lassen sich Programme schreiben, die versuchen, die genannten lexikalischen Relationen in Texten zu identifizieren und damit Substitutionen zu erfassen.
Textkorpora, in denen gezielt die kohäsionsstiftenen Mittel annotiert wurden, sind bisher rar. Eine interessante Ausnahme bildet das GECCoGECCo Korpus Projekt (Kunz u.a., 2017), das sich einerseits für eine translationswissenschaftliche Fragestellung (wie unterscheiden sich Kohäsionsphänomene im Deutschen und Englischen) und andererseits für Unterschiede zwischen verschiedenen Arten von Texten interessiert hat. Dazu wurde ein Korpus aus deutschen und englischen Dokumenten zusammengestellt: Transkriptionen von Interviews und akademischen Vorträgen sowie eine Reihe schriftlicher Textklassen wie etwa fiktionale Texte, politische Essays oder Bedienungsanweisungen.
Eingebettet in die Software der Corpus Workbench4 wurden die Texte automatisch mit morphosyntaktischer Information versehen und dann teilautomatisch mit den folgenden Kohäsionsmerkmalen annotiert:
Koreferenz (Verweis auf denselben Diskursgegenstand);
One-anaphora und Ellipsen (Verweis auf dieselbe Klasse von Diskursgegenständen);
komparative Verweise, z.B.: Wir können einen Spaziergang machen. Eine noch bessere Möglichkeit wäre ein Fußballspiel;
Konnektoren;
einige lexikalische Relationen wie Hyperonymie oder Meronymie (allerdings nur teilweise behandelt).
Durch statistische Analysen auf den annotierten Daten konnten Kunz u.a. (2017) beispielsweise herausfinden, dass die deutschen gesprochensprachlichen Texte signifikant mehr Kohäsionsmittel einsetzen als die englischen, während der Unterschied bei geschriebenen Texten nur gering ist. Die häufigsten Mittel sind generell die Koreferenz und Konnektoren. Innerhalb der deutschen Texte variiert der Anteil von Kohäsionsmitteln (gemessen an der Zahl der token des Texts) zwischen 4,84 % (Bedienungsanweisungen) und 15,25 % (Interviews), und es lässt sich im Deutschen auch eine größere Differenzierung der kohäsiven Mittel zwischen den Textklassen nachweisen als im Englischen. Dadurch ist es mit recht guter Zuverlässigkeit möglich, für einen gegebenen Text seine Klasse nur anhand der Verteilung der Kohäsionsmittel automatisch zu ermitteln (für die Unterscheidung zwischen gesprochen und geschrieben sogar sehr zuverlässig).
Ein durchaus häufig in Korpora annotiertes Phänomen ist die Koreferenz, die wir in Kapitel 4 vertieft behandeln werden. Auch für den Phänomenereich der durch Diskursrelationen gestifteten Kohärenz gibt es eine Reihe verfügbarer Datensätze; darauf gehen wir später in Kapitel 10 ein.
Die hier nur sehr kurz angedeutete geschichtliche Entwicklung der Textlinguistik im deutschsprachigen Raum wird ausführlicher dargestellt im ersten Kapitel von (Adamzik, 2004).
Der auch heute noch sehr lesenswerte „Klassiker“ zu den Themen Kohäsion und Kohärenz ist das ursprünglich 1976 erschienene Cohesion in English (Halliday u. Hasan, 1989). Dieses Buch bespricht die Themen Referenz, Substitution, Ellipse, Konjunktion und lexikalische Kohäsion am Beispiel des Englischen mit bemerkenswerter Gründlichkeit. Zu beachten ist, dass die Untersuchungen der englischen Phänomene sich nicht ganz einfach auf das Deutsche übertragen lassen; zudem ist wichtig, dass Halliday und Hasan – anders als wir es hier getan haben СКАЧАТЬ