Fb2Gratis.com

Internetlinguistik. Konstanze Marx
Чтение книги онлайн.

Читать онлайн книгу Internetlinguistik - Konstanze Marx страница 10

Информация о книге:

Название: Internetlinguistik

Автор: Konstanze Marx

Издательство: Bookwire

Жанр: Документальная литература

Серия: narr studienbücher

isbn: 9783823302360

isbn:

СКАЧАТЬ Gründen nicht gefunden werden können. Dazu gehören z. B. viele Datenbanken […] geschützte oder schlicht nicht verlinkte Seiten. Das […] ‚deep web‘ soll 500 Mal grösser sein [als das für Suchmaschinen sichtbare Web]. Zudem ist es möglich, dass ein Suchmaschinenbetreiber gewisse Seiten absichtlich sperrt, oder dass er aus politischen Gründen dazu gezwungen wird. [Die] Menge der indizierten Seiten [verändert sich] ständig. Möchte man z. B. Trefferzahlen vergleichen, muss das möglichst zum gleichen Zeitpunkt geschehen, da sich ansonsten die Grundgesamtheit der indizierten Dokumente bereits wieder verändert hat.“

Intransparenz im Hinblick auf das Indizieren und Ranking: „Suchmaschinen [legen nicht offen], nach welchen Kriterien die Webseiten genau indiziert werden und wie das Ranking funktioniert.“ (Bubenhofer 2011: Probleme)

Aufgabe 1-5

Für welche Art von sprachwissenschaftlichen Forschungsfragen eignet sich die Recherche im WWW? Formulieren Sie drei Hypothesen.

Linguistische Forschungsbereiche, in denen die Suche im WWW gewinnbringend eingesetzt werden kann, sind z. B. die Lexikographie, Semantik, Syntax, Maschinelle Übersetzung (vgl. Volk 2002, gelistet bei Bubenhofer 2011: Anwendungen) oder Varietätenlinguistik (Bickel 2006). Es kann demnach aufschlussreich sein, im WWW zu prüfen, ob spezifische Lexeme oder Phrasen in verschiedenen deutschsprachigen Domänen (.at vs. .ch vs. .de, vgl. Bickel 2006) vorkommen oder auch in welchen KollokationenKollokationen. Es lassen sich auch Aussagen über die Bedeutung von Mehrwortsequenzen ableiten.

QuantitativeQuantitativ Auswertungen von Daten im WWW sind deshalb nicht sinnvoll, weil die Grundgesamtheit der im WWW existierenden Dokumente nicht bestimmt werden kann. Wenn statistische Aussagen denn unbedingt gewünscht sind, sollte ein Korpus erstellt werden, das aus aus dem WWW geladenen Seiten besteht, und den Vorteil hat, dass ihre Anzahl und die Anzahl spezifischer fokussierter Phänomene genau angegeben werden können (vgl. Korpusintitiative WaCky). Wichtig ist aber, dass bei allen Aussagen über die Korpusdaten deutlich gemacht wird, dass sie nur auf die Daten innerhalb des Korpus zutreffen und nicht allgemeingültig sind.

1.4.2 DIY: Eine Datensammlung selbst generieren

Aufgabe 1-6

Sie haben die Aufgabe, aktuelle Konzeptualisierungen von WISSENSCHAFTSBETRUG am Beispiel von Metaphern zu untersuchen. Erstellen Sie ein Korpus, auf dessen Grundlage Sie Aussagen über die Verwendung von Metaphern mit Bezug auf Plagiatsaffairen in der Internet-Berichterstattung im Zeitraum Februar 2011 bis März 2013 machen können. Beschreiben Sie Ihre Vorüberlegungen. Wie gehen Sie bei der Korpuserstellung vor, wie bereiten Sie Ihre Daten für die Auswertung auf?

Wie könnte man nun beim Anlegen einer Datensammlung vorgehen? Eine altmodische aber doch bewährte Methode, Daten aus dem WWW zusammenzustellen, ist das copy- und paste-Verfahren. Es verlangt schlicht keinerlei informatisches Vorwissen. Hierbei werden die Daten auf der entsprechenden Internetseite markiert, kopiert und in ein Word-Dokument integriert.

Der Vorteil an diesem Verfahren ist, dass die Daten unproblematisch in verschiedenen Formaten abgespeichert werden können. Für manche KonkordanzprogrammeKonkordanz ist beispielsweise die Umwandlung in txt-Dateien nötig. Dabei sollten immer auch die Quelle, von der die Daten stammen, das Datum der Veröffentlichung, das Datum der letzten Aktualisierung der Seite (wenn eruierbar) und das Zugriffsdatum notiert werden. Am unkompliziertesten lassen sich all diese Angaben in einem Bildschirmfoto zusammenfassen, das zusätzlich immer mit abgespeichert werden sollte.

Ein Konkordanzprogramm ist dabei behilflich, spezifische Wörter und deren unmittelbaren Kontext herauszufiltern. Es ermöglicht außerdem die Erstellung von Wortlisten und einfache statistische Rechnungen.

KWiC: Key word in context (Schlüssel-Lexem in einem spezifischen Kontext)

Es gibt eine Reihe derartiger Programme/Werkzeuge, die auch im WWW zur Verfügung stehen, als Beispiele seien hier antconc, Glossanet, NotaBene, Conc 1.8 für Macintosh oder KWiCFinder genannt. Eine ausführliche Beschreibung zur Anwendung von antconc gibt Bubenhofer unter:

www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=eigenes_AntConc.html

Das Abspeichern kompletter Webseiten (mit dem Browser Firefox z. B. spielend leicht zu bewerkstelligen, indem beispielsweise einfach über die geläufige Tasten-Kombination Strg + S unter Dateityp „Webseite, komplett“ gewählt wird) ist eine sinnvolle Ergänzung, wenn die Architektur der Seite für Text-Bildrelationsanalysen nachvollziehbar bleiben soll.

Je nach angestrebter Korpus-Größe und Fragestellung ist für die Datensammlung ein längerer Zeitraum zu veranschlagen. Es ist deshalb wichtig, den Aufbau systematisch anzugehen. Das heißt, dass Worddokumente oder auch Bilddateien mit einem nachvollziehbaren Dateinamen versehen und in einer rekonstruierbaren Ordnerstruktur abgespeichert werden sollten. Auch die Ordner sollten Namen erhalten, deren Sinn sich auch nach Monaten noch erschließt. Als Bestandteile für Dokumentnamen eignen sich ein Kürzel für die Quelle des Belegs, das Erscheinungsdatum, ein Verweis auf die Textsorte und/oder ein inhaltlicher Hinweis.

Angewendet auf die obige Aufgabe wäre es z. B. möglich, das Online-Medien-Spektrum darüber abzudecken, dass Beiträge aus Boulevardzeitungen (bild.de) mit Beiträgen aus Tages- (sueddeutsche.de, faz.net) oder Wochenzeitungen (spiegel.de, zeit.de) verglichen werden. Ebenso können politisch eher links gerichtete (z. B. taz.de), eher konsverative (welt.de) und in etwa neutrale Online-Publikationen (berliner-zeitung.de) ausgewählt werden.

Es liegt nahe, unter den Stichwörtern „Karl Theodor zu Guttenberg“, „Silvana Koch-Mehrin“, „Annette Schavan“ oder „Plagiat“, „Plagiatsaffaire“ usw. nach Artikeln zu suchen, die im Zeitraum Februar 2011 bis März 2013 erschienen sind, diese sind entsprechend abzuspeichern.

Dazu könnten Ordner angelegt werden, die nach den Online-Medien benannt sind. Je nachdem, wieviele Texte gefunden werden, können Unterordner angelegt werden, für die verschiedene Ordnungen vorstellbar sind, z. B. Textsorten (Reportage, Nachricht, Kommentar, Leitartikel, Glosse) oder auch Erscheinungsmonate. Im vorliegenden Fall wäre es auch denkbar, Ordner anzulegen, die entsprechend der Phasen der Aberkennung des Doktortitels bezeichnet sind, beispielsweise: Beginn der öffentlichen Debatte, Prüfverfahren, Aberkennung, Rücktritt. Abhängig von der Länge der Texte ist zu entscheiden, ob ein Textdokument pro Beitrag angelegt werden kann. Es ist nicht sonderlich zweckmäßig, eine Reihe von längeren Artikeln in einem Word-Dokument abzuspeichern. Kommentare von Nutzer*innen sind nicht nur viel kürzer, oftmals referieren Nutzer*innen innerhalb der Kommentarbereiche aufeinander, so dass es hier günstig erscheint, mehrere Kommentare in einem Textdokument zusammenzufassen. Es hat sich bewährt, bereits in die Dokumentennamen auch Nummerierungen aufzunehmen. Der achte Leitartikel (art) in der Sammlung, der beispielsweise in der Berliner Zeitung (bz) am 11.2.2013 erschienen ist und die Nachfolge des Bildungsministerposten zum Thema hat, könnte den Dokumentennamen 8_bz_11.2.13_art_wanka erhalten und würde im Ordner ‚Rücktritt‘ abgelegt.

Möglicherweise eleganter, aber gleichzeitig auch aufwendiger und an mehr informationstechnologisches Vorwissen geknüpft, ist die СКАЧАТЬ

Internetlinguistik. Konstanze Marx Чтение книги онлайн.

Читать онлайн книгу Internetlinguistik - Konstanze Marx страница 10

1.4.2 DIY: Eine Datensammlung selbst generieren

Internetlinguistik. Konstanze Marx
Чтение книги онлайн.