Deutsche Sprachgeschichte. Stefan Hartmann
Чтение книги онлайн.
Читать онлайн книгу Deutsche Sprachgeschichte - Stefan Hartmann страница 15
Zum Weiterlesen
Scherer (2006) bietet eine gut lesbare, knappe Einführung in die Korpuslinguistik. Etwas ausführlicher ist die englischsprachige Einführung von McEnery & Wilson (2001). Lemnitzer & Zinsmeister (2015) gehen in ihrer Einführung auch auf die Geschichte der Korpuslinguistik und auf wissenschaftstheoretische Hintergründe ein. Wie man die Programmiersprache R in der quantitativen Korpuslinguistik fruchtbar einsetzen kann, zeigt Gries (2016).
Wer ernsthaft quantitative Linguistik betreiben möchte, muss sich auch mit Statistik auseinandersetzen. Eine gute deutschsprachige Einführung bietet Meindl (2011). Mit Levshina (2015) liegt eine noch recht neue, gut lesbare Einführung in Grundlagen der Statistik sowie verschiedenste quantitative Methoden vor. Gries (2013) bietet ebenfalls einen guten Einstieg, zumal seine Beispiele zumeist der Korpuslinguistik entstammen; teilweise ist das Buch allerdings etwas unübersichtlich, es gibt keinen Index und die Kapitelüberschriften sind nicht immer aussagekräftig. Das – allerdings recht anspruchsvolle – Standardwerk ist jedoch noch immer Baayen (2008).
Aufgaben
1 Im Begleitmaterial findet sich ein Spreadsheet mit Belegen zu „Weib“ und „Frau“ (weibfrau.csv). Öffnen Sie es mit Calc oder Excel. Achten Sie darauf, dass Sie in Excel unmittelbar nach dem Öffnen zunächst unter Daten > Text in Spalten angeben müssen, dass Tabs als Trennzeichen und einfache Anführungszeichen (’) als Textqualifizierer verwendet werden. In Calc sollte sich zunächst automatisch ein Fenster öffnen, das genau danach fragt. Hier können Sie auch angeben, dass die Datei in UTF-8 kodiert ist. Da Excel standardmäßig die Kodierung ASCII verwendet, kann es sein, dass einige Sonderzeichen nicht richtig angezeigt werden.Filtern Sie die Tabelle nun so, dass nur noch die Belege für die Lemmata „Weib“ und „Frau“ (ohne Komposita) angezeigt werden, und annotieren Sie diese in der ersten leeren Spalte nach der Verwendungsweise im Kontext: „positiv“ vs. „neutral“ vs. „negativ“.Überprüfen Sie, ob sich das Verhältnis zwischen positiven, negativen und neutralen Kontexten für beide Begriffe diachron verschiebt. Informationen dazu, wie Sie aus den Daten auf einfache Weise Tabellen und Grafiken generieren können, finden Sie im Tutorial „Korpuslinguistik mit Excel und Calc“ in den Begleitmaterialien.
2 Die Datei „suesswaren.csv“ im Begleitmaterial enthält die DWDS-Daten, die Fig. 5 zugrunde liegen. Öffnen Sie sie mit Excel oder Calc und erstellen Sie mit Hilfe des Tutorials „Tabellen mit Excel und Calc“ ein Histogramm ähnlich jenem in Fig. 5. Probieren Sie gerne auch weitere Visualisierungsvarianten aus!
Leider sind die meisten Konkordanzen, die man mit Hilfe der Online-Schnittstellen von Korpora wie dem Deutschen Referenzkorpus exportieren kann, für die Bearbeitung in Tabellenkalkulationsprogrammen nicht unmittelbar geeignet. Im digitalen Begleitmaterial finden sich daher einige Tutorials sowie interaktive Skripte, mit denen sich die Exportdateien in „gute“ Konkordanzen überführen lassen.
Was eine „gute“ Konkordanz ausmacht, lässt sich in drei Schlagworten zusammenfassen:
Eine Zeile = ein Beleg. Jede Zeile enthält genau einen Korpustreffer.
Eine Spalte = eine Kategorie. Jede Spalte enthält eine spezifische Sorte Daten. So gibt es eine Spalte für den linken Kontext, für das Keyword, für den rechten Kontext, ebenso je eine Spalte für Metainformationen wie Textsorte und Jahr.
Eine Zelle = eine Beobachtung. Jede Zelle gibt die Information über die Kategorie, der die Spalte zugeordnet ist, zum Beleg, der in der Zeile erfasst ist, an.
Fig. 7 zeigt ein Beispiel für eine weniger gelungene Konkordanz (die allerdings ungefähr den Exportdateien von COSMAS II entspricht). Textsorte und Jahr nehmen hier eine eigene Zeile in Anspruch, der Grundsatz „eine Zeile = ein Beleg“ wird also verletzt. Auch teilen sich Textsorte und Jahr mit der Nummerierung der Belege eine Spalte, der Grundsatz „eine Spalte = eine Kategorie“ wird also ebenfalls nicht eingehalten. Zudem ist in der zweiten Zeile von unten (leere Zeilen nicht mitgezählt) das Keyword in Spalte B aufgeführt, in allen anderen in Spalte C.
Fig. 7: Beispiel für eine für die quantitative Auswertung wenig geeignete Konkordanz.
Diese Unzulänglichkeiten sind in der Tabelle in Fig. 8 beseitigt, die den oben genannten Faustregeln folgt und die problemlos um eine weitere Spalte etwa mit semantischer Annotation erweitert werden kann.
Fig. 8: Beispiel für eine gute Konkordanz nach den oben genannten Faustregeln.
COWboys im WaCkY Wide Web: Korpuslinguistik im Internet
Durch das Internet haben wir heute Zugriff auf Sprachdaten in einem Ausmaß, das vor einigen Jahrzehnten wohl noch unvorstellbar war – Kilgarriff & Grefenstette (2003: 345) bezeichnen es daher als „a fabulous linguists’ playground“. Insbesondere erlaubt uns die Nutzung von Internetquellen, konzeptionell nähesprachliche Register zu berücksichtigen und dadurch Phänomenen auf den Grund zu gehen, die in lektorierter Zeitungssprache selten bis gar nicht zu finden sind. So sind Kurzformen des Indefinitartikels wie n oder nen für ein(en) in Zeitungstexten eher selten anzutreffen. Beispielsweise untersucht Vogel (2006) das Vorkommen der „erweiterten Kurzform“ nen anstelle von n (in Kontexten wie ich hab da nen kleines Problem) auf Grundlage von Chatdaten, während Schäfer & Sayatz (2014) auf Grundlage eines mehrere Milliarden Wörter umfassenden Webkorpus unter anderem klitisierte Formen des Indefinitartikels wie auf’m oder in’n näher betrachten.
Um die Jahrtausendwende herum erschienen einige linguistische Aufsätze, die Trefferzahlen in kommerziellen Suchmaschinen wie Google als Datenquelle auswerten (vgl. Kilgarriff 2007: 147, der einige Beispiele nennt). Dieses Vorgehen ist jedoch nicht unproblematisch. Selbst wenn man nur an reinen Tokenfrequenzen interessiert ist – viel mehr ist mangels Lemmatisierung und Tagging ohnehin nicht möglich – gilt es unter anderem zu bedenken, dass die Trefferanzahlen in Google keine Tokenfrequenzen darstellen, sondern vielmehr die Anzahl an Seiten, auf denen das Gesuchte gefunden wurde. Das lässt sich an einem einfachen Beispiel illustrieren: Ein Artikel wie der, die, das oder ein Konnektor wie und wird in den allermeisten Texten sicherlich mehr als einmal anzutreffen sein. Hingegen wird man eine Formulierung wie die Terrormiliz „Islamischer Staat“ in vielen Texten nur einmal antreffen, während im weiteren Verlauf des Textes einfach mit der IS auf die islamistische Organisation Bezug genommen wird.
Ein weiteres Problem stellen Duplikate dar: Viele Texte finden sich mehrfach