Deutsche Sprachgeschichte. Stefan Hartmann

Чтение книги онлайн.

Читать онлайн книгу Deutsche Sprachgeschichte - Stefan Hartmann страница 14

Deutsche Sprachgeschichte - Stefan Hartmann

Скачать книгу

alt=""/>

      Fig. 5: Relative Frequenz von fünf Lexemen aus dem Wortfeld „Süßwaren“ in belletristischen und wissenschaftlichen Texten des DWDS-Kernkorpus des 20. Jahrhunderts.

      Anatomie eines Korpus

      Die Fragestellungen, die wir mit Hilfe von Korpora untersuchen wollen, gehen jedoch häufig über den einfachen Vergleich von Wortfrequenzen hinaus. Wenn wir beispielsweise syntaktische Fragestellungen untersuchen, kann es hilfreich sein, gezielt nach einzelnen Wortarten zu suchen. Aus diesem Grund sind die meisten Korpora auf Wortarten hin getaggt (Part-of-Speech-Tagging, kurz POS-Tagging). Ebenso wie die Lemmatisierung, der wir in unserem Beispiel im vorigen Abschnitt schon begegnet sind, erfolgt dieses Tagging heutzutage meist automatisch. Wenn wir beispielsweise den ersten Satz dieses Kapitels mit Hilfe des Programms TreeTagger (Schmid 1994) annotieren, erhalten wir Folgendes:

Was PWS was
ist VAFIN sein
der ART die
Gegenstand NN Gegenstand
der ART die
Sprachwissenschaft NN Sprachwissenschaft
? $. ?

      In der linken Spalte ist der ursprüngliche Text zu sehen, der anhand der Leerzeichen in einzelne Tokens, also einzelne Wörter, untergliedert wird. Satzzeichen werden dabei ebenfalls als eigene Tokens behandelt. In der mittleren Spalte sehen wir die Part-of-Speech-Tags, rechts die Lemmata, also die unflektierten Grundformen. Neben dem Part-of-Speech-Tagging und der Lemmatisierung sind natürlich noch viele weitere Annotationen möglich. Viele Korpora sind beispielsweise auch syntaktisch geparst und lassen sich somit zum Beispiel nach Nominalphrasen, Verbalphrasen und anderen Einheiten auf syntaktischer Ebene durchsuchen. Fig. 6 zeigt dies am Beispiel der Nominalphrase der Gegenstand der Sprachwissenschaft, wobei die Knotennamen NK und AG für noun kernel (also: Kernelement einer Nominalphrase) und Attribute, Genitive (also: Genitivattribut) stehen.

      Fig. 6: Beispiel für syntaktisches Parsing.

      Um die Möglichkeiten und Grenzen eines spezifischen Korpus kennenzulernen, ist es daher unerlässlich, sich zunächst in der Dokumentation zu informieren, auf welche Informationen hin es kodiert ist. Sind die einzelnen Korpusdateien öffentlich zugänglich, kann auch ein Blick auf die Rohdaten Aufschluss darüber geben, welche Möglichkeiten ein Korpus bietet.

      Über das Tagging der einzelnen Tokens hinaus bieten Korpora in aller Regel auch Metainformationen zu den einzelnen Texten, beispielsweise zu Textsorte, Entstehungsjahr, Autor/in etc. Die Informationen hierzu finden sich ebenfalls in der Dokumentation.

      Von der Konkordanz zur Analyse

      Die Konkordanz ist natürlich nur der erste Schritt zur Analyse der Daten. Wenn wir nur Wortfrequenzen vergleichen, ist der nächste Schritt die quantitative Auswertung. In aller Regel geht der Auswertung aber noch ein weiterer Schritt voran: die Annotation. In diesem Schritt werden die Belege in der Konkordanz mit zusätzlichen Informationen versehen. Angenommen beispielsweise, wir wollen herausfinden, ob Frauenbezeichnungen in der vom Bonner Frühneuhochdeutschkorpus abgedeckten Zeitspanne eine Pejorisierung, also eine Abwertung, erfahren. Dass Frauenbezeichnungen im Deutschen dafür sehr anfällig sind, ist bekannt: So bezog sich vrouwe im Mittelhochdeutschen auf eine Edeldame, während wîp die unmarkierte Frauenbezeichnung war; heute hingegen ist Weib eindeutig abwertend, und Frau ist die Standardbezeichnung für Menschen weiblichen Geschlechts. Doch lässt sich diese Entwicklung in den Texten des Bonner Frühneuhochdeutschkorpus nachvollziehen?

      Um dies zu überprüfen, suchen wir im Bonner Frühneuhochdeutschkorpus (FnhdC) nach Belegen, die dem Lemma Frau bzw. Weib zugeordnet sind. Weil im FnhdC aber auch Komposita wie Jungfrau dem Lemma Frau zugeordnet sind, entfernen wir diese anschließend manuell aus der Konkordanz. Daraufhin entscheiden wir für jeden Beleg anhand des Kontexts, ob der jeweilige Begriff positiv, neutral oder negativ verwendet wird. So geht aus dem Kontext recht eindeutig hervor, dass Weib in Beispiel (5) eher positiv verwendet wird, in (6) hingegen äußerst negativ, in (7) dagegen neutral.

(5) Ist das du mir den apphel gebist ich wil dir zu kone geben das schonste unde edilste weip das alle Krichenlandt hat (Johannes Rothe: Chronik, 15. Jh.) ‚Wenn du mir den Apfel gibst, will ich dir die schönste und edelste Frau geben, die es in ganz Griechenland gibt‘
(6) Schluͤßlich man wird vil narrischer als jennes alte hirnschellige Weib Acco das mit ihrer Bildnuß in dem Spiegel als mit einer Muhmen reden und conversiren wollen (Gotthard Heidegger: Mythoscopia, spätes 17. Jh.)
(7) daß jederman sehen koͤnne daß kein ander Weib noch Kind darunter sey (Hiob Ludolf: Schaubühne, 17. Jh.)

      Bei der Annotation wird allerdings schnell klar, dass nur die wenigsten Fälle so eindeutig sind wie die drei genannten Beispiele. Umso wichtiger ist es, klare Annotationskriterien zu definieren, sich konsequent daran zu halten und sie in der Präsentation der Ergebnisse transparent zu machen. Einige Fragen, die sich im Blick auf die Daten zu Frau/Weib ergeben, sind beispielsweise:

      1 Frau kommt häufig in der festen Fügung unsere Frau bzw. unsere liebe Frau vor, die sich auf die Jungfrau Maria bezieht. Werden diese mit einbezogen oder mit der Begründung, dass es sich dabei um stehende Wendungen handelt, die mit der freien Verwendung von Frau nichts zu tun haben, getilgt? Beides ist möglich, doch muss die Entscheidung transparent gemacht und begründet werden. Wenn die Belege berücksichtigt werden, stellt sich die Folgefrage, ob sie grundsätzlich als „positiv“ annotiert werden sollen oder nur dann, wenn ein positives Attribut wie lieb im unmittelbaren Kontext steht.

      2 Eine ähnliche Frage stellt sich im Blick auf alle anderen Belege: Kann ein Beleg schon als „positiv“ annotiert werden, wenn über eine Frau gesagt wird, dass sie etwas Gutes, Richtiges, Lobenswertes tut – oder muss im unmittelbaren Kontext eindeutig ein positives Attribut oder Prädikat stehen, z.B. die edle Frau oder diese Frau ist höchst lobenswert? Das gleiche gilt umgekehrt natürlich für die Annotation „negativer“ Verwendungsweisen.

      3 Sowohl Frau als auch Weib werden in den Belegen synonym mit ‚Ehefrau‘ verwendet. Sollen diese Belege mit einbezogen, getilgt oder gesondert behandelt werden? Erneut gilt: Alles ist möglich, solange es konsequent umgesetzt, transparent gemacht und gut begründet wird.

      4 Was tun mit Belegen, in denen eine eindeutige Interpretation nicht möglich ist – etwa wenn man den Verdacht hat, dass in einem Beleg edles Weib ironisch gebraucht wird, sich aber nicht sicher ist und auch keine Möglichkeit hat, den größeren Kontext zu überprüfen? In solchen Fällen empfiehlt es sich, eine Kategorie „unklar“ einzuführen und ggf. in einer

Скачать книгу