Deutsche Sprachgeschichte. Stefan Hartmann

Чтение книги онлайн.

Читать онлайн книгу Deutsche Sprachgeschichte - Stefan Hartmann страница 13

Deutsche Sprachgeschichte - Stefan Hartmann

Скачать книгу

      Vom Korpus zur Konkordanz

      Empirische Forschung beginnt immer mit einer spezifischen Fragestellung. Dabei sind der wissenschaftlichen Neugier prinzipiell keine Grenzen gesetzt: Jede Fragestellung ist grundsätzlich denkbar. Jedoch muss eine wissenschaftliche Fragestellung bestimmte Voraussetzungen erfüllen. Erstens sollte sie konkret genug sein, um anhand der vorliegenden Daten überprüft werden zu können. Zweitens sollte sie sich in eine falsifizierbare Hypothese umformulieren lassen. Eine Fragestellung wie „Essen Wissenschaftler viele Pralinen?“ ist beispielsweise sehr unspezifisch und lässt sich nur dann in eine falsifizierbare Hypothese umformulieren, wenn man sie konkreter fasst, indem man beispielsweise eine Vergleichsgruppe hinzuzieht. Die Hypothese könnte dann lauten: „Wissenschaftler essen im Durchschnitt mehr Pralinen als Romanautoren.“

      Die Fragestellung bzw. die Hypothese entscheidet dann über die Wahl der Methode. Ob Wissenschaftler Pralinen essen, lässt sich mit korpuslinguistischen Methoden eher nicht klären. Die Hypothese, dass Süßwaren in wissenschaftlichen Texten häufiger erwähnt werden als in belletristischen, ließe sich hingegen durchaus mit Hilfe von Korpora überprüfen. Hierfür brauchen wir zunächst ein Korpus, das belletristische und wissenschaftliche Texte enthält. Ein solches Korpus ist das DWDS-Kernkorpus des 20. Jahrhunderts, das unter www.dwds.de verfügbar ist.

      Wie jedes Korpus ist das DWDS-Kernkorpus zunächst eine Materialsammlung. Man kann es mit einer großen Bibliothek vergleichen: Ehe man sie benutzen kann, muss man sich zunächst mit ihrem Aufbau und ihrer Organisation vertraut machen sowie mit Möglichkeiten, unter den zahllosen Büchern diejenigen zu finden, nach denen man sucht. Beispielsweise wird man wenig Erfolg haben, wenn man das medizinische Nachschlagewerk „Psychrembel“ in der Bereichsbibliothek Theologie sucht. Und auch in einer medizinischen Fachbibliothek findet man es deutlich leichter, wenn man zuvor den Bibliothekskatalog zu Rate gezogen hat, als wenn man auf gut Glück drauflosstöbert.

      Auf die Korpuslinguistik übertragen bedeutet dies erstens: Ich muss ein Korpus wählen, das für meine Fragestellung geeignet ist. Diesen Schritt haben wir schon getan, denn wir haben gesehen, dass das DWDS-Kernkorpus, wie es unsere Fragestellung erfordert, nach Textsorten untergliedert ist und dass sich unter diesen Textsorten auch die beiden Typen von Texten, die uns interessieren, befinden, nämlich belletristische und wissenschaftliche Texte. Dies führt uns unmittelbar zum zweiten Aspekt: Um entscheiden zu können, ob ein Korpus für unsere Fragestellung geeignet ist, müssen wir uns mit seinem Aufbau und seiner Organisation vertraut machen. Zu jedem guten Korpus gibt es eine Dokumentation, der wir beispielsweise entnehmen können, nach welchen Prinzipien das Korpus zusammengestellt wurde, welche Textsorten vertreten sind, wie groß die Subkorpora für jede Textsorte oder jeden Zeitschnitt sind, und vieles mehr.

      Drittens schließlich muss man wissen, wie man ein Korpus durchsucht. Ebenso wie es im Falle der Bibliothek unerlässlich ist, sich in die Nutzung des (heutzutage meist digitalen) Bibliothekskatalogs einzuarbeiten, ist es in der Korpuslinguistik vonnöten, das jeweilige Abfragesystem kennenzulernen. Es gibt eine ganze Reihe von Abfragesystemen, deren Abfragesyntax sich teilweise unterscheidet. Ein Abfragesystem ist beispielsweise das Corpus Search, Management and Analysis System des Instituts für Deutsche Sprache, kurz COSMAS, das derzeit in der zweiten Generation vorliegt. Tatsächlich wird „COSMAS II“ häufig synonym mit dem Deutschen Referenzkorpus (DeReKo) verwendet, das über diese Schnittstelle zugänglich ist. Ein anderes Abfragesystem ist beispielsweise ANNIS, worüber die schon verfügbaren Texte von „Deutsch Diachron Digital“ zugänglich sind.

      Auf die meisten Korpora kann man über web-basierte Schnittstellen zugreifen. Einige Korpusabfrageprogramme lassen sich jedoch auch herunterladen und lokal installieren. Zum Durchsuchen einfacher Textdateien eignet sich beispielsweise AntConc (http://www.laurenceanthony.net/software/antconc/). Dies setzt aber voraus, dass Sie die Textdateien auf Ihrem Rechner verfügbar haben. Viele Korpora gibt es jedoch aus urheberrechtlichen Gründen nicht zum Download, sie lassen sich nur online durchsuchen. Bei sprachhistorischen Korpora sind die urheberrechtlichen Hürden zum Glück oft geringer – das Bonner Frühneuhochdeutschkorpus, das GerManC-Korpus und das Deutsche Textarchiv beispielsweise lassen sich (fast) vollständig herunterladen, was in vielen Fällen flexiblere Suchen ermöglicht.

      Kommen wir zu unserem Beispiel zurück, den Begriffen für Süßwaren. Um unsere Fragestellung korpuslinguistisch zu operationalisieren, müssen wir zunächst Begriffe auswählen, nach denen wir suchen wollen. Für unser Beispiel benutzen wir fünf Begriffe aus dem Wortfeld „Süßwaren“; für eine echte Recherche wäre natürlich eine umfassendere Suche notwendig, und man könnte z.B. auf ein Synonymlexikon zurückgreifen, um möglichst viele Lexeme zu finden und das Wortfeld so umfassend wie möglich abzudecken.

      Die Lexeme, die wir für unser Beispiel verwenden, sind Süßwaren, Praline, Schokolade, Bonbon und Süßigkeit. Im Abfragefenster von DWDS geben wir ein:

      $l=Süßwaren || $l=Praline || $l=Bonbon || $l=Schokolade || $l=Süßigkeit

      Mit dem Operator $l geben wir an, dass wir nach dem Lemma unabhängig von der Flexionsform suchen, d.h. neben Bonbon auch nach Pluralformen (die Bonbons) oder Genitivformen (des Bonbons). Der horizontale Strich fungiert in fast allen Abfragesystemen als ODER-Operator; dass man ihn hier doppelt setzen muss, ist ein Spezifikum des DWDS-Abfragesystems.

      Eine alternative, etwas effizientere Suchabfrage wäre die folgende, in der die Slashes (/) anzeigen, dass sie von sog. regulären Ausdrücken Gebrauch macht, denen wir in den folgenden Kapiteln noch öfter begegnen werden:

      $l=/Süßwaren|Praline|Bonbon|Schokolade|Süßigkeit/

      Da hier nicht die DWDS-spezifische Syntax verwendet wird, sondern „normale“ reguläre AusdrückeReguläre Ausdrücke, muss man hier den ODER-Operator nur einmal setzen.

      Als Ergebnis erhalten wir eine sog. Konkordanz im Key Word in Context-Format, kurz KWiC. Wie der Name schon sagt, wird dabei der gesuchte Begriff – das Keyword – im Kontext angezeigt:

Belletristik an manchen Tagen nach Haufen verdorbener Pralinen , zuckrigem Fett .
Belletristik » Vanille und Schokolade , wie du's immer mochtest
Belletristik macht sie sich drei verschiedene Sorten Schokolade gleichzeitig :
Belletristik und legten uns in die Badewanne , aßen Pralinen von Aldi , tranken Bananenmilch vom Pennymarkt
Belletristik Elke läßt eine Praline in den Kaffee sinken

      Solche Konkordanzen kann man in einem Tabellenkalkulationsprogramm wie Excel oder dem kostenlosen Pendant Calc von LibreOffice bearbeiten; nähere Informationen hierzu finden sich in den digitalen Begleitmaterialien. Für unsere Fragestellung jedenfalls zeigt sich, dass Süßwaren in belletristischen Texten deutlich häufiger Erwähnung finden als in wissenschaftlichen

Скачать книгу