Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 10
The HCRC Map Task Corpus
Этот корпус был собран в Шотландии и состоит из диалогов, в которых один собеседник объясняет другому маршрут. Все бы ничего, но говорящие разделены непрозрачной перегородкой (то есть не могут использовать жесты) и не имеют общей карты.
К предыдущей части примыкает и разделение текстов, входящих в корпус, на разные жанры. Корпус может состоять не только из литературных произведений разных жанров (например, фанфик или исторический роман), но и из текстов разговорных, публицистических, исторических и даже ученических.
В течение одного лета 2013 года студенты и ученые записывали диалектные данные в одном районе Архангельской области. В результате появился корпус, созданный на основе этих записей. Он включает тексты одного жанра: рассказы носителей северо-русского диалекта. Этот корпус называется «Язык бассейна Устьи. Корпус северорусской диалектной речи». На сайте www.slavist.de/Pushkino вы сможете послушать, как звучит живая диалектная речь.
Корпус может содержать как полные тексты, так и фрагменты. Фрагментированный корпус обеспечивает лучшую сбалансированность собранного материала.
Брауновский корпус (Brown University Standard Corpus of Present-Day American English, Brown Corpus). Один из первых корпусов был создан в начале 1960-х годов и состоял из пятисот случайно выбранных фрагментов объемом около 2000 слов из текстов 15 разных жанров. При этом доля фрагментов одного жанра соответствовала доле всех опубликованных текстов этого жанра. По замыслу составителей, именно это обеспечило сбалансированность собранного материала.
Особыми типами фрагментированного корпуса могут считаться корпуса n-грамм и конкордансы.
Корпуса n-грамм
Как следует из названия, такой корпус содержит загадочные n-граммы (англ. n-grams) – цепочки, состоящие из идущих подряд двух, трех, четырех и т. д. токенов (их называют, соответственно, биграммы, триграммы, 4-граммы и т. д.).
Вот как выглядит обычный текст и его представление в виде би- и триграмм.
Согласитесь, довольно странный и неудобный вид. Но даже эти короткие фрагменты показывают, что некоторые n-граммы (например, не до) встречаются чаще, чем другие. Следовательно, такой корпус позволяет искать устойчивые сочетания. Примерами фрагментированного корпусов такого типа являются Google n-gram corpus (books.google.com/ngrams/datasets) и корпуса, составленные на основе НКРЯ (ruscorpora.ru/corpora-freq.html)
Конкордансы
Конкордансом (англ. concordance) в корпусной лингвистике называют список найденных примеров (вхождений) нужного