Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 4
а) Какое определение дает В. А. Плунгян термину «корпус»?
б) Чем лингвист похож на ребенка?
в) Какую часть лингвистической работы сократили языковые корпуса?
г) Что такое Машинный фонд русского языка?
д) Подсчитайте, сколько раз В. А. Плунгян использует формы «корпуснóй / кóрпусный» и «корпусá / кóрпусы».
2. На сайте конференции «Диалог» (http://www.dialog-21.ru/) найдите программу последней конференции. Сколько раз в названиях докладов встречается слово «корпус» и его производные?
3*. Проведите описанный в главе эксперимент, задав окружающим вопрос «Как дела?». Какого количества опрошенных оказалось достаточно, чтобы ответы стали повторяться?
Глава 2. История корпусной лингвистики
Согласно данным корпусов английского языка, термин corpus linguistics был впервые использован в 1977 году. По меркам развития любой науки это не просто недавно, а прямо-таки вчера. Однако за это время корпусная лингвистика успела стать одним из ведущих направлений современной лингвистики. В России новый термин стал известен, по-видимому, в 1996 году благодаря лекциям одного из создателей знаменитого Международного корпуса английского языка (International Corpus of English, ice-corpora.net/ice) Сидни Гринбаума. Во всяком случае первый раз сочетание «корпусная лингвистика» встретилось в русском корпусе в связи с этим именем:
«В декабре народ ломился на лекции по корпусной лингвистике профессора Гринбаума» (журнал «Карьера», № 2, 1999).
Трудно сказать, кто из студентов написал эту заметку в 1999 году, но именно она войдет в историю корпусной лингвистики как первый случай письменной фиксации русского термина.
Конечно, корпусная лингвистика возникла не на пустом месте. Ей предшествовал многовековой период создания корпусов и применения, в сущности, корпусных методов. Однако ключевым отличием от современной корпусной лингвистики были неэлектронная форма хранения материала и, соответственно, неавтоматические способы извлечения данных. Этот период в истории корпусной лингвистики часто называют доцифровым (англ. pre-electronic).
Знаменитая древнеиндийская грамматика, созданная великим Пáнини, была «антицифровой» по форме и корпусной по сути. Созданная приблизительно в V или IV веке до нашей эры, она передавалась буквально из уст в уста – в виде стихов. С другой стороны, она была основана на внушительном корпусе ведических текстов, представлявших уже мертвый на тот момент язык санскрит.
Многие другие доцифровые корпуса тоже были связаны со священными книгами разных религий. Среди них корпус библейских текстов стал самым популярным и наиболее исследованным. Основанные на Библии списки слов с указанием стихов получили название симфоний, или конкордáнций. Первый конкорданс появился в начале XIII века и назывался «Concordantiae morales sacrae scripturae» («Нравственная конкорданция Священного Писания»).
Следующий этап в развитии доцифровых корпусов наступил в XVIII–XIX веках и был связан с созданием словарей и развитием лексикографии. Многие известные до сих пор словари были созданы авторами на основе многотысячных