Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 13
6. Объем данных:
а) представительный корпус (национальный),
б) иллюстративный,
в) мониторинговый.
7. Тип доступа:
а) свободно распространяемый,
б) академическая лицензия,
в) ограниченный доступ.
8. Страна создания и авторские права.
1. Lee D. Genres, registers, text types, domains, and styles: clarifying the concepts and navigating a path through the BNC jungle // Language Learning & Technology. Vol. 5. № 3. September 2001. Р. 37–72. Доступно по адресу: llt.msu.edu/vol5num3/pdf/lee.pdf.
2. Resnik P., Broman Olsen M., Diab M.The Bible as a Parallel Corpus: Annotating the ‘Book of 2000 Tongues’ // Computers and the Humanities. 1999. Vol. 33. № 1–2. Р. 129–153. Доступно по адресу: www.springerlink.com/content/u240g32544t26777.
3. Sinclair J. EAGLES Preliminary recommendations on Corpus Typology, EAGLES Document EAG-TCWG-CTYP/P. 1996. Доступно по адресу: www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html.
4. Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М., 2005. С. 62–88.
5. Савчук С. О., Шаров С. А. Типология текстов для представительного корпуса // Труды международной конференции «Корпусная лингвистика – 2004». СПб.: Издательство С.-Петербургского университета, 2004. С. 352–362.
1. Пользуясь предложенной классификацией, мысленно «составьте» свой корпус (выберите язык, тип текстов и т. д.). Объясните, в каких исследовательских или учебных задачах его можно было бы использовать.
2. Главный ресурс по русской корпусной лингвистике – Национальный корпус русского языка, расположенный по адресу ruscorpora.ru. Объясните, почему в адресе сайта используется множественное число английского слова corpus – corpora. Зайдите на сайт и выясните, какие виды корпусов там представлены и каков их объем в настоящий момент.
3. Пользуясь описанными выше корпусами, проверьте, как изменялась частотность лемм «советский» и «товарищ» в русских текстах XVIII–XXI веков. Какое из этих слов, по вашему мнению, сохранится в языке и в будущем?
4*. Познакомьтесь с корпусом n-грамм на сайте books.google.com/ngrams. Выбрав русский язык, экспериментально определите максимально допустимое количество слов в n-граммах.
Глава 5. Типы лингвистического аннотирования
Один из основателей корпусной лингвистки Джордж Лич написал однажды, что корпус предлагается пользователю на основе старого римского принципа caveat emptor, что значит «Пусть покупатель будет осмотрителен». Многие из нас скорее согласятся работать с корпусом, содержащим хоть какую-то лингвистическую разметку, чем захотят аннотировать самостоятельно или ждать безупречно подготовленный корпус. Создание корпуса – результат компромисса между «большой» теорией и возможностями ее компьютерной реализации. Из этого вовсе не следует, что всякий корпус несовершенен, но пользователь должен понимать его особенности и ограничения.
В грамматическом словаре А. А. Зализняка мы найдем указание на отсутствие множественного числа у лексемы любовь. В НКРЯ это слово встречается в формах любови, (без) любовей. Дело не в том, что даже в этом очень качественном словаре есть упущения, а в том, что в любом живом языке в результате словотворчества возникают и исчезают лексемы, словоформы