Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 9
6. Копотев М. В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6. Корпусная лингвистика в России. 2003. Т. 2. С. 33–36.
7. Копотев М. В., Янда Л. [Рецензия на НКРЯ] // Вопросы языкознания. 2006. № 5. С. 149–155.
8. Резникова Т. И. Славянская корпусная лингвистика: современное состояние ресурсов // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 402–461.
9. Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) // Национальный корпус русского языка: 2003–2005. М.: Индрик, 2005. С. 31–61.
10. Сичинава Д. В. Национальный корпус русского языка: очерк предыстории // Национальный корпус русского языка: 2003–2005. М.: Индрик, 2005. C. 21–30.
1. Назовите корпуса (любых языков), которые были вам известны до прочтения этой главы. В какие годы они были созданы?
2. Поищите в Гугле или Яндексе сочетание «лингвистический корпус» с ограничением за последний год. Появились ли новые корпуса за это время?
3. Существуют ли корпуса хинди (больше 360 млн говорящих), арабского (больше 320 млн говорящих), бенгальского (больше 200 млн говорящих)? Попробуйте найти их, пользуясь каталогами, поисковыми системами и Википедией.
4*. Взяв за основу приведенную в главе таблицу, описывающую русские корпуса, дайте характеристику найденного в Задании 3 корпуса.
Глава 4. Классификация корпусов
Корпус разговоров у киоска – один из самых экзотических. Он собран в Финляндии и содержит разговоры покупателя и продавца, состоящие из очень коротких реплик. Вот пример полного диалога из такого корпуса.
Самое простое деление корпусов предполагает выделение одноязычных (англ. monolingual), то есть содержащих тексты на одном языке, и многоязычных (англ. multilingual). Многоязычные корпуса в свою очередь могут состоять из разных текстов, возникших, например, в ситуации многоязыкового общения, или одинаковых текстов, переведенных на разные языки. Последние представлены в виде параллельного корпуса (англ. parallel corpus), в котором тексты на разных языках связаны на уровне предложений или абзацев (выравнивание, алайнмент, англ. alignment). Особым типом корпуса является сравнительный корпус (англ. comparable corpus), в котором по определенным одинаковым критериям собраны тексты на разных языках или вариантах языка.
Самая переводимая книга – Библия. Число языков, на которые она переведена целиком или частично, приближается к трем тысячам. Параллельный корпус переводов Библии уже много лет создается в Университете Мэриленд (США) и пока не закончен.
Следующее важное разделение – по типам текстов. Исторически первыми были корпуса письменных текстов