Введение в корпусную лингвистику. Михаил Копотев

Чтение книги онлайн.

Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 8

Введение в корпусную лингвистику - Михаил Копотев

Скачать книгу

target="_blank" rel="nofollow" href="http://www.sfb441.uni-tuebingen.de/b1/rus/korpora.html">www.sfb441.uni-tuebingen.de/b1/rus/korpora.html

      В основе корпуса лежит старейший общедоступный русскоязычный Упсальский корпус русских текстов (www.slaviska.uu.se/korpus.htm), к материалам которого были добавлены тексты интервью. Ресурс стал первым морфологически аннотированным корпусом по русскому языку, появившимся в интернете в открытом доступе. В настоящее время работа над корпусом завершена.

      3. Открытый корпус (Opencorpora)

      opencorpora.org

      Особенность корпуса кроется в прилагательном «открытый»: он состоит из свободно распространяемых текстов, размечаемых силами волонтеров; корпус доступен для свободного бесплатного использования в рамках лицензии СС (Creative Commons). Проект существует с 2011-го года, и в настоящий момент корпус еще доступен для скачивания. Корпус содержит морфологическую и частично синтаксическую разметки.

      4. Хельсинкский аннотированный корпус (ХАНКО)

      www.slav.helsinki.fi/hanco

      Корпус задуман как составная часть проекта «Функциональный синтаксис русского языка» и предназначен прежде всего для учебных целей. В интернете доступны результаты морфологической и синтаксической разметки. Отличительной чертой корпуса является возможность использовать поиск аналитических морфологических форм (будет читать, читал бы) и точность ручной постобработки.

      5. Национальный корпус русского литературного языка (НКРЛЯ)

      www.narusco.ru

      Корпус задуман как морфологически аннотированная коллекция текстов. По завершении корпус будет максимально репрезентативным, представляя весь лексический состав современного русского литературного языка. Для этого предполагается довести объем корпуса до 100–150 млн словоупотреблений.

      6. Система баз данных Интегрум

      www.integrum.ru

      Коммерческий интернет-ресурс, который включает большинство выходящих в настоящее время публицистических текстов (включая радиопередачи), законодательные документы, справочники, а также некоторое количество художественных текстов. В силу достаточно хорошо развитого языка запросов и удобного разделения материала по типам источников эта поисковая система вполне может быть использована как ежедневно пополняемый мониторинговый корпус. Опыт использования Интегрума в исследованиях разного рода представлен в книге (Никипорец-Такигава 2006).

      7. Русский интернет-корпус (I-RU)

      corpus.leeds.ac.uk/it

      Составленный С. Шаровым русский интернет-корпус является частью многоязыковой и многожанровой коллекции корпусов. Этот корпус содержит богатую метаразметку, а также морфологическую и частично синтаксическую и словообразовательную разметки, выполненные автоматически (Sharoff 2006).

      Следующая таблица обобщает основные особенности описанных корпусов.

Скачать книгу