Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 7
12. Словацкий национальный корпус (Slovenský národný korpus)
Объем корпуса – более миллиарда употреблений, часть корпуса морфологический размечена.
13. Болгарский национальный корпус (Български национален корпус)
Основной корпус объемом около 1 млн единиц и 14 параллельных подкорпусов объемом 4 млрд единиц. Корпус содержит частичную морфосинтаксическую разметку.
14. Корпуса древнерусского языка
1) Исторический корпус в составе Национального корпуса русского языка делится на несколько подкорпусов:
● церковнославянский: ruscorpora.ru/search-orthlib.html (объем – ок. 500 тыс. токенов);
● среднерусский: ruscorpora.ru/search-mid_rus.html (объем – ок. 3 млн токенов);
● древнерусский: ruscorpora.ru/search-old_rus.html (объем – ок. 500 тыс. токенов);
● берестяные грамоты: ruscorpora.ru/search-birchbark.html (объем – ок. 20 тыс. токенов).
Объем корпусов стремительно увеличивается, так что к тому моменту, когда вы читаете эти строки там наверняка появились новые тексты. Поиск в историческом корпусе с некоторыми ограничениями аналогичен поиску в основном корпусе: в нем есть богатая метаразметка, леммы, морфологические признаки.
2) Регенсбургский диахронический корпус русского языка (RRuDi)
rhssl1.uni-regensburg.de/SlavKo/korpus/rrudi-new
Корпус содержит 13 древнерусских текстов с возможностью поиска по токену, лемме и по части речи.
3) Рукописные памятники Древней Руси
Сайт содержит корпус древнерусских берестяных грамот, корпус русских летописей и некоторые древнерусские переводные тексты. Основная часть текстов доступна в формате PDF (c возможностью поиска), но часть содержит грамматическую разметку.
4) Великие Четьи-Минеи митрополита Макария
Электронное издание 12 книг, содержащих жития, поучения и апокрифы, написанные на восточнославянском варианте церковнославянского языка.
5) Проект «Манускрипт»
Корпуса древнерусских и среднерусских текстов, написанных в основном на церковнославянском языке, включает жития, служебные тексты, летописи и т. д. Существует возможность поиска по токену.
6) Корпус северно-русских житий СКАТ
Корпус текстов XV–XVII веков объемом ок. 500 тыс. единиц с возможностью поиска токенов в словоуказателе и перехода к фрагментам текстов.
В 1985 году в Институте русского языка им. В. В. Виноградова РАН был создан Отдел