Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 15
1. Bird S., Liberman M. A formal framework for linguistic annotation // Speech communication. 2001. Vol. 33. № 1. P. 23–60.
2. Ide N. Corpus Encoding Standard: SGML guidelines for encoding linguistic corpora // Proceedings of the First International Language Resources and Evaluation Conference. 1998. P. 463–470.
3. Ide N., Romary L., de la Clergerie E. International standard for a linguistic annotation framework // Proceedings of the HLT-NAACL 2003 workshop on Software engineering and architecture of language technology systems. Vol. 8. Association for Computational Linguistics, 2003. P. 25–30.
4. Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8/4. Р. 275–281.
5. Sperberg-McQueen C. M. et al. (ed.). Guidelines for electronic text encoding and interchange. Chicago and Oxford: Text Encoding Initiative, 1994. Vol. 1.
6. TEI: Text Encoding Initiative. Доступно по адресу: www.tei-c.org.
1. На странице выбора метаразметки НКРЯ (ruscorpora.ru/mycorpora-main.html) соберите подкорпус, максимально точно соответствующий вашему языковому опыту (возраст, пол, любимая тематика и т. д.). В полученном корпусе задайте поиск характерных для вас словечек или выражений. Нашли? Совпал ли ваш языковой опыт с данными корпуса? При желании сделайте такое же сравнение языкового опыта ваших родителей или бабушек и дедушек.
2. Вспомните прослушанные вами курсы по фонетике и грамматике и подумайте, какие проблемы возникнут при анализе следующих единиц:
a) на фонетическом уровне: быль,
b) на словообразовательном уровне: вынуть,
c) на морфологическом: Вась!,
d) на синтаксическом: Ему весело.
Подумайте и объясните, разметку какого уровня легче автоматизировать: звукового, морфологического, лексического или синтаксического. Почему?
3*. В следующем фрагменте попробуйте указать формальные критерии (то есть строгие и однозначные), которые разделят текст на предложения и словоформы. Если сделать это не удалось, объясните, что вызвало проблемы.
И блистали столетние липы
Невозможной такой красотой.
Здесь теперь обретаются VIP-ы,
А была – слобода слободой.
И юннат был мечтательным малым —
Слава, праздность, любовь и т. п.
Он сказал себе: «Что если надо
Стать писателем?» Вот он и стал им.
Глава 6. Морфологическая разметка
Я не устану повторять, что компьютерные программы умеют работать лишь с символьными цепочками (например, буквы С-Т-О-Л или – на более глубоком уровне – сочетания нулей и единиц). Именно цепочки букв являются основным объектом анализа лингвистических программ. Основной единицей морфологической разметки является текстоформа, или токен – цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы рус. буду читать, англ. wake up). С этим связаны и основные сложности морфологической разметки.
– Доктор, доктор,