Введение в корпусную лингвистику. Михаил Копотев

Чтение книги онлайн.

Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 15

Введение в корпусную лингвистику - Михаил Копотев

Скачать книгу

и теоретических, и чисто дескриптивных подходов к определенному языку.

Дополнительная литература

      1. Bird S., Liberman M. A formal framework for linguistic annotation // Speech communication. 2001. Vol. 33. № 1. P. 23–60.

      2. Ide N. Corpus Encoding Standard: SGML guidelines for encoding linguistic corpora // Proceedings of the First International Language Resources and Evaluation Conference. 1998. P. 463–470.

      3. Ide N., Romary L., de la Clergerie E. International standard for a linguistic annotation framework // Proceedings of the HLT-NAACL 2003 workshop on Software engineering and architecture of language technology systems. Vol. 8. Association for Computational Linguistics, 2003. P. 25–30.

      4. Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8/4. Р. 275–281.

      5. Sperberg-McQueen C. M. et al. (ed.). Guidelines for electronic text encoding and interchange. Chicago and Oxford: Text Encoding Initiative, 1994. Vol. 1.

      6. TEI: Text Encoding Initiative. Доступно по адресу: www.tei-c.org.

Задания

      1. На странице выбора метаразметки НКРЯ (ruscorpora.ru/mycorpora-main.html) соберите подкорпус, максимально точно соответствующий вашему языковому опыту (возраст, пол, любимая тематика и т. д.). В полученном корпусе задайте поиск характерных для вас словечек или выражений. Нашли? Совпал ли ваш языковой опыт с данными корпуса? При желании сделайте такое же сравнение языкового опыта ваших родителей или бабушек и дедушек.

      2. Вспомните прослушанные вами курсы по фонетике и грамматике и подумайте, какие проблемы возникнут при анализе следующих единиц:

      a) на фонетическом уровне: быль,

      b) на словообразовательном уровне: вынуть,

      c) на морфологическом: Вась!,

      d) на синтаксическом: Ему весело.

      Подумайте и объясните, разметку какого уровня легче автоматизировать: звукового, морфологического, лексического или синтаксического. Почему?

      3*. В следующем фрагменте попробуйте указать формальные критерии (то есть строгие и однозначные), которые разделят текст на предложения и словоформы. Если сделать это не удалось, объясните, что вызвало проблемы.

      И блистали столетние липы

      Невозможной такой красотой.

      Здесь теперь обретаются VIP-ы,

      А была – слобода слободой.

      И юннат был мечтательным малым —

      Слава, праздность, любовь и т. п.

      Он сказал себе: «Что если надо

      Стать писателем?» Вот он и стал им.

(С. Гандлевский)

      Глава 6. Морфологическая разметка

      Я не устану повторять, что компьютерные программы умеют работать лишь с символьными цепочками (например, буквы С-Т-О-Л или – на более глубоком уровне – сочетания нулей и единиц). Именно цепочки букв являются основным объектом анализа лингвистических программ. Основной единицей морфологической разметки является текстоформа, или токен – цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы рус. буду читать, англ. wake up). С этим связаны и основные сложности морфологической разметки.

      – Доктор, доктор,

Скачать книгу