Читать онлайн книгу - Введение в корпусную лингвистику. Михаил Копотев. Учебная литература. LiveLib

Новинки Лучшее Рекомендации

Информация о книге:

Название:

Автор:

Жанр:

Серия:

Издательство:

Введение в корпусную лингвистику - Михаил Копотев

Скачать книгу

с той или иной теорией.

● Должно быть ясно, кто и как разрабатывает схему аннотации и каковы ограничения, например юридические или технические, при пользовании корпусом.

Соблюдение этих принципов максимально расширяет круг потенциальных пользователей корпуса и существенно облегчает взаимодействие с информационным ресурсом, хотя может вызвать упреки в «ненаучности». Однако подход к созданию корпуса, не принуждающий авторов нести всю ответственность за логичность и последовательность разметки, а опирающийся на существующие классификации, позволяет заодно выявлять лакуны в описаниях языка, обнаруживать дефекты и противоречия в разных подходах к языку. Конечно, существует множество очень специализированных корпусов, с которыми невозможно работать без предварительной серьезной подготовки. Но по-прежнему верным остается старый принцип Уильяма Оккама: «Не следует множить сущее без необходимости».

В этой главе речь пойдет только о лингвистическом аннотировании, то есть о типах лингвистической информации, приписанной той или иной языковой единице. Типы лингвистического аннотирования в целом совпадают с уровнями языка:

● звуковой: звук (аллофон);

● просодический: фонетическое слово (или фраза);

● словообразовательный: морфема;

● морфологический: словоформа;

● лексический: лексема;

● синтаксический: предложение.

Очередность появления разных типов разметок не соответствовала этой уровневой структуре, а зависела от возможностей компьютеров и программ, способных упростить и ускорить аннотирование. Основные этапы развития автоматического анализа связаны с постепенным углублением в анализ конкретной цепочки букв: движением от определения начальной формы до установления семантических связей.

Адам Килгарифф (Adam Kilgariff) выделил следующие этапы развития автоматического анализа текста:

● токенизация (англ. tokenization): выделение в текстовом потоке минимальных фрагментов для последующего анализа (в корпусной лингвистике их принято называть токены (англ. token); ниже мы еще поговорим, что это такое и чем они отличается от словоформы);

● лемматизация (англ. lemmatization): определение для всех токенов их начальной формы (точнее леммы (англ. lemma); ниже мы поговорим, чем они отличаются от лексем);

● частеречная разметка (англ. POS tagging): определение части речи каждого слова;

● полная морфологическая разметка (англ. full morphological tagging): приписывание словоформе морфологических признаков;

● синтаксическая разметка, или парсинг (англ. parsing): приписывание определенных синтаксических признаков слову или сочетанию слов;

● семантическая разметка (англ. semantic annotation): включение лексемы в определенный лексико-семантический класс;

● создание семантических сетей

Скачать книгу

Введение в корпусную лингвистику. Михаил Копотев

Чтение книги онлайн.

Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 14

Информация о книге: