Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 16
Боксер и боксер – разные лексемы с совпадающими начальными (да и всеми остальными) формами, однако лемма у них одна, поскольку все формы этих слов совпадают, а разница в лексических значениях на морфологическом уровне не учитывается. Лемма – это результат автоматического сведения текстоформ к одной обобщающей единице, отличающийся от начальной формы тем, что для компьютерной морфологии не важны различия в семантике слов или в ударении, если эти различия никак не выражены в буквенной форме слов. Для того чтобы закрепить в корпусе разницу между разными боксерами, придется вводить новый уровень разметки – семантический, о котором пойдет речь дальше. Понятно, что поиск леммы боксер в морфологически размеченном корпусе будет выдавать все формы этих двух разных лексем русского языка. Особенно актуальна проблема определения лексемы для английского языка, в котором омонимия чрезвычайно часта.
Английское предложение Fruit flies like a banana может быть переведено как: 1) Фруктовые мушки любят банан или 2) Фрукт летает как банан.
1. flies ‘мухи’ – лемма fly
flies ‘летит’ – лемма fly
2. like ‘любят’– лемма like
like ‘как’ – лемма like
Согласитесь, трудно разобраться. Для решения проблемы достаточно указать, что текстоформы принадлежат разным частям речи (англ. parts of speech, POS). Такой тип аннотации был назван частеречная разметка (англ. POS-tagging), а значок, условно обозначающий морфологический признак, стал называться тег (англ. tag).
Любопытство лингвистов росло, автоматические анализаторы развивались. Появились программы, которые умеют извлекать из цепочки букв морфологические характеристики текстоформы. Программы, автоматически анализирующие морфологию слов, назвали лингвистическими аннотаторами, или теггерами (от англ. tagger). Получая на входе текстоформу, такая программа выдает полную морфологическую характеристику в виде набора тегов, или тегсета (англ. tagset).
Знаменитая фраза Л. В. Щербы Глокая куздра штеко будланула бокра и курдячит бокрёнка прекрасно иллюстрирует возможность морфологического анализа псевдослов без обращения к лексическому значению:
● Глокая – глокий (прил., жен. р., ед. ч., им. пад.)
● куздра – куздра (сущ., жен. р., ед. ч., им. пад.)
Существует несколько способов (алгоритмов), лежащих в основе таких морфологических анализаторов:
1. Бессловарный метод является самым примитивным. Строго говоря, он не обходится без «словаря», но в словарь заносятся не реально существующие морфемы, а псевдоокончания, или так называемые хвосты.
Например, хвост – алась (купалась, покаталась…) позволяет с точностью в 100 % определить некоторые морфологические параметры слов, оканчивающихся на этот набор букв.
2. Словарные методы
2а. Представление со словарем основ является наиболее корректным с лингвистической точки зрения, так