Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 11
II.2. Нехудожественные тексты
● Сфера функционирования текста: бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.
● Тип текста: автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе и т. п.
● Тематика текста: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т. п.
Уже эта информация позволяет проводить исследования по стилистике, истории, региональным вариантам языка. Однако современный корпус обычно оснащен еще более важным арсеналом – языковой разметкой.
Языковая разметка
Лингвистически аннотированный корпус можно представить как набор языковых единиц, для каждой из которых выполнен языковой разбор, примерно так, как это делают школьники, выполняя, например, морфологический разбор. Конечно, такого рода анализ делают не горемычные школьники и часто вообще не люди, а специальные программы, да и хранятся они не в школьных тетрадках. Вот как может выглядеть компактная морфологическая разметка (попробуйте сами разобраться, что значат, например, первые, заглавные, буквы в аннотации):
Многие корпуса предлагают более глубокую разметку, которая содержит информацию о нескольких языковых уровнях. Однако степень проработанности и, так сказать, обязательности той или иной разметки существенно различается. Типам лингвистического аннотирования будет посвящена вся следующая глава, здесь же отмечу, что почти все корпуса содержат сведения о начальной форме, точнее лемме. Многие корпуса предлагают частичное или полное морфологическое аннотирование; редкие – синтаксический разбор; почти нет таких, которые содержат фонетическое и просодическое аннотирование. В общих чертах схемы аннотирования совпадают с разработанным в структурализме и других лингвистических теориях делением языковой системы на уровни: фонетическая, морфологическая, синтаксическая и т. д. Однако встречаются и очень экзотические типы разметки.
Общение на барабанах
Жители племен бóра и окáйна, живущие в северо-западной Амазонии, «общаются» друг с другом с помощью барабанов. Корпус таких сообщений собран в Перу и содержит аннотированные видеозаписи ритуальных церемоний, в том числе расшифровку барабанных диалогов.
Конечно, чем данных больше, тем лучше. Однако исследования показывают, что иногда достаточно корпуса в пару тысяч слов,