Введение в корпусную лингвистику. Михаил Копотев

Чтение книги онлайн.

Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 12

Введение в корпусную лингвистику - Михаил Копотев

Скачать книгу

одного дня.

      Наконец, существуют относительно маленькие иллюстративные корпуса (англ. corpus of examples), задача которых не представлять весь язык, а лишь иллюстрировать те или иные явления. Такие инструменты незаменимы, например, в учебной аудитории при работе со школьниками или иностранными студентами.

      Хельсинкский аннотированный корпус ХАНКО содержит всего 100 тыс. текстоформ. Очень маленький по современным меркам. Но он, единственный в своем роде, содержит разметку в терминах самой популярной синтаксической теории – школьного учения о частях речи и учитывает такие сложные для автоматического анализа формы, как читал бы или буду писать.

7. Тип доступа

      Я сторонник копилефта (англ. copyleft, принципы лицензирования свободно распространяемых продуктов – не путать с пиратством!) и считаю, что все данные, которые могут быть публичными, должны быть публичными. Принцип открытости данных хорошо бы распространить не только на прогноз погоды или статистику рождаемости, но и на языковые тексты, разрешив ученым свободно их использовать. Естественно, не для перепродажи, а для улучшения качества преподавания и разработки новых лингвистических программ. Однако, во-первых, со мной согласны не все, а во-вторых, существуют естественные ограничения, связанные с особыми обстоятельствами сбора материала.

      Русский эмоциональный корпус (РЭК) состоит из видеофрагментов, фиксирующих различные эмоции. Чтобы собрать такой эмоционально нагруженный материал, авторы корпуса записывали разговоры в паспортном столе (где звучит персональная информация) или реакции студентов на третьей (последней!) пересдаче экзамена в университете. Увидеть материалы корпуса могут только его создатели и участники тайных конференций по корпусной лингвистике.

      В целом корпуса обычно бывают:

      ● свободно распространяемыми (и доступными в интернете);

      ● доступными по так называемой академической лицензии, для использования в научной некоммерческой деятельности;

      ● имеющими ограниченный доступ.

      Любой корпус – это компромисс между желаемым и возможным, это гигантское количество вложенной энергии, трудолюбия и творчества. В мире великое множество как отдельных корпусов, так и проектов типа НКРЯ, объединяющих множество разнородных корпусов в рамках одной системы.

Общая классификация корпусов

      1. Язык или языки корпуса:

      а) одноязычные,

      б) многоязычные:

      1) параллельные (один и тот же текст на разных языках),

      2) смешанные (переключение языков, многоязычное общение):

      ● выровненные (параллельные),

      ● невыровненные.

      2. Тип текстов:

      а) письменные тексты,

      б) устные (аудиозаписи и видеозаписи),

      в) смешанные (мультимодальные).

      3. Жанры текстов:

      а) литературные,

Скачать книгу