Введение в корпусную лингвистику. Михаил Копотев
Чтение книги онлайн.
Читать онлайн книгу Введение в корпусную лингвистику - Михаил Копотев страница 6
1. Британский национальный корпус (British National Corpus, BNC)
http://www.natcorp.ox.ac.uk/; corpus.byu.edu/bnc
100-миллионый корпус разговорных и письменных текстов британского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую разметку.
2. Американский национальный корпус (American National Corpus, ANC)
22-миллионный корпус разговорных и письменных текстов американского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую, частично синтаксическую разметку и разметку составных имен собственных.
3. Несколько корпусов испанского языка:
Корпус испанского языка (Сorpus del español)
http://www.corpusdelespanol.org/
Содержит тексты XIII–XX веков объемом ок. 100 млн слов. Есть частеречная и металингвистическая разметки.
Корпус современного испанского языка (Corpus del español actual, CEA)
sfn.uab.es:8080/SFN/tools/cea/english
Содержит около 540 млн лемматизированных и морфологически аннотированных слов, извлеченных из Википедии и юридических документов (резолюции ООН и документы Европарламента).
4. Итальянский корпус (Corpus di Italiano Scritto)
Содержит современные письменные итальянские тексты объемом около 130 млн слов. Содержит частеречную разметку.
5. Корпус немецкого языка Cosmas II (das Projekt COSMAS II)
http://www.ids-mannheim.de/cosmas2/
Вторая версия немецкого национального корпуса, объединяющая свыше 100 разных подкорпусов общим объемом свыше 8,7 млрд слов. Содержит морфологическую и синтаксическую разметки.
6. Лексическая база данных французского языка FRANTEXT (le corpus Frantext)
К сожалению, хорошего национального корпуса французского языка не существует. Доступно только неразмеченное собрание текстов XVIII–XX веков общим объемом более 200 млн слов.
7. Греческий национальный корпус (Εθνικός Θησαυρός Ελληνικής Γλώσσας)
Корпус объемом более 47 млн слов разных жанров второй половины XX – начала XXI века. Разметка содержит леммы и части речи.
8. Ланкастерский корпус китайского