Размер шрифта
-
+

Введение в корпусную лингвистику - стр. 9

5. Корпус немецкого языка Cosmas II (das Projekt COSMAS II)

http://www.ids-mannheim.de/cosmas2/

Вторая версия немецкого национального корпуса, объединяющая свыше 100 разных подкорпусов общим объемом свыше 8,7 млрд слов. Содержит морфологическую и синтаксическую разметки.

6. Лексическая база данных французского языка FRANTEXT (le corpus Frantext)

artfl-project.uchicago.edu

К сожалению, хорошего национального корпуса французского языка не существует. Доступно только неразмеченное собрание текстов XVIII–XX веков общим объемом более 200 млн слов.

7. Греческий национальный корпус (Εθνικός Θησαυρός Ελληνικής Γλώσσας)

hnc.ilsp.gr/en

Корпус объемом более 47 млн слов разных жанров второй половины XX – начала XXI века. Разметка содержит леммы и части речи.

8. Ланкастерский корпус китайского языка (LCMC, Lancaster Corpus of Mandarin Chinese)

www.lancaster.ac.uk/fass/projects/corpus/LCMC

Корпус объемом около 1 млн единиц представляет тексты, написанные на современном мандаринском диалекте китайского языка. Тексты содержат метаразметку и указание на часть речи.

9. Корпус современного украинского языка (Корпус сучасної української мови)

www.mova.info/corpus.aspx

Корпус объемом 13 млн единиц состоит из четырех подкорпусов (художественные, официально-деловые, поэтические, фольклорные тексты). Существует возможность поиска по токенам, леммам и морфологической разметке.

10. Национальный корпус польского языка (Narodowy Korpus Języka Polskiego, NKJP).

nkjp.pl

Корпус объемом в миллиард слов разговорных и письменных текстов современного польского языка. Содержит неполную морфологическую разметку.

11. Чешский национальный корпус (Český národní korpus, ČNK)

ucnk.ff.cuni.cz

Содержит как современные, так и диахронические подкорпуса, устные и письменные тексты. Часть подкорпусов имеет морфологическую и синтаксическую разметки. Общий объем корпуса – более 500 млн единиц.

12. Словацкий национальный корпус (Slovenský národný korpus)

korpus.juls.savba.sk

Объем корпуса – более миллиарда употреблений, часть корпуса морфологический размечена.

13. Болгарский национальный корпус (Български национален корпус)

www.ibl.bas.bg/BGNC_bg.htm

Основной корпус объемом около 1 млн единиц и 14 параллельных подкорпусов объемом 4 млрд единиц. Корпус содержит частичную морфосинтаксическую разметку.

14. Корпуса древнерусского языка

1) Исторический корпус в составе Национального корпуса русского языка делится на несколько подкорпусов:

● церковнославянский: ruscorpora.ru/search-orthlib.html (объем – ок. 500 тыс. токенов);

● среднерусский: ruscorpora.ru/search-mid_rus.html (объем – ок. 3 млн токенов);

● древнерусский: ruscorpora.ru/search-old_rus.html (объем – ок. 500 тыс. токенов);

● берестяные грамоты: ruscorpora.ru/search-birchbark.html (объем – ок. 20 тыс. токенов).

Объем корпусов стремительно увеличивается, так что к тому моменту, когда вы читаете эти строки там наверняка появились новые тексты. Поиск в историческом корпусе с некоторыми ограничениями аналогичен поиску в основном корпусе: в нем есть богатая метаразметка, леммы, морфологические признаки.

2) Регенсбургский диахронический корпус русского языка (RRuDi)

rhssl1.uni-regensburg.de/SlavKo/korpus/rrudi-new

Корпус содержит 13 древнерусских текстов с возможностью поиска по токену, лемме и по части речи.

Страница 9