Введение в корпусную лингвистику - стр. 11
4. Хельсинкский аннотированный корпус (ХАНКО)
Корпус задуман как составная часть проекта «Функциональный синтаксис русского языка» и предназначен прежде всего для учебных целей. В интернете доступны результаты морфологической и синтаксической разметки. Отличительной чертой корпуса является возможность использовать поиск аналитических морфологических форм (будет читать, читал бы) и точность ручной постобработки.
5. Национальный корпус русского литературного языка (НКРЛЯ)
Корпус задуман как морфологически аннотированная коллекция текстов. По завершении корпус будет максимально репрезентативным, представляя весь лексический состав современного русского литературного языка. Для этого предполагается довести объем корпуса до 100–150 млн словоупотреблений.
6. Система баз данных Интегрум
Коммерческий интернет-ресурс, который включает большинство выходящих в настоящее время публицистических текстов (включая радиопередачи), законодательные документы, справочники, а также некоторое количество художественных текстов. В силу достаточно хорошо развитого языка запросов и удобного разделения материала по типам источников эта поисковая система вполне может быть использована как ежедневно пополняемый мониторинговый корпус. Опыт использования Интегрума в исследованиях разного рода представлен в книге (Никипорец-Такигава 2006).
7. Русский интернет-корпус (I-RU)
Составленный С. Шаровым русский интернет-корпус является частью многоязыковой и многожанровой коллекции корпусов. Этот корпус содержит богатую метаразметку, а также морфологическую и частично синтаксическую и словообразовательную разметки, выполненные автоматически (Sharoff 2006).
Следующая таблица обобщает основные особенности описанных корпусов.
Таким образом, в распоряжении лингвиста, изучающего русский язык, имеется ряд возможностей обращаться к разным текстовым материалам, обладающим своими преимуществами и недостатками. Интегрум несопоставимо больше по объему, чем все остальные ресурсы (например, слово корпус в разных значениях встречается в нем свыше 2 млн раз; в Национальном корпусе – ок. 20 тыс., в ХАНКО – 3 раза). Однако Интегрум не предназначен специально для изучения русского языка и содержит только сплошные тексты без морфологической разметки. В Национальном корпусе можно осуществлять поиск на представительной выборке текстов XVIII–XXI веков, используя морфологические и семантические параметры и богатую систему жанровых и функциональных признаков текста. ХАНКО лучше подходит для целей преподавания, поскольку содержит более качественное и традиционное аннотирование.
1. Mitrenina О. The Corpora of Old and Middle Russian Texts as an Advanced Tool for Exploring an Extinguished Language // Scrinium. Revue de patrologie, d’hagiographie critique et d’histoire ecclésiastique. 10 (2014) [forthcoming]
2. Mustajoki A. The Integrum database as a powerful tool in research on contemporary Russian // Integrum: mочные меmоды и гуманиmарные науки. М., 2006. С. 50–75.
3. Sharoff, S. Open-source corpora: Using the net to fish for linguistic data // International Journal of Corpus Linguistics. 2006. № 11(4). P. 435–462. Доступно по адресу: