Введение в корпусную лингвистику - стр. 19
В этой главе речь пойдет только о лингвистическом аннотировании, то есть о типах лингвистической информации, приписанной той или иной языковой единице. Типы лингвистического аннотирования в целом совпадают с уровнями языка:
● звуковой: звук (аллофон);
● просодический: фонетическое слово (или фраза);
● словообразовательный: морфема;
● морфологический: словоформа;
● лексический: лексема;
● синтаксический: предложение.
Очередность появления разных типов разметок не соответствовала этой уровневой структуре, а зависела от возможностей компьютеров и программ, способных упростить и ускорить аннотирование. Основные этапы развития автоматического анализа связаны с постепенным углублением в анализ конкретной цепочки букв: движением от определения начальной формы до установления семантических связей.
Адам Килгарифф (Adam Kilgariff) выделил следующие этапы развития автоматического анализа текста:
● токенизация (англ. tokenization): выделение в текстовом потоке минимальных фрагментов для последующего анализа (в корпусной лингвистике их принято называть токены (англ. token); ниже мы еще поговорим, что это такое и чем они отличается от словоформы);
● лемматизация (англ. lemmatization): определение для всех токенов их начальной формы (точнее леммы (англ. lemma); ниже мы поговорим, чем они отличаются от лексем);
● частеречная разметка (англ. POS tagging): определение части речи каждого слова;
● полная морфологическая разметка (англ. full morphological tagging): приписывание словоформе морфологических признаков;
● синтаксическая разметка, или парсинг (англ. parsing): приписывание определенных синтаксических признаков слову или сочетанию слов;
● семантическая разметка (англ. semantic annotation): включение лексемы в определенный лексико-семантический класс;
● создание семантических сетей (англ. semantic network, frame network): маркировка семантических связей между лексемами.
Этим все возможные типы аннотирования не исчерпываются. Существуют и другие, более специализированные, разметки: фонетическая, просодическая, анафорическая и прочие. Но первым по времени и наиболее развитым объектом аннотирования стала морфология, на основе которой строятся другие типы разметок. Это связано с тем, что компьютер очень легко находит цепочки символов от пробела до пробела – текстоформы, или токены (англ. tokens).
Трудно представить корпус, который смог бы объединить все виды разметок. Корпус, содержащий несколько уровней аннотации, оказывается (во всяком случае сейчас и в обозримом будущем) или непоследовательным, или теоретически не нейтральным. К этому добавляется и проблема «большой» лингвистики. Если взгляды на морфологию в лингвистике более-менее совпадают, то в основе алгоритмов синтаксического разбора часто лежат разные теории. Еще больше сложностей возникает при описании семантического компонента языковых единиц. Эклектичность и неравномерная представленность разных языковых уровней в языковых корпусах выявляет две реально существующие проблемы современной лингвистики: отсутствие полных теоретически обоснованных и общепринятых классификаций, с одной стороны, и сложность (граничащая с невозможностью) автоматического аннотирования на основе этих классификаций – с другой. Всякий языковой корпус в силу необходимости тотального описания материала кристаллизует проблемные области в описании того или иного языка. И в этом смысле корпус является не только инструментом для быстрого поиска примеров, но и источником совершенствования и теоретических, и чисто дескриптивных подходов к определенному языку.