Введение в корпусную лингвистику - стр. 18
Глава 5. Типы лингвистического аннотирования
Один из основателей корпусной лингвистки Джордж Лич написал однажды, что корпус предлагается пользователю на основе старого римского принципа caveat emptor, что значит «Пусть покупатель будет осмотрителен». Многие из нас скорее согласятся работать с корпусом, содержащим хоть какую-то лингвистическую разметку, чем захотят аннотировать самостоятельно или ждать безупречно подготовленный корпус. Создание корпуса – результат компромисса между «большой» теорией и возможностями ее компьютерной реализации. Из этого вовсе не следует, что всякий корпус несовершенен, но пользователь должен понимать его особенности и ограничения.
В грамматическом словаре А. А. Зализняка мы найдем указание на отсутствие множественного числа у лексемы любовь. В НКРЯ это слово встречается в формах любови, (без) любовей. Дело не в том, что даже в этом очень качественном словаре есть упущения, а в том, что в любом живом языке в результате словотворчества возникают и исчезают лексемы, словоформы и значения – окказионализмы.
Если раньше большое количество сил и времени при создании корпусов-коллекций отнимали сбор материала и перевод его в цифровую форму, то современный корпус легко справляется с этими задачами, поэтому он уже должен содержать не только тексты, но и их аннотацию, или разметку (англ. annotation, mark-up, tagging).
Аннотация – это приписанная всем единицам выбранного уровня (текст, предложение, словоформа и т. д.) соответствующая лингвистическая информация. Например, морфологически аннотированный корпус содержит морфологический разбор частей речи – по сути такой же, какой вы делали в школе, но только не для одного-двух, а для всех слов. Представьте, сколько времени надо потратить, чтобы сделать морфологический разбор хотя бы ста тысяч слов!
Если вы создаете корпус для себя или для маленькой исследовательской группы, то разметка может быть понятной только вам и вашим друзьям. Однако многие корпуса публикуются в интернете, с ними работают люди, незнакомые не только с вами, но и с вашей теорией. В таком случае прозрачность и ясность разметки становится ключевым фактором для успешной работы. По словам Дж. Лича (Leech 1991), разметка общедоступного корпуса должна подчиняться нескольким принципам.
● Разметка должна основываться на доступной для пользователя в виде руководства или инструкции схеме анализа, в которой введение каждого параметра должно быть мотивировано.
● Разметка общедоступного корпуса должна быть «теоретически нейтральна», то есть схема разметки по возможности должна не разрывать с традицией, а опираться на знакомую всем систему понятий. Если корпус предназначен не для конкретного проекта, то при его разметке стоит избегать пусть и строгих, но авторских, необщеприняых классификаций, которые требуют предварительного знакомства с той или иной теорией.
● Должно быть ясно, кто и как разрабатывает схему аннотации и каковы ограничения, например юридические или технические, при пользовании корпусом.
Соблюдение этих принципов максимально расширяет круг потенциальных пользователей корпуса и существенно облегчает взаимодействие с информационным ресурсом, хотя может вызвать упреки в «ненаучности». Однако подход к созданию корпуса, не принуждающий авторов нести всю ответственность за логичность и последовательность разметки, а опирающийся на существующие классификации, позволяет заодно выявлять лакуны в описаниях языка, обнаруживать дефекты и противоречия в разных подходах к языку. Конечно, существует множество очень специализированных корпусов, с которыми невозможно работать без предварительной серьезной подготовки. Но по-прежнему верным остается старый принцип Уильяма Оккама: «Не следует множить сущее без необходимости».