Размер шрифта
-
+

Введение в корпусную лингвистику - стр. 15

● Тип текста: автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе и т. п.

● Тематика текста: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т. п.

Уже эта информация позволяет проводить исследования по стилистике, истории, региональным вариантам языка. Однако современный корпус обычно оснащен еще более важным арсеналом – языковой разметкой.

Языковая разметка

Лингвистически аннотированный корпус можно представить как набор языковых единиц, для каждой из которых выполнен языковой разбор, примерно так, как это делают школьники, выполняя, например, морфологический разбор. Конечно, такого рода анализ делают не горемычные школьники и часто вообще не люди, а специальные программы, да и хранятся они не в школьных тетрадках. Вот как может выглядеть компактная морфологическая разметка (попробуйте сами разобраться, что значат, например, первые, заглавные, буквы в аннотации):



Многие корпуса предлагают более глубокую разметку, которая содержит информацию о нескольких языковых уровнях. Однако степень проработанности и, так сказать, обязательности той или иной разметки существенно различается. Типам лингвистического аннотирования будет посвящена вся следующая глава, здесь же отмечу, что почти все корпуса содержат сведения о начальной форме, точнее лемме. Многие корпуса предлагают частичное или полное морфологическое аннотирование; редкие – синтаксический разбор; почти нет таких, которые содержат фонетическое и просодическое аннотирование. В общих чертах схемы аннотирования совпадают с разработанным в структурализме и других лингвистических теориях делением языковой системы на уровни: фонетическая, морфологическая, синтаксическая и т. д. Однако встречаются и очень экзотические типы разметки.

Общение на барабанах

Жители племен бóра и окáйна, живущие в северо-западной Амазонии, «общаются» друг с другом с помощью барабанов. Корпус таких сообщений собран в Перу и содержит аннотированные видеозаписи ритуальных церемоний, в том числе расшифровку барабанных диалогов.

6. Объем и полнота данных

Конечно, чем данных больше, тем лучше. Однако исследования показывают, что иногда достаточно корпуса в пару тысяч слов, иногда не может помочь и корпус в миллионы слов. Все зависит от поставленной задачи: для анализа стихотворения О. Мандельштама «Мы живем, под собою не чуя страны» может быть достаточно текста этого стихотворения, для анализа языка романов XIX века нужны тексты романов – не всех, но в достаточном количестве. Корпус, который представляет все разнообразие определенного языка или его подъязыка, называют представительным (англ. representative). Еще раз подчеркну: представительный корпус не обязательно содержит все тексты, но их должно быть достаточно, чтобы судить об общих закономерностях. За корпусами,

Страница 15