Размер шрифта
-
+

Введение в корпусную лингвистику - стр. 14

обеспечивает лучшую сбалансированность собранного материала.

Брауновский корпус (Brown University Standard Corpus of Present-Day American English, Brown Corpus). Один из первых корпусов был создан в начале 1960-х годов и состоял из пятисот случайно выбранных фрагментов объемом около 2000 слов из текстов 15 разных жанров. При этом доля фрагментов одного жанра соответствовала доле всех опубликованных текстов этого жанра. По замыслу составителей, именно это обеспечило сбалансированность собранного материала.

Особыми типами фрагментированного корпуса могут считаться корпуса n-грамм и конкордансы.

Корпуса n-грамм

Как следует из названия, такой корпус содержит загадочные n-граммы (англ. n-grams) – цепочки, состоящие из идущих подряд двух, трех, четырех и т. д. токенов (их называют, соответственно, биграммы, триграммы, 4-граммы и т. д.).

Вот как выглядит обычный текст и его представление в виде би- и триграмм.


Согласитесь, довольно странный и неудобный вид. Но даже эти короткие фрагменты показывают, что некоторые n-граммы (например, не до) встречаются чаще, чем другие. Следовательно, такой корпус позволяет искать устойчивые сочетания. Примерами фрагментированного корпусов такого типа являются Google n-gram corpus (books.google.com/ngrams/datasets) и корпуса, составленные на основе НКРЯ (ruscorpora.ru/corpora-freq.html)

Конкордансы

Конкордансом (англ. concordance) в корпусной лингвистике называют список найденных примеров (вхождений) нужного токена или леммы в минимальном контексте. Обычно такой контекст представляет собой фрагмент из нескольких единиц слева и справа. Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word in context). Вообще, конкорданс – не столько корпус, сколько формат показа результатов. Вот пример конкорданса, составленного по запросу «Пушкин – наше»:



5. Типы разметки (аннотация)

Метатекстовая разметка

Самый простой тип разметки – информация о текстах, вошедших в корпус: метатекстовая разметка, или метаданные (англ. metadata). Такая разметка содержит информацию о внешней истории текстов: обстоятельства создания, социальные и возрастные характеристики автора, правила использования корпуса и т. д. Одна из самых подробных схем метаразметки представлена в Национальном корпусе русского языка (она называется паспорт текста).

I.1.

● Автор текста: имя, пол, дата рождения (или примерный возраст)

● Название текста

● Время создания текста

● Объем текста

II.1. Художественные тексты

● Жанр текста: историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика и т. п.

● Тип текста: анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т. п.

● Хронотоп текста: доисторический период, античность, Средние века, Новое время, Россия: 19 век, Россия: 20 век (до 1914), Россия/СССР: война 1914–1918, революция, гражданская война, 20-е гг., 30-е гг., война 1941–1945, послевоенный период (до 1952), 50-е гг., 60–80 гг., перестройка, Россия: постсоветский период.

II.2. Нехудожественные тексты

● Сфера функционирования текста: бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.

Страница 14