Размер шрифта
-
+

Введение в корпусную лингвистику - стр. 22

● Глокая – глокий (прил., жен. р., ед. ч., им. пад.)

● куздра – куздра (сущ., жен. р., ед. ч., им. пад.)

Существует несколько способов (алгоритмов), лежащих в основе таких морфологических анализаторов:

1. Бессловарный метод является самым примитивным. Строго говоря, он не обходится без «словаря», но в словарь заносятся не реально существующие морфемы, а псевдоокончания, или так называемые хвосты.

Например, хвост – алась (купалась, покаталась…) позволяет с точностью в 100 % определить некоторые морфологические параметры слов, оканчивающихся на этот набор букв.

2. Словарные методы

2а. Представление со словарем основ является наиболее корректным с лингвистической точки зрения, так как теснее всего связано с обычной лингвистической практикой. Метод состоит в использовании двух словарей. Первый словарь включает все основы (в простом случае корни) слов русского языка с соответствующими частеречными указаниями (например, стол- [сущ], чита- [гл], красн- [прил]). Второй словарь включает все словоизменительные части слова (окончания и иногда квазиокончания типа – лся). При этом каждому аффиксу приписана соответствующая морфологическая информация и сочетаемость с основами: например, – л [[+гл]: муж. р., прош. вр., ед. ч.], что значит «аффикс – л сочетается с глагольными основами и содержит значения муж. р., прош. вр., ед. ч.».

Алгоритм работает следующим образом:

● отделение от конца слова потенциальных окончаний (по заданному в словаре списку): чита-л,

● поиск полученной основы по словарю основ: чита-,

● определение возможности такого сочетания аффикса и основы: {чита- [гл]} {-л [[+гл]: муж., прош., ед.]}.

2б. Анализ, построенный на словаре окончаний, использует псевдосинтаксическую информацию. В словаре такого анализатора содержатся все окончания (с соответствующей морфологической информацией) и служебные слова, помогающие определить синтаксическую структуру. Такой синтаксической рамкой служит, например, цепочка «В – ом – е – ются – и», которая однозначно определяет почти все морфологические параметры слов для множества предложений типа «В большом доме смеются дети». Алгоритм применения состоит в выделении окончаний и поиске подходящей «синтаксической рамки», в которой может существовать окончание.

2 в. Словарь словоформ – способ, который состоит в том, что в словаре хранятся все словоформы всех слов с соответствующей морфологической информацией: например, стол [сущ., ед., им., муж.], столы [сущ., мн., им., муж.].

Понятно, что такой алгоритм требует бóльших ресурсов памяти, но в настоящее время это не является проблемой. Главный недостаток здесь – невозможность анализировать новые слова, не учтенные в словаре.

Многие современные морфологические анализаторы (теггеры) совмещают метод поиска по словарю словоформ (для знакомых слов) и другие методы (для незнакомых слов).

В русистике существует более или менее общепринятая классификация морфологических категорий. Она системно представлена в «Грамматическом словаре русского языка» (ГСРЯ) Андрея Анатольевича Зализняка (первое издание вышло в 1977 году). Страницы этого словаря могут удручающе подействовать на неподготовленного читателя:

Конец ознакомительного фрагмента.

Страница 22
Продолжить чтение