Введение в корпусную лингвистику

Введение в корпусную лингвистику

Год выхода: 2014
Аннотация
Книга, обсуждающая корпусную лингвистику, является электронным учебником, посвященным этой относительно новой и динамично развивающейся научной дисциплине. Автор издания выражает благодарность всем коллегам и специалистам, которые оказали помощь в создании этого учебника, подчеркивая, что несмотря на его доступную цену, подготовка такого материала требует значительных усилий и ресурсов. Важно отметить, что книга была задумана как электронное издание, что отражает актуальность корпусной лингвистики в условиях современного мира, где компьютационные технологии и интернет играют ключевую роль в анализе текстов. В предисловии автор вводит читателей в основы корпусной лингвистики, объясняя, что эта область науки была признана только в последние десятилетия. Он отмечает, что терминология продолжает развиваться, и выделяет две основные сферы: создание языковых корпусов и лингвистические исследования на основе этих корпусов. Автор подчеркивает, что между этими направлениями нет четкой границы, и эффективная работа в области корпусной лингвистики часто требует сотрудничества лингвистов и IT-специалистов. Задачей учебника является предоставить читателям широкое представление о корпусной лингвистике, представив материал в доступной форме, не перегружая излишними деталями, но при этом не упуская важные математические аспекты. Книга включает различные темы, такие как определение языкового корпуса, методы его создания и разметки, а также рассмотрение значимости интернета как ресурса для корпусной лингвистики. Каждая глава сопровождается заданиями и рекомендациями по дополнительной литературе, что поможет студентам закрепить полученные знания и развить необходимые навыки. В одной из глав рассматриваются различные корпуса русского языка, которые представляют собой важные ресурсы для исследователей. Описываются особенности таких корпусов, как Национальный корпус русского языка (НКРЯ), Тюбингенский корпус и другие. Каждый из этих ресурсов обладает уникальными текстами и набором аннотаций, что открывает возможности для глубокого анализа русского языка. Например, НКРЯ содержит около 500 миллионов слов и разнообразные тексты с морфологической и синтаксической разметкой, что позволяет проводить детализированные исследования. В то время как некоторые корпуса более специализированы для академического использования, есть и коммерческие ресурсы, предлагающие большой объем текста, но менее пригодные для научных изысканий. В пятой главе книги акцентируется внимание на важности лингвистического аннотирования для корпусной лингвистики. Автор указывает, что аннотация облегчает работу с текстами и является неотъемлемой частью создания корпусов, соединяющей теоретические и практические аспекты. Он класссифицирует аннотацию по различным уровням: морфологическому, синтаксическому и семантическому, а также описывает процесс автоматического анализа текстов от токенизации до создания семантических сетей. Автор подчеркивает необходимость использования ясных принципов аннотирования, что расширяет круг пользователей и улучшает взаимодействие с корпусами. Книга завершается размышлениями о том, что языковые корпуса служат не только источником примеров для анализа, но и ресурсом для углубления теоретических подходов к изучению языка. Автор подчеркивает, что существующее разнообразие мнений о морфологии и синтаксисе создает сложности для автоматического аннотирования, что делает корпусную лингвистику важной областью для описания языка и выявления пробелов в научных теориях. Таким образом, данный учебник по корпусной лингвистике служит важным источником знаний как для студентов, так и для исследователей, учреждая мост между языковыми данными и теоретическими основами лингвистики.