69985 | ИПУ РАН

Автор(ы):

Автор(ов):

Параметры публикации

Тип публикации:

Тезисы доклада

Название:

Морфологический анализ рускоязычного текста при помощи морфологических парадигм

ISBN/ISSN:

978-5-00189-126-0

Наименование конференции:

47-я Международная молодежная научная конференция «Гагаринские чтения» (Москва, 2021)

Наименование источника:

Сборник тезисов 47-й Международной молодежной научной конференции «Гагаринские чтения» (Москва, 2021)

Город:

Москва

Издательство:

Перо

Год издания:

2021

Страницы:

270

Аннотация

Морфологический анализ текста это один из необходимых этапов обработки текста на естественном языке, на котором происходит определение частей речи и грамматических признаков слов. В работе предлагается алгоритмический метод морфологического анализа отдельных слов и предложений при помощи заранее известного программе множества окончаний. Морфологической парадигмой в лингвистике называется набор словоформ, принадлежащих одной лексеме. Для существительного, например, парадигма будет состоять обычно из 12 словоформ, то есть из всех комбинаций изменения времени и падежа. В русском языке именно окончание определяет и часть речи, и грамматические признаки слов, когда как суффиксы и корень не всегда могут дать ответ. Назовём набор окончаний, присущих парадигме слова рядом. Вид ряда для конкретной леммы зависит от последних букв окончания, ударения, склонения, грамматического рода и других признаков. Таких рядов для каждой части речи в русском языке можно выделить постоянное множество. Таким образом можно дать очень точный набор вариантов разбора слова, выделив окончания слова и произведя поиск этого окончания среди рядов. Зная только к какому ряду принадлежит данная словоформа и номер окончания в ней, можно не только извлекать информацию о слове, поскольку ряды соответствуют вышеописанным грамматическим признакам, но и склонять его свободно, просто меняя номер окончания. Из-за повсеместного совпадения вида окончаний разбор слова без контекста, как есть, неизбежно будет содержать неопределённый набор вариантов разбора. Истинный среди них можно найти путём усечения множества вариантов при помощи информации о самом слове, в частности при помощи суффиксов, и информации о контексте слова, как например о предлоге перед словом. Таким образом можно получить морфологический анализ предложения, разбирая каждое слово предложения последовательно с использованием информации о предыдущих разборах. Реализованный в результате работы метод обеспечивает как высокую точность, так и высокую скорость работы при минимальных затратах памяти, однако в текущей реализации чувствителен к опечаткам и не предполагает использование для других языков кроме русского.

Библиографическая ссылка:

Кудинов И.Д., Лемтюжникова Д.В., Сергеев С.А. Морфологический анализ рускоязычного текста при помощи морфологических парадигм / Сборник тезисов 47-й Международной молодежной научной конференции «Гагаринские чтения» (Москва, 2021). М.: Перо, 2021. С. 270.