84679 | ИПУ РАН

Автор(ы):

Автор(ов):

Параметры публикации

Тип публикации:

Статья в журнале/сборнике

Название:

Исправление грамматических ошибок на уровне подслов: универсальный подход

ISBN/ISSN:

2079-8156

DOI:

10.15514/ISPRAS-2026-38(3)-11

Наименование источника:

Труды Института системного программирования РАН

Обозначение и номер тома:

Т. 38, вып. 3, ч. 1

Город:

Москва

Издательство:

Институт системного программирования РАН

Год издания:

2026

Страницы:

187-196

Аннотация

В данном исследовании мы предлагаем полностью автоматическую методологию генерации данных, построения словаря правил исправления и обучения модели разметки последовательностей, специально ориентированную на исправление грамматических ошибок. Наш подход работает на уровне подслов SentencePiece, используя базовые преобразования – сохранение, добавление, замену и удаление, которые универсально применимы во всех языках, тем самым устраняя необходимость в грамматически-специфичных операциях. Используя алгоритм Левенштейна для генерации истинных исправлений и редакционных предписаний, мы получили полностью неконтролируемый и независимый от языка процесс генерации наборов данных. Мы применили наш метод к модели разметки последовательностей GECToR и достигли сопоставимых результатов качества для английского языка с оценками F0.5 62,4 на CoNLL-2014 (тестовый набор) и 61,9 на BEA-2019 (тестовый набор), без ручного конструирования правил и аннотации типов ошибок. Это показывает, что универсальные правила на уровне подслов могут стать альтернативой грамматическим операциям, при этом требуя только параллельные тексты – с ошибками и без ошибок.

Библиографическая ссылка:

Хабутдинов И.А., Ивахненко А.А., Грабовой А.В., Чехович Ю.В., Кильдяков А.С. Исправление грамматических ошибок на уровне подслов: универсальный подход // Труды Института системного программирования РАН. 2026. Т. 38, вып. 3, ч. 1. С. 187-196.