84679

Автор(ы): 

Автор(ов): 

5

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

Исправление грамматических ошибок на уровне подслов: универсальный подход

ISBN/ISSN: 

2079-8156

DOI: 

10.15514/ISPRAS-2026-38(3)-11

Наименование источника: 

  • Труды Института системного программирования РАН

Обозначение и номер тома: 

Т. 38, вып. 3, ч. 1

Город: 

  • Москва

Издательство: 

  • Институт системного программирования РАН

Год издания: 

2026

Страницы: 

187-196
Аннотация
В данном исследовании мы предлагаем полностью автоматическую методологию генерации данных, построения словаря правил исправления и обучения модели разметки последовательностей, специально ориентированную на исправление грамматических ошибок. Наш подход работает на уровне подслов SentencePiece, используя базовые преобразования – сохранение, добавление, замену и удаление, которые универсально применимы во всех языках, тем самым устраняя необходимость в грамматически-специфичных операциях. Используя алгоритм Левенштейна для генерации истинных исправлений и редакционных предписаний, мы получили полностью неконтролируемый и независимый от языка процесс генерации наборов данных. Мы применили наш метод к модели разметки последовательностей GECToR и достигли сопоставимых результатов качества для английского языка с оценками F0.5 62,4 на CoNLL-2014 (тестовый набор) и 61,9 на BEA-2019 (тестовый набор), без ручного конструирования правил и аннотации типов ошибок. Это показывает, что универсальные правила на уровне подслов могут стать альтернативой грамматическим операциям, при этом требуя только параллельные тексты – с ошибками и без ошибок.

Библиографическая ссылка: 

Хабутдинов И.А., Ивахненко А.А., Грабовой А.В., Чехович Ю.В., Кильдяков А.С. Исправление грамматических ошибок на уровне подслов: универсальный подход // Труды Института системного программирования РАН. 2026. Т. 38, вып. 3, ч. 1. С. 187-196.