82390

Автор(ы): 

Автор(ов): 

5

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

RuGECToR: нейросетевая модель на основе правил для исправления грамматических ошибок на русском языке

ISBN/ISSN: 

0132-3474

DOI: 

10.31857/S0132347424040048

Наименование источника: 

  • Программирование

Обозначение и номер тома: 

№ 4

Город: 

  • Москва

Издательство: 

  • ФГБУ "Издательство "Наука"

Год издания: 

2024

Страницы: 

41-48
Аннотация
Исправление грамматических ошибок является одной из основных задач обработки естественного языка. В настоящий момент наиболее эффективной моделью, использующей подход Sequence Tagging с открытым исходным кодом, для английского языка является модель GECToR. Для русского языка данная задача не имеет настолько эффективных решений ввиду отсутствия достаточного количества размеченных данных. Это послужило причиной проведения данного исследования. В исследовании описан процесс создания синтетического набора данных и обучения на нем модели. Архитектура GECToR адаптирована для русского языка и названа соответствующим образом - RuGECToR. Выбор архитектуры обусловлен тем, что в отличие от подхода Sequence-to-Sequence, она проста в интерпретации и не требует большого количества обучающих данных. Целью исследования было обучить модель таким образом, чтобы она обобщала морфологические свойства языка, а не подстраивалась под обучающую выборку. Представленная модель показала результат 82.5 на синтетических данных и 22.2 на наборе данных RULEC с точки зрения метрики F0.5, при этом набор данных RULEC не использовался на этапе обучения.

Библиографическая ссылка: 

Хабутдинов И.А., Чащин А.В., Грабовой А.В., Кильдяков А.С., Чехович Ю.В. RuGECToR: нейросетевая модель на основе правил для исправления грамматических ошибок на русском языке // Программирование. 2024. № 4. С. 41-48.