На данный момент существует два хорошо изученных подхода, которые показывают наиболее эффективные результаты в задаче исправления грамматических ошибок для английского языка: нейронный машинный перевод и тэггирование последовательности. В подходе нейронного машинного перевода исходный язык содержит предложения с ошибками, а целевой язык содержит предложения без ошибок.
Такая модель для исправления грамматических ошибок работает хорошо, но страдает от медленной скорости и плохой интерпретируемости, так как для определения типа ошибки необходим дополнительный функционал. Модели, использующие подход тэггирования последовательности, не страдают такими проблемами, так как они размечают ошибки в исходном предложении, а не генерируют его заново. Также они легко интерпретируется, так как мы решаем задачу классификации, где каждому токену ставится в соответствие тэг с правилом для исправления ошибки из заданного словаря.
На данный момент моделью на основе тэггирования последовательности, показывающей лучшие результаты в английском языке, является модель GECToR. Данная модель представляет из себя энкодер на основе архитектуры трансформер с двухголовым классификатором. Первая голова классификатора предсказывает наличие ошибки, а вторая предсказывает конкретный тэг ошибки. После этого соответствующее правило применяется к каждому токену последовательности для исправления ошибки. Если токен не содержит ошибок, то модель должна предсказать специальный тэг, который оставляет его без изменений.
Для тестирования модели мы использовали размеченный людьми набор данных RULEC, на котором наша модель не обучалась. Из табл. 1 мы видим, что модель показала результат 22.2 по метрике 𝐹0.5.
Данный результат выше моделей авторов данного набора данных, несмотря на тот факт, что модель не обучалась на нем. Это доказывает, что модель имеет хорошую обобщающую способность и не переобучается под конкретную выборку. Табл. 1 также показывает, что обобщающая способность модели растет в течение этапов обучения. Это говорит о том, что добавление данных из другого распределения и уменьшение ложноположительных предсказаний модели положительно влияет на качество работы модели.