82672

Автор(ы): 

Автор(ов): 

2

Параметры публикации

Тип публикации: 

Тезисы доклада

Название: 

Анализ работы BERT-подобных моделей в задачах классификации грамматических ошибок на русском языке

ISBN/ISSN: 

978-5-89155-391-0

Наименование конференции: 

  • 65-я Всероссийская научная конференция МФТИ, посвященная 115-летию Л.Д. Ландау (Москва, 2023)

Наименование источника: 

  • Труды 65-й Всероссийской научной конференции МФТИ, посвященной 115-летию Л.Д. Ландау (Москва, 2023)

Город: 

  • Москва

Издательство: 

  • Физматкнига

Год издания: 

2023

Страницы: 

116-117
Аннотация
На данный момент существует два хорошо изученных подхода, которые показывают наиболее эффективные результаты в задаче исправления грамматических ошибок для английского языка: нейронный машинный перевод и тэггирование последовательности. В подходе нейронного машинного перевода исходный язык содержит предложения с ошибками, а целевой язык содержит предложения без ошибок. Такая модель для исправления грамматических ошибок работает хорошо, но страдает от медленной скорости и плохой интерпретируемости, так как для определения типа ошибки необходим дополнительный функционал. Модели, использующие подход тэггирования последовательности, не страдают такими проблемами, так как они размечают ошибки в исходном предложении, а не генерируют его заново. Также они легко интерпретируется, так как мы решаем задачу классификации, где каждому токену ставится в соответствие тэг с правилом для исправления ошибки из заданного словаря. На данный момент моделью на основе тэггирования последовательности, показывающей лучшие результаты в английском языке, является модель GECToR. Данная модель представляет из себя энкодер на основе архитектуры трансформер с двухголовым классификатором. Первая голова классификатора предсказывает наличие ошибки, а вторая предсказывает конкретный тэг ошибки. После этого соответствующее правило применяется к каждому токену последовательности для исправления ошибки. Если токен не содержит ошибок, то модель должна предсказать специальный тэг, который оставляет его без изменений. Для тестирования модели мы использовали размеченный людьми набор данных RULEC, на котором наша модель не обучалась. Из табл. 1 мы видим, что модель показала результат 22.2 по метрике 𝐹0.5. Данный результат выше моделей авторов данного набора данных, несмотря на тот факт, что модель не обучалась на нем. Это доказывает, что модель имеет хорошую обобщающую способность и не переобучается под конкретную выборку. Табл. 1 также показывает, что обобщающая способность модели растет в течение этапов обучения. Это говорит о том, что добавление данных из другого распределения и уменьшение ложноположительных предсказаний модели положительно влияет на качество работы модели.

Библиографическая ссылка: 

Хабутдинов И.А., Грабовой А.В. Анализ работы BERT-подобных моделей в задачах классификации грамматических ошибок на русском языке / Труды 65-й Всероссийской научной конференции МФТИ, посвященной 115-летию Л.Д. Ландау (Москва, 2023). М.: Физматкнига, 2023. С. 116-117.