82673

Автор(ы): 

Автор(ов): 

2

Параметры публикации

Тип публикации: 

Доклад

Название: 

Многозадачное обучение для распознавания машинно-сгенерированных текстов

ISBN/ISSN: 

978-5-89155-391-0

Наименование конференции: 

  • 65-я Всероссийская научная конференция МФТИ, посвященная 115-летию Л.Д. Ландау (Москва, 2023)

Наименование источника: 

  • Труды 65-й Всероссийской научной конференции МФТИ, посвященной 115-летию Л.Д. Ландау (Москва, 2023)

Город: 

  • Москва

Издательство: 

  • Физматкнига

Год издания: 

2023

Страницы: 

117-119
Аннотация
Большинство алгоритмов глубокого обучения оптимизируют параметры моделей для решения одной задачи (single-task). В целях повышения обобщающей способности, скорости обучения и производительности модели распространено применение многозадачного (multi-task) обучения, за счет обработки информации, разделяемой между задачами. При совместном использовании некоторых параметров сети модель может получить более эффективное и компактное представление данных, что в свою очередь является полезным, когда задачи связаны или имеют общие черты. Многообразие и стремительное развитие языковых генеративных моделей привело к появлению большого количества искусственных текстов. Сгенерированные фрагменты могут нести за собой плагиат, логические ошибки и информацию, не соответствующую действительности. В данной работе рассмотрено применение метода многозадачного обучения для повышения точности детектирования текстов, сгенерированных различными языковыми моделями для русского языка. Выбран подход, основанный на добавлении дополнительных «голов» (классификаторов) в архитектуру BERT-подобной модели с общим энкодером. Выдвинута гипотеза, что такой метод обучения детекторов может улучшить представление текста, в частности, сблизить эмбеддинги фрагментов от одного автора и отдалить от разных в векторном пространстве [1], поскольку один из классификаторов будет решать проблему указания авторства (authorship attribution). В данном эксперименте подход многозадачного обучения позволил улучшить качество детектирования сгенерированных фрагментах на наборах данных с бинарной классификацией. Классификатор, отвечающий за мультиклассовую классификацию способен помочь сблизить эмбеддинги текстов одного автора и отдалить разных в векторном пространстве, что положительно влияет на качество детекции машинно-сгенерированных фрагментов.

Библиографическая ссылка: 

Грицай Г.М., Грабовой А.В. Многозадачное обучение для распознавания машинно-сгенерированных текстов / Труды 65-й Всероссийской научной конференции МФТИ, посвященной 115-летию Л.Д. Ландау (Москва, 2023). М.: Физматкнига, 2023. С. 117-119.