Большинство алгоритмов глубокого обучения оптимизируют параметры моделей для решения одной задачи (single-task). В целях повышения обобщающей способности, скорости обучения и производительности модели распространено применение многозадачного (multi-task) обучения, за счет обработки информации, разделяемой между задачами. При совместном использовании некоторых параметров сети модель может получить более эффективное и компактное представление данных, что в свою очередь является полезным, когда задачи связаны или имеют общие черты.
Многообразие и стремительное развитие языковых генеративных моделей привело к появлению большого количества искусственных текстов. Сгенерированные фрагменты могут нести за собой плагиат, логические ошибки и информацию, не соответствующую действительности. В данной работе рассмотрено применение метода многозадачного обучения для повышения точности детектирования текстов, сгенерированных различными языковыми моделями для русского языка.
Выбран подход, основанный на добавлении дополнительных «голов» (классификаторов) в архитектуру BERT-подобной модели с общим энкодером. Выдвинута гипотеза, что такой метод обучения детекторов может улучшить представление текста, в частности, сблизить эмбеддинги фрагментов от одного автора и отдалить от разных в векторном пространстве [1], поскольку один из классификаторов будет решать проблему указания авторства (authorship attribution).
В данном эксперименте подход многозадачного обучения позволил улучшить качество детектирования сгенерированных фрагментах на наборах данных с бинарной классификацией. Классификатор, отвечающий за мультиклассовую классификацию способен помочь сблизить эмбеддинги текстов одного автора и отдалить разных в векторном пространстве, что положительно влияет на качество детекции машинно-сгенерированных фрагментов.