В последние несколько лет большие языковые модели, обученные на огромных массивах информации, и способные генерировать тексты, неотличимые от человеческих, получили широкое распространение, и все больше людей начинают их использовать в учебных и рабочих проектах. Поэтому становится актуальной задача детекции как полностью сгенерированных текстов, так и гибридных текстов, где встречаются и фрагменты, написанные человеком, и фрагменты, написанные языковой моделью.
Для экспериментов в качестве базовой модели была взята модель longformer, так как эта модель умеет обрабатывать сразу достаточно длинные последовательности. Также были рассмотрены модели семейства DeBERTаV3, которые на данный момент показывают наилучшее качество на задаче детекции. В качестве метрики оценки качества мы взяли среднюю абсолютную разницу между истинным словом-разделителем и между предсказанным словом-разделителем.
Представлены результаты экспериментов и можно видеть, что на моделях семейства DeBERTaV3 качество моделей, обученных на новом датасете, лучше, чем тех же моделей, но обученных на изначальном датасете, поэтому использование аугментации данных вместе с моделями семейства DeBERTaV3 дает сильное улучшение метрик.