82483 | ИПУ РАН

Автор(ы):

Автор(ов):

Параметры публикации

Тип публикации:

Статья в журнале/сборнике

Название:

Stack more LLM’s: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии

ISBN/ISSN:

2686-9543

DOI:

10.31857/S2686954324700590

Наименование источника:

Доклады Российской академии наук. Математика, информатика, процессы управления

Обозначение и номер тома:

Т. 520, № S2

Город:

Москва

Издательство:

ФГБУ "Издательство "Наука"

Год издания:

2024

Страницы:

228-237

Аннотация

Развитие больших языковых моделей (LLM) в настоящее время вызывает большой интерес в научном сообществе, в то же время прогресс методов генерации текстов стимулирует рост и постоянное обновление подходов обнаружения машинно-сгенерированных фрагментов. В более ранних исследованиях было отмечено, что значения перплексии и логарифмической функции вероятности способны отразить меру разницы между искусственными и написанными человеком текстами. На основе этого наблюдения в данной работе вводится новый критерий, который позволяет делать вывод о принадлежности текстового фрагмента конкретной LLM. В текущем исследовании предлагается новый эффективный метод, который позволяет обнаруживать искусственно-сгенерированные фрагменты с помощью аппроксимации значения перплексии у LLM. Приближение основано на предварительно собранных статистических языковых моделях. Аппроксимация позволяет достичь высоких показателей производительности системы и качества, в том числе и для фрагментов, сгенерированных большими языковыми моделями, веса которых не были опубликованы. Большое количество предварительно собранных словарей статистик повышает способность к обобщению и позволяет охватывать текстовые последовательности, которые не встречались ранее. Описанный в работе подход легко обновлять, необходим лишь новый словарь статистик, основанный на текстах, сгенерированных желаемой языковой моделью. Представленный метод в среднем достигает 94% полноты обнаружения сгенерированных фрагментов среди текстов из различных LLM, а одна проверка совершается за миллисекунды, что превосходит современные подходы в тысячи раз.

Библиографическая ссылка:

Грицай Г.М., Хабутдинов И.А., Грабовой А.В. Stack more LLM’s: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии // Доклады Российской академии наук. Математика, информатика, процессы управления. 2024. Т. 520, № S2. С. 228-237.

Публикация имеет версию на другом языке или вышла в другом издании, например, в электронной (или онлайн) версии журнала:

Да

Связь с публикацией:

Грицай Г.М., Хабутдинов И.А., Грабовой А.В. Stack More LLM’s: Efficient Detection of Machine-Generated Texts via Perplexity Approximation / Doklady Mathematics. New York: Pleiades Publishing Ltd, 2024. Т. 110, № S1. С. S203-S211.