82453 | ИПУ РАН

Автор(ы):

Грицай Г. М. (Московский физико-технический институт)

Грабовой А. В. (ИПУ РАН, Лаборатория 42)

Автор(ов):

Параметры публикации

Тип публикации:

Статья в журнале/сборнике

Название:

Интерпретация классификаторов на основе архитектуры трансформер с помощью кластеризации

ISBN/ISSN:

2686-9543

DOI:

10.7868/S2686954325070379

Наименование источника:

Доклады Российской академии наук. Математика, информатика, процессы управления

Обозначение и номер тома:

Т. 527 № S

Город:

Москва

Издательство:

ФГБУ "Издательство "Наука"

Год издания:

2025

Страницы:

432-448

Аннотация

Модели на основе архитектуры трансформер, особенно такие как BERT, стали стандартом для решения задач обработки естественного языка (NLP): классификации текстов, суммаризации, ответов на вопросы. Их высокая эффективность не вызывает сомнений, однако ключевой проблемой остается интерпретируемость. Понимание причин, по которым модели принимают те или иные решения, критически важно для повышения доверия к ним, выявления предвзятости и соблюдения этических и правовых норм. Существующие методы объяснений сосредоточены на выявлении отдельных значимых токенов или взаимодействий только между соседними токенами или их парами, игнорируя глобальный контекст. Это ограничивает их информативность, поскольку такие объяснения часто не отражают логику принятия решений на уровне, понятном человеку. В данной работе предлагается подход, переводящий предсказания модели в объяснения на естественном языке. Алгоритм основан на кластеризации слоев трансформера: из кластеров извлекаются метки, формируются индексы для отбора близких примеров, которые затем подаются в большие языковые модели (Large Language Models, LLM) с целью выявления ключевых общих признаков на естественном языке. Частотный анализ этих признаков в примерах лежит в основе доказательной базы с определенной вероятностью. В задаче обнаружения машинно-стенерированных текстов выявленный подход показывает, как классификаторы могут опираться на стилистические подсказки или структурные аномалии.

Библиографическая ссылка:

Грицай Г.М., Грабовой А.В. Интерпретация классификаторов на основе архитектуры трансформер с помощью кластеризации // Доклады Российской академии наук. Математика, информатика, процессы управления. 2025. Т. 527 № S. С. 432-448.