Семинар "Проблемы управления знаниями", 17 декабря 2025 г.

Уважаемые коллеги!

       17 декабря 2025 г. в 18:00, в 9 аудитории ИПУ РАН будет проходить семинар «Проблемы управления знаниями».



       Программа семинара: «Именование и суммаризация тем в вероятностном тематическом моделировании с использованием больших языковых моделей»



     Докладчик: Данила Владимирович Ильин, магистрант кафедры ММП ВМК МГУ



     Аннотация: В работе предложен метод автоматической абстрактивной суммаризации и именования тем для коллекции научных текстов, объединяющий аддитивную регуляризацию тематических моделей (ARTM) и генеративные возможности больших языковых моделей (LLM). На входе используется корпус ccdv/arxiv-summarization, проведена очистка текстов, лемматизация и отбор коллокаций; оптимальное число тем определено как 15. Для построения тем исследованы разные стратегии регуляризации и две варианта словарей (с коллокациями и без). Для отбора информативных предложений введена модифицированная мера Жаккара, учитывающая длину предложений. Названия и краткие описания тем генерируются с помощью нескольких типов промптов: zero‑shot, few‑shot и iterative‑improving. Качество генераций оценивается автоматически через парное сравнение результатов несколькими моделями‑оценщиками («LLM as a Judge») и агрегируется с помощью модели Брэдли–Терри. Эксперимент показал, что комбинация тематической модели на коллокациях и стратегия few‑shot даёт наилучшие результаты по собранным оценкам. Предложенный подход позволяет получать человекопонятные названия и описания тем и обеспечивает масштабируемую автоматическую оценку без привлечения экспертов.

 

   Трансляция по ссылке: https://telemost.360.yandex.ru/j/0938373987

Дата: 

17.12.2025 - 18:00

Место: 

  • ИПУ РАН (ауд. 9)