Семинар по социофизике 15 июня

Дорогие коллеги,
Очередное заседание Московского семинара по социофизике им. Д. С. Чернавского состоится в онлайн-формате во вторник 15 июня 2021 г. Начало в 17 ч. Повестка дня:

Сергей Николаевич Кольцов
к.ф-м.н., вед. н. сотр. лаборатории социальной и когнитивной информатики, доцент департамента математики, НИУ ВШЭ, С.-Петербург
ЭНТРОПИЙНЫЙ ПОДХОД В ТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ

Аннотация

В докладе будут рассмотрены возможности применения деформированных энтропий (энтропия Реньи, Цаллиса, Шарма-Миттала) для анализа поведения ряда тематических моделей (ТМ). В докладе описывается подход к анализу зависимости ТМ от числа тем на основе идей из статистической физики. В рамках данного подхода коллекция документов и слов рассматривается в виде мезоскопической информационной системы, состояние которой описывается деформированными энтропиями, а поведение информационной системы определяется числом кластеров/тем. Тематическое моделирование рассматривается как процедура упорядочивания информационный системы. Исходя из этого, проблему выбора оптимального числа тем можно свести к проблеме нахождения минимума свободной энергии или минимума неравновесной энтропии Реньи/Цаллиса, а поиск семантической стабильности можно определить при помощи энтропии Шарма-Миттала. В рамках данного доклада будет показано, как можно организовать настройку гипер-параметров тематических моделей в терминах энтропии, как при помощи перебора гипер-параметров по сетке, так и при помощи процедур ренормализации. Процедура ренормализации тематических моделей позволяет существенно ускорить применение энтропийного подхода с вычислительной точки зрения, что чрезвычайно важно при работе с большими данными. В рамках данного доклада также будет рассмотрена возможность применения энтропийного подхода к иерархическим тематическим моделям, и будут обсуждаться ограничения данного подхода. Кроме того, в докладе будут представлены результаты расчетов таких тематических моделей как PLSA, VLDA (Блей), LDA (Gibbs sampling), GLDA (Gibbs sampling), BigARTM; результаты применения процедур ренормализации, а также результы расчетов нескольких иерархических тематических моделей (HPAM, HLDA, hARTM).
Семинар пройдет в формате онлайн-конференции.

Время на доклад ~60 минут + далее вопросы и обсуждение.
Подключиться к онлайн-семинару (конференции) можно по ссылке
https://us02web.zoom.us/j/3358624344

Идентификатор конференции: 335 862 4344