Интеллектуальный анализ больших объемов слабоструктурированных документов: модели, методы и перспективы исследований

26 февраля 2026 года на заседании Ученого совета Института состоялся научный доклад «Интеллектуальный анализ больших объемов слабоструктурированных документов: модели, методы и перспективы исследований». Автор - кандидат физико-математических наук, заведующий лабораторией № 42 «Интеллектуального анализа данных» Юрий Викторович Чехович. 
 
Аннотация доклада:
 
В ноябре 2025 года в Институте была создана новая лаборатория № 42 «Интеллектуального анализа данных». Руководитель и костяк коллектива лаборатории – выходцы из научной школы академиков РАН Ю.И. Журавлева и К.В. Рудакова. В докладе представлены решенные задачи, которыми занималась команда, а также направления новых научных исследований, которыми лаборатория планирует заняться в ближайшем будущем.
 
Ключевым направлением исследований лаборатории является решение прикладных задач в области анализа больших объемов слабоструктурированных научных и учебных документов: статей, диссертаций, отчетов, дипломов и т.п. Разрабатываются и исследуются эффективные методы выделения информации из документов, типизации и кластеризации документов, тематической категоризации работ, выделения в документах структурных элементов, поиска почти-дубликатов текста, изображений, формул, таблиц, других задач информационного поиска. Разрабатываются и исследуются методы этичной генерации текстов научных и учебных работ c помощью LLM, методы решения задач детекции искусственного текста и искусственных изображений, методы детекции переведенных текстов.
 
В области развития теории машинного обучения одной из перспективных задач лаборатории является исследование сложности модели глубокого обучения, в частности нейросетевых моделей (основоположником направления являются сотрудники Института В.Н. Вапник и А.Я. Червоненкис). В частности, вводится и исследуется новый подход оценки сложности моделей, основывающийся на оценке сложности ландшафта оптимизационной поверхности.
 
Планируется расширение состава задач лаборатории на задачи анализа данных в других областях: финансовые данные, банковская информация, медицинские данных и другие.