Постановка проблемы. Эффективный анализ научных текстов (сравнение, поиск и кластеризация) требует учета не только общего содержания, но и внутренней тематической структуры. Автоматическая сегментация текста на смысловые блоки и использование этой структуры для оценки семантической близости представляют собой сложную и актуальную научно-техническую проблему.
Цель. Разработать и провести экспериментальную оценку алгоритма, который повышает качество анализа научных текстов за счет их декомпозиции на категорированные фрагменты и последующего многомерного сравнения.
Результаты. Разработан комбинированный алгоритм, объединяющий структурную и тематическую сегментацию с использованием дообученной языковой модели SciRus-tiny3. Отмечено, что эксперименты на специализированных датасетах подтвердили, что предложенный подход превосходит по качеству кластеризации анализ полных текстов или отдельных предложений. Показано, что метод позволяет не только вычислять общую близость документов, но и проводить их детальное сравнение по отдельным аспектам.
Практическая значимость. Разработанный алгоритм может быть использован для создания более точных и интерпретируемых систем информационного поиска, анализа научных ландшафтов, экспертизы текстов и рекомендательных сервисов в научной сфере, где необходимо учитывать внутреннюю структуру документов.