84576 | ИПУ РАН

Автор(ы):

Гаврилов М. С. (ИПУ РАН, Лаборатория 90)

Автор(ов):

Параметры публикации

Тип публикации:

Статья в журнале/сборнике

Название:

Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов

ISBN/ISSN:

2072-9472

Наименование источника:

Системы высокой доступности

Обозначение и номер тома:

№1

Город:

Москва

Издательство:

ЗАО Издательство Радиотехника

Год издания:

2026

Страницы:

76-80

Аннотация

Постановка проблемы. Эффективный анализ научных текстов (сравнение, поиск и кластеризация) требует учета не только общего содержания, но и внутренней тематической структуры. Автоматическая сегментация текста на смысловые блоки и использование этой структуры для оценки семантической близости представляют собой сложную и актуальную научно-техническую проблему. Цель. Разработать и провести экспериментальную оценку алгоритма, который повышает качество анализа научных текстов за счет их декомпозиции на категорированные фрагменты и последующего многомерного сравнения. Результаты. Разработан комбинированный алгоритм, объединяющий структурную и тематическую сегментацию с использованием дообученной языковой модели SciRus-tiny3. Отмечено, что эксперименты на специализированных датасетах подтвердили, что предложенный подход превосходит по качеству кластеризации анализ полных текстов или отдельных предложений. Показано, что метод позволяет не только вычислять общую близость документов, но и проводить их детальное сравнение по отдельным аспектам. Практическая значимость. Разработанный алгоритм может быть использован для создания более точных и интерпретируемых систем информационного поиска, анализа научных ландшафтов, экспертизы текстов и рекомендательных сервисов в научной сфере, где необходимо учитывать внутреннюю структуру документов.

Библиографическая ссылка:

Гаврилов М.С. Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов // Системы высокой доступности. 2026. №1. С. 76-80.