84576

Автор(ы): 

Автор(ов): 

1

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов

ISBN/ISSN: 

2072-9472

Наименование источника: 

  • Системы высокой доступности

Обозначение и номер тома: 

№1

Город: 

  • Москва

Издательство: 

  • ЗАО Издательство Радиотехника

Год издания: 

2026

Страницы: 

76-80
Аннотация
Постановка проблемы. Эффективный анализ научных текстов (сравнение, поиск и кластеризация) требует учета не только общего содержания, но и внутренней тематической структуры. Автоматическая сегментация текста на смысловые блоки и использование этой структуры для оценки семантической близости представляют собой сложную и актуальную научно-техническую проблему. Цель. Разработать и провести экспериментальную оценку алгоритма, который повышает качество анализа научных текстов за счет их декомпозиции на категорированные фрагменты и последующего многомерного сравнения. Результаты. Разработан комбинированный алгоритм, объединяющий структурную и тематическую сегментацию с использованием дообученной языковой модели SciRus-tiny3. Отмечено, что эксперименты на специализированных датасетах подтвердили, что предложенный подход превосходит по качеству кластеризации анализ полных текстов или отдельных предложений. Показано, что метод позволяет не только вычислять общую близость документов, но и проводить их детальное сравнение по отдельным аспектам. Практическая значимость. Разработанный алгоритм может быть использован для создания более точных и интерпретируемых систем информационного поиска, анализа научных ландшафтов, экспертизы текстов и рекомендательных сервисов в научной сфере, где необходимо учитывать внутреннюю структуру документов.

Библиографическая ссылка: 

Гаврилов М.С. Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов // Системы высокой доступности. 2026. №1. С. 76-80.