84640 | ИПУ РАН

Автор(ы):

Бидерина К. К. (ИПУ РАН, Лаборатория 90)

Автор(ов):

Параметры публикации

Тип публикации:

Тезисы доклада

Название:

Большие языковые модели для задачи извлечения терминов из русскоязычных научных текстов

ISBN/ISSN:

978-5-89155-442-9

Наименование конференции:

67-я Всероссийская научная конференция МФТИ. Радиотехника и компьютерные технологии (Москва, 2025)

Наименование источника:

Труды 67-й Всероссийской научной конференции МФТИ. Радиотехника и компьютерные технологии (Москва, 2025)

Город:

Москва

Издательство:

Физматкнига

Год издания:

2025

Страницы:

150-152

Аннотация

Автоматическое извлечение терминологии из научных текстов представляет собой одну из ключевых задач компьютерной лингвистики и информационного поиска. В последние годы значительный прогресс в области обработки естественного языка связан с развитием больших языковых моделей, способных решать широкий спектр задач без специализированного обучения. Однако эффективность таких моделей в задачах терминологического извлечения, особенно для текстов на русском языке, остается малоизученной областью. Также актуальность проблемы обоснована дефицитом специализированных инструментов и размеченных корпусов по сравнению с англоязычными аналогами. Данное исследование направлено на сравнительный анализ способностей трех современных языковых моделей — GPT4o [1], Claude 3.5 Sonnet [2] и DeepSeek [3] — извлекать термины из научных аннотаций на русском языке. В качестве материала исследования использован датасет CL-RuTerm3 [4] — вручную размеченный корпус русскоязычных аннотаций статей конференции «Диалог» за период 2000- 2023 гг., насчитывающий 850 текстов. Данный датасет на сегодняшний день является наиболее объемным из открытых русскоязычных ресурсов для решения задачи извлечения терминов. Исследование проводилось в трех вариациях, различающихся объемом анализируемых текстов: по 5, 10 и 20 аннотаций. Для всех экспериментов использовался унифицированный промпт, включающий: 1) демонстрацию примеров текстов с соответствующими им размеченными терминами (few-shot подход); 2) четкую инструкцию о формате представления результатов; 3) требование сохранять исходную форму термина, как она встречается в тексте. Каждой модели предоставлялись фрагменты в формате JSON, содержащие идентификатор текста и саму аннотацию. Модель должна была вернуть список извлеченных терминов для каждого текста в заданном формате. Пример промпта: «Пример текстов: {"id": "1", "text": "{реферат}"}. Пример извлеченных терминов: {"id": "1", "label": "термин"}. Извлеки термины из следующих текстов: {"id": "1", "text": "{реферат}"} в таком же формате». Для автоматизированной оценки качества извлечения терминов был разработан алгоритм сравнения результатов работы моделей с эталонной разметкой. Сначала проводилась предварительная обработка данных, включающая лемматизацию извлеченных терминов с использованием библиотеки Mystem [5] и приведение к единому регистру. Затем для каждого текста вычислялись стандартные метрики качества: 1) точность (precision) — доля правильно извлеченных терминов среди всех извлеченных; 2) полнота (recall) — доля правильно извлеченных терминов среди всех эталонных; 3) F1-score — гармоническое среднее между точностью и полнотой; 4) аккуратность (accuracy) — доля правильно извлеченных терминов относительно эталонной разметки. В конце производилось вычисление средних значений метрик каждой модели в каждом эксперименте. Агрегированные результаты представлены в табл. 1. Т а б л и ц а 1. Результаты экспериментов Модель Количество аннотаций Precision Recall F1-score Accuracy GPT-4o 5 0,4877 0,3112 0,3613 0,3112 10 0,5458 0,3350 0,4019 0,3350 20 0,5396 0,3060 0,3751 0,3060 Claude 3.5 Sonnet 5 0,6242 0,3716 0,4519 0,3716 10 0,6222 0,3021 0,3923 0,3021 20 0,6901 0,2857 0,3882 0,2857 DeepSeek 5 0,5252 0,4333 0,4447 0,4333 10 0,5773 0,3632 0,4312 0,3632 20 0,5882 0,3076 0,3884 0,3076 Claude 3.5 Sonnet демонстрирует наивысшую точность (до 0.6901 при 20 аннотациях), но низкую полноту (0.2857), что свидетельствует о ее склонности к консервативному отбору терминов. DeepSeek показывает лучший баланс между полнотой и точностью, а GPT-4o остается самой стабильной по F1- score на разных объемах данных. Также было проведено сравнение лучших результатов моделей с результатами победителей публичного соревнования RuTermEval-2024 [6] по треку 1. Сравнение по F1-score представлено в табл. 2. Т а б л и ц а 2. Сравнение результатов моделей и победителей соревнования RuTermEval-2024 Модель / участник F1-score fulstock (1 место) 0,794 VladSemak (2 место) 0,769 ivan_da_marya (3 место) 0,562 ragunna (4 место) 0,535 Claude 3.5 Sonnet 0,4519 DeepSeek 0,4447 GPT-4o 0,4019 Как видно из таблицы, ни одна из протестированных LLM не смогла достичь уровня победителей соревнования. Наилучший F1-score среди моделей (Claude 3.5 Sonnet — 0.4519) оказался ниже, чем у участника, занявшего 3 место (0.562). Это указывает на необходимость дальнейшей адаптации больших языковых моделей для задачи извлечения терминов, например, через дообучение на специализированных корпусах или доработку промптов.

Библиографическая ссылка:

Бидерина К.К. Большие языковые модели для задачи извлечения терминов из русскоязычных научных текстов / Труды 67-й Всероссийской научной конференции МФТИ. Радиотехника и компьютерные технологии (Москва, 2025). М.: Физматкнига, 2025. С. 150-152.