Автоматическое извлечение терминологии из научных текстов представляет собой одну из ключевых задач компьютерной лингвистики и информационного поиска. В последние годы значительный прогресс в области обработки естественного языка связан с развитием больших языковых моделей, способных решать широкий спектр задач без специализированного обучения. Однако эффективность таких моделей в задачах терминологического извлечения, особенно для текстов на русском языке, остается малоизученной областью. Также актуальность проблемы обоснована дефицитом специализированных инструментов и размеченных корпусов по сравнению с англоязычными аналогами.
Данное исследование направлено на сравнительный анализ способностей трех современных языковых моделей — GPT4o [1], Claude 3.5 Sonnet [2] и DeepSeek [3] — извлекать термины из научных аннотаций на русском языке. В качестве материала исследования использован датасет CL-RuTerm3 [4] — вручную размеченный корпус русскоязычных аннотаций статей конференции «Диалог» за период 2000-
2023 гг., насчитывающий 850 текстов. Данный датасет на сегодняшний день является наиболее объемным из открытых русскоязычных ресурсов для решения задачи извлечения терминов.
Исследование проводилось в трех вариациях, различающихся объемом анализируемых текстов: по
5, 10 и 20 аннотаций. Для всех экспериментов использовался унифицированный промпт, включающий:
1) демонстрацию примеров текстов с соответствующими им размеченными терминами (few-shot
подход);
2) четкую инструкцию о формате представления результатов;
3) требование сохранять исходную форму термина, как она встречается в тексте.
Каждой модели предоставлялись фрагменты в формате JSON, содержащие идентификатор текста
и саму аннотацию. Модель должна была вернуть список извлеченных терминов для каждого текста в
заданном формате.
Пример промпта: «Пример текстов: {"id": "1", "text": "{реферат}"}. Пример извлеченных терминов:
{"id": "1", "label": "термин"}. Извлеки термины из следующих текстов: {"id": "1", "text": "{реферат}"} в
таком же формате».
Для автоматизированной оценки качества извлечения терминов был разработан алгоритм сравнения результатов работы моделей с эталонной разметкой. Сначала проводилась предварительная обработка данных, включающая лемматизацию извлеченных терминов с использованием библиотеки Mystem
[5] и приведение к единому регистру. Затем для каждого текста вычислялись стандартные метрики качества:
1) точность (precision) — доля правильно извлеченных терминов среди всех извлеченных;
2) полнота (recall) — доля правильно извлеченных терминов среди всех эталонных;
3) F1-score — гармоническое среднее между точностью и полнотой;
4) аккуратность (accuracy) — доля правильно извлеченных терминов относительно эталонной разметки.
В конце производилось вычисление средних значений метрик каждой модели в каждом эксперименте. Агрегированные результаты представлены в табл. 1.
Т а б л и ц а 1. Результаты экспериментов
Модель Количество аннотаций Precision Recall F1-score Accuracy
GPT-4o
5 0,4877 0,3112 0,3613 0,3112
10 0,5458 0,3350 0,4019 0,3350
20 0,5396 0,3060 0,3751 0,3060
Claude 3.5
Sonnet
5 0,6242 0,3716 0,4519 0,3716
10 0,6222 0,3021 0,3923 0,3021
20 0,6901 0,2857 0,3882 0,2857
DeepSeek
5 0,5252 0,4333 0,4447 0,4333
10 0,5773 0,3632 0,4312 0,3632
20 0,5882 0,3076 0,3884 0,3076
Claude 3.5 Sonnet демонстрирует наивысшую точность (до 0.6901 при 20 аннотациях), но низкую
полноту (0.2857), что свидетельствует о ее склонности к консервативному отбору терминов. DeepSeek
показывает лучший баланс между полнотой и точностью, а GPT-4o остается самой стабильной по F1-
score на разных объемах данных.
Также было проведено сравнение лучших результатов моделей с результатами победителей публичного соревнования RuTermEval-2024 [6] по треку 1. Сравнение по F1-score представлено в табл. 2.
Т а б л и ц а 2. Сравнение результатов моделей и победителей соревнования RuTermEval-2024
Модель / участник F1-score
fulstock (1 место) 0,794
VladSemak (2 место) 0,769
ivan_da_marya (3 место) 0,562
ragunna (4 место) 0,535
Claude 3.5 Sonnet 0,4519
DeepSeek 0,4447
GPT-4o 0,4019
Как видно из таблицы, ни одна из протестированных LLM не смогла достичь уровня победителей
соревнования. Наилучший F1-score среди моделей (Claude 3.5 Sonnet — 0.4519) оказался ниже, чем у
участника, занявшего 3 место (0.562). Это указывает на необходимость дальнейшей адаптации больших
языковых моделей для задачи извлечения терминов, например, через дообучение на специализированных
корпусах или доработку промптов.