84639 | ИПУ РАН

Автор(ы):

Бидерина К. К. (ИПУ РАН, Лаборатория 90)

Гребенков Д. И. (ИПУ РАН, Лаборатория 90)

Автор(ов):

Параметры публикации

Тип публикации:

Статья в журнале/сборнике

Название:

Seq2seq-подход и большие языковые модели в задаче извлечения терминов из русскоязычных научных текстов

ISBN/ISSN:

2072-9472

DOI:

10.18127/j20729472-202601-14

Наименование источника:

Системы высокой доступности

Обозначение и номер тома:

Т. 22, № 1

Город:

Москва

Издательство:

ООО Издательство Радиотехника

Год издания:

2026

Страницы:

71-75

Аннотация

Постановка проблемы. Автоматическое извлечение терминов из русскоязычных научных текстов является актуальной задачей компьютерной лингвистики и информационного поиска. Вопрос эффективности больших языковых моделей без дообучения в сравнении с адаптированными архитектурами остаётся недостаточно изученным, особенно для русского языка и специализированных научных корпусов. Цель. Провести исследование и сопоставление двух подходов к автоматическому извлечению терминов из русскоязычных научных текстов – специализированного нейросетевого решения на основе архитектуры T5, дообученного в постановке задачи «последовательность-в-последовательность» и универсальных больших языковых моделей. Результаты. Реализован комплекс программ и моделей для извлечения терминов из аннотаций и полных текстов научных публикаций на основе датасета CL-RuTerm3. Дополнительно проведён эксперимент по оценке больших языковых моделей в условиях few-shot обучения. Практическая значимость. Разработанное специализированное решение может использоваться для автоматической и полуавтоматической разметки терминов в русскоязычных научных текстах, а также для создания и расширения терминологических корпусов. Результаты сравнительного анализа показывают целесообразность использования больших языковых моделей в качестве вспомогательного инструмента или базовой линии.

Библиографическая ссылка:

Бидерина К.К., Гребенков Д.И. Seq2seq-подход и большие языковые модели в задаче извлечения терминов из русскоязычных научных текстов // Системы высокой доступности. 2026. Т. 22, № 1. С. 71-75.

Публикация имеет версию на другом языке или вышла в другом издании, например, в электронной (или онлайн) версии журнала:

Да

Связь с публикацией:

Бидерина К.К., Гребенков Д.И. Seq2Seq approach and large language models for term extraction from russian scientific texts // Highly Available Systems. 2026. V. 22. № 1. С. 71-75.