Постановка проблемы. Автоматическое извлечение терминов из русскоязычных научных текстов является актуальной задачей компьютерной лингвистики и информационного поиска. Вопрос эффективности больших языковых моделей без дообучения в сравнении с адаптированными архитектурами остаётся недостаточно изученным, особенно для русского языка и специализированных научных корпусов.
Цель. Провести исследование и сопоставление двух подходов к автоматическому извлечению терминов из русскоязычных научных текстов – специализированного нейросетевого решения на основе архитектуры T5, дообученного в постановке задачи «последовательность-в-последовательность» и универсальных больших языковых моделей.
Результаты. Реализован комплекс программ и моделей для извлечения терминов из аннотаций и полных текстов научных публикаций на основе датасета CL-RuTerm3. Дополнительно проведён эксперимент по оценке больших языковых моделей в условиях few-shot обучения.
Практическая значимость. Разработанное специализированное решение может использоваться для автоматической и полуавтоматической разметки терминов в русскоязычных научных текстах, а также для создания и расширения терминологических корпусов. Результаты сравнительного анализа показывают целесообразность использования больших языковых моделей в качестве вспомогательного инструмента или базовой линии.