Определение терминов с использованием адаптеров и prompt-tuning больших языковых моделей

Консультант(ы): 

Ключевые слова: 

Тематика проводимого исследования: 

Наука о данных, машинное обучение, идентификация систем

Приобретаемые знания: 

Основы и принципы работы современных языковых моделей, архитектура LLM и механизмы их настройки, способы интеграции адаптеров в языковые модели, методики prompt-тюнинга и его отличие от других подходов, основы семантики и терминологической обработки текста

Приобретаемые навыки и умения: 

Настройка и обучение языковых моделей с помощью адаптеров, разработка и тестирование эффективных промптов, создание и верификация наборов терминов с использованием LLM, работа с Python и фреймворками для машинного обучения, анализ результатов и улучшение моделей на основе обратной связи

Необходимый уровень знаний и навыков практиканта для выполнения задания: 

Программирование, понимание принципов работы языковых моделей и машинного обучения

Тип проекта: 

Практика / научно-исследовательская работа

Период практики: 

2 недели

Краткое описание проекта: 

Исследование и реализацию подходов к автоматическому определению терминов в текстах с использованием языковых моделей, дообученных с помощью адаптеров и техник prompt-тюнинга. Результатом станет прототип, способный эффективно решать задачу терминологической разметки и определения терминов на основе входного текста.

Задания на практику: 

1) Изучить теоретические основы работы языковых моделей и подходов к их адаптации. 2) Проанализировать существующие методы автоматического определения терминов 3) Разработать структуру промптов и подход к настройке модели с помощью адаптеров. 4) Реализовать прототип системы определения терминов с использованием выбранной модели и стратегии prompt-тюнинга. 5) Оценить качество извлечения терминов и их определений. 6) Оформить результаты экспериментов в виде таблицы

Результат выполнения проекта: 

Оформленная исследовательская работа по применению prompt tuning и adapter tuning языковых моделей для автоматического определения терминов в текстах, программная реализация определения терминологии на основе дообучения моделей искусственного интеллекта, аннотированный корпус текстов.