
Консультант(ы):
Ключевые слова:
Тематика проводимого исследования:
Наука о данных, машинное обучение, идентификация систем
Приобретаемые знания:
Основы и принципы работы современных языковых моделей, архитектура LLM и механизмы их настройки, способы интеграции адаптеров в языковые модели, методики prompt-тюнинга и его отличие от других подходов, основы семантики и терминологической обработки текста
Приобретаемые навыки и умения:
Настройка и обучение языковых моделей с помощью адаптеров, разработка и тестирование эффективных промптов, создание и верификация наборов терминов с использованием LLM, работа с Python и фреймворками для машинного обучения, анализ результатов и улучшение моделей на основе обратной связи
Необходимый уровень знаний и навыков практиканта для выполнения задания:
Программирование, понимание принципов работы языковых моделей и машинного обучения
Тип проекта:
Практика / научно-исследовательская работа
Период практики:
2 недели
Краткое описание проекта:
Исследование и реализацию подходов к автоматическому определению терминов в текстах с использованием языковых моделей, дообученных с помощью адаптеров и техник prompt-тюнинга. Результатом станет прототип, способный эффективно решать задачу терминологической разметки и определения терминов на основе входного текста.
Задания на практику:
1) Изучить теоретические основы работы языковых моделей и подходов к их адаптации.
2) Проанализировать существующие методы автоматического определения терминов
3) Разработать структуру промптов и подход к настройке модели с помощью адаптеров.
4) Реализовать прототип системы определения терминов с использованием выбранной модели и стратегии prompt-тюнинга.
5) Оценить качество извлечения терминов и их определений.
6) Оформить результаты экспериментов в виде таблицы
Результат выполнения проекта:
Оформленная исследовательская работа по применению prompt tuning и adapter tuning языковых моделей для автоматического определения терминов в текстах, программная реализация определения терминологии на основе дообучения моделей искусственного интеллекта, аннотированный корпус текстов.