82628

Автор(ы): 

Автор(ов): 

6

Параметры публикации

Тип публикации: 

Тезисы доклада

Название: 

Применение синтетических данных, полученных с помощью генеративной нейросети, для повышения качества моделей детекции

ISBN/ISSN: 

978-5-89155-446-7

Наименование конференции: 

  • 67-я Всероссийская научная конференция МФТИ "Прикладная математика и информатика" (Москва, 2025)

Наименование источника: 

  • Труды 67-й Всероссийской научной конференции МФТИ "Прикладная математика и информатика" (Москва, 2025)

Город: 

  • Москва

Издательство: 

  • Физматкнига

Год издания: 

2025

Страницы: 

124
Аннотация
Аугментация данных является важным инструментом для современных исследователей в области компьютерного зрения, позволяя увеличить объем данных за счет создания разнообразных вариаций. Однако традиционные методы аугментации, такие как повороты, сдвиги и изменения яркости, ограничены в своих возможностях, так как не обеспечивают значительного семантического расширения данных. Это может привести к плохому обобщению моделей на новые данные. В данной работе мы предлагаем новую модель для аугментации данных, которая позволяет заменять объекты на изображениях, что обеспечивает семантическое обогащение данных и улучшает способность моделей к обобщению. Наши основные вклады включают: 1) Разработку модели для аугментации данных, предназначенной для замены объектов, что значительно расширяет семантическое разнообразие наборов данных; 2) Демонстрацию экспериментальных результатов на датасетах COCO и Pascal VOC, подтверждающих, что предложенная модель превосходит существующие подходы по метрике mAP; Мы предлагаем автоматизированный режим работы, в котором система самостоятельно определяет объект для замены с помощью модели детекции YOLO и выполняет аугментацию с использованием FLUX. Для выбора наиболее подходящего расширенного текстового запроса применяются модели LLaVA и LLaMA. Для обеспечения высокого качества генерируемых аугментаций проводится постобработка с фильтрацией на основе модели Alpha-CLIP. Мы также провели исследование, в ходе которого продемонстрировали, что использование фильтрации на основе Alpha-CLIP и расширения текстовых запросов с помощью LLaMA существенно повышает качество генерации. Это подтверждается как визуальным анализом, так и ростом метрики mAP, что подчеркивает важность каждого из этих компонентов.

Библиографическая ссылка: 

Степанов И.Д., Филатов А.В., Дорин Д.Д., Игнашин И.Н., Изместьева У.А., Грабовой А.В. Применение синтетических данных, полученных с помощью генеративной нейросети, для повышения качества моделей детекции / Труды 67-й Всероссийской научной конференции МФТИ "Прикладная математика и информатика" (Москва, 2025). М.: Физматкнига, 2025. С. 124.