Аугментация данных является важным инструментом для современных исследователей в области компьютерного зрения, позволяя увеличить объем данных за счет создания разнообразных вариаций. Однако традиционные методы аугментации, такие как повороты, сдвиги и изменения яркости, ограничены в своих возможностях, так как не обеспечивают значительного семантического расширения данных. Это может привести к плохому обобщению моделей на новые данные.
В данной работе мы предлагаем новую модель для аугментации данных, которая позволяет заменять объекты на изображениях, что обеспечивает семантическое обогащение данных и улучшает способность моделей к обобщению.
Наши основные вклады включают: 1) Разработку модели для аугментации данных, предназначенной для замены объектов, что значительно расширяет семантическое разнообразие наборов данных;
2) Демонстрацию экспериментальных результатов на датасетах COCO и Pascal VOC, подтверждающих, что предложенная модель превосходит существующие подходы по метрике mAP;
Мы предлагаем автоматизированный режим работы, в котором система самостоятельно определяет объект для замены с помощью модели детекции YOLO и выполняет аугментацию с использованием FLUX. Для выбора наиболее подходящего расширенного текстового запроса применяются модели LLaVA и LLaMA. Для обеспечения высокого качества генерируемых аугментаций проводится постобработка с фильтрацией на основе модели Alpha-CLIP.
Мы также провели исследование, в ходе которого продемонстрировали, что использование фильтрации на основе Alpha-CLIP и расширения текстовых запросов с помощью LLaMA существенно повышает качество генерации. Это подтверждается как визуальным анализом, так и ростом метрики mAP, что подчеркивает важность каждого из этих компонентов.