Работы по сбору датасетов для задачи instruction-based editing

Вместе с ростом популярности T2I-генерации стала активно развиваться и задача редактирования изображений. Несмотря на очевидные сходства, между ними есть как минимум одно ключевое отличие: редактирование — не одна задача, а целое семейство, и с точки зрения ML, и с точки зрения данных.

Сергей Кастрюлин, исследователь Yandex Research, разобрал основные работы по сбору датасетов для задачи instruction-based editing.

Paint by Inpaint: Learning to Add Image Objects by Removing Them First [датасет на HF, без лицензии]

Крупный (1,8M сэмплов) датасет, полностью посвящённый задаче добавления/удаления объектов. Авторы стартуют с картинок из COCO и OpenImages, для которых уже просчитаны маски (датасет LVIS). По этим маскам делают Remove через SD-Inpainting.

Основная часть работы посвящена фильтрациям:
— Исходные пары картинка-маска фильтруют по размеру и положению маски (слишком мелкая, слишком близка к краю картинки).
— После инпейнтинга проверяют, что объект действительно удалён, что удалён именно важный объект и что в целом картинка не испортилась, вычисляя набор эвристических метрик на основе локальных CLIP-эмбеддингов.

В статье указано соотношение source- и target-картинок: из ~800К исходных получили 1,800К таргетов. Это довольно сбалансированное распределение.

SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [датасет на HF, некоммерческий]

Ещё один большой (1,5М сэмплов) датасет, состоящий из трёх частей.

Часть 1: синтетические данные

1) Добавление и удаление объектов:
— Берут изображения из Unsplash и OpenImages.
— С помощью моделей LLAVA-1.5, GroundingDINO и SAM сегментируют объекты, подходящие для удаления.
— Делают удаление с помощью модели инпейнтинга LaMa.
— Для получения данных на задачу добавления объектов инвертируют триплеты.

2) Изменение объектов:
— Берут реальную картинку, кепшенят её.
— С помощью ChatGPT изменяют часть исходного инстракта.
— Берут image-guided T2I-модель PnP, подают в неё исходную картинку и измененный инстракт, получают результат.

Части 2 и 3: реальные данные

— Парсят сайты, где пользователи просят отфотошопить картинки. Получают 52К триплетов.
— Просят асессоров в фотошопе последовательно внести простые изменения и описать их кепшенами. Получают 21К последовательностей разной длины (до пяти редактирований на картинку).

На смеси данных учат LoRA для модели SEED-X. Минусы:
— В отличие от Qwen-Image авторы не перераспределяют данные по стадиям (было бы логично начать с плохой синетики, а закончить обучение на чистых реальных данных).
— Информация о последовательных редактированиях никак не используется — её просто перегруппируют в триплеты.
— О фильтрации не сказано ни слова, так что датасет почти наверняка шумный.

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [датасет на HF, без лицензии]

2,5М сэмплов, разбитых на 5 категорий для увеличения разнообразия данных:

— Локальное редактирование: добавление, удаление или замена объектов, изменение цвета и действий;
— Глобальное редактирование: изменение тона, стиля или фона изображения;
— Редактирование, связанное с движением камеры: расширение кадра, поворот, изменение размера;
— Визуальное редактирование: перенос материалов, работа со скетчами и масками;
— Неявное редактирование (Implicit Editing).

Авторы стартуют с 680К из нескольких открытых датасетов. В данных отсутствуют «редкие концепты», поэтому генерят синтетические исходные картинки:

— Определяют редкие концепты.
— Просят LM сгенерить промпты для T2I-модели, чтоб они включали эти концепты.
— Генерят еще 700К картинок, доливают к исходным реальным.

Затем берутся промпты к исходным синтетическим картинкам и кепшены к реальным и — из них с помощью Llama3-8b генерятся editing-инстракты.

В статье описаны 9 пайплайнов генерации данных для покрытия пяти категорий задач указанных выше (Figure 7, appendix). После генерации есть фильтрация на основе CLIP-based эвристик.

Продолжение читайте в авторском канале Сергея Кастрюлина @c_research.

CV Time