Новая порция материалов с ECCV 2024

В последний день конференции принесли ещё несколько статей, которые точно заслуживают внимания.

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Статья о редактировании реальных изображении при помощи text2image дифузионных моделей. В основе работы лежат два наблюдения:

1. При равных сидах редактирование длинных текстовых промптов заметно меньше влияет на изменение общей композиции генерации, в отличие от манипуляций с короткими промптами. Это объясняется меньшей магнитудой изменения в cross-attention-слоях.

2. Одношаговые генеративные модели вроде SDXL Turbo не сталкиваются с трудностями в оптимизационной задаче инверсии, а также позволяет проводить манипуляции с attention-картами для редактирования изображения.

Совмещение этих идей даёт оптимизационный процесс, который учит инвертирующую модель. С её помощью получается начальный шум, для которого запускается процедура расшумления исходной моделью с редактированным промптом, чтобы получить редактированную генерацию.

Для улучшения реконструкции предлагается два подхода. Вместо одношаговой модели обучать многошаговую refiner-модель в стиле ReStyle. Либо можно маскировать attention-карты для локализации изменений.

EDICT: Exact Diffusion Inversion via Coupled Transformations

Авторы предлагают новый семплер для редактирования картинок на основе текстовой инверсии. Суть в том, что для для интегрирования используют результаты предыдущего и следующего шага. При этом не добавляют вычислительного оверхеда, потому что результаты и так получаются естественным образом. В сравнении с DDIM-инверсией такой подход даёт почти идеальное восстановление.

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

Работа о multi-subject grounded генерации. Поднимается всем известная проблема «запутанности» семантически похожих концептов, происходящей в аttention-блоках. Авторы предлагают использовать пространственную информацию карт внимания не только для маскирования «соседних» конкурирующих токенов, но и для guidance во время инференса модели. А кроме того — смещать диффузионную траекторию по направлению, максимизирующему концентрацию attention в заданном bounding box для соответствующего объекта в промпте.

ReGround: Improving Textual and Spatial Grounding at No Cost

Статья, в основе которой архитектурный анализ сети. В качестве базовой авторы рассматривают очень популярную в своё время модель GLIGEN — она позволяет добавлять дополнительное условие на пространственное расположение объектов на генерации посредством bounding box.

Исследователи обратили внимание на последовательный характер внедрённого в сеть блока gated self-attention, который отвечает за grounding-токены. Подобный архитектурный выбор нарушает ожидаемое распределение входа в cross-attention-модуль и тем самым нарушает текстовую составляющую условной генерации.

Простая перестановка с последовательного соединения на параллельное решает проблему и позволяет найти компромисс для соответствия обоим условиям. Это также улучшает и все существующие работы, использующие GLIGEN в качестве составляющей метода.

ReCON: Training-Free Acceleration for Text-to-Image Synthesis with Retrieval of Concept Prompt Trajectories

В статье рассматривается метод ускорения генераций с прицелом на продакшн и способом, основанном на кешировании некоторых x_t генераций отдельных концептов. Суть в том, чтобы брать комплексные длинные промпты, разбивать их на концепты, отфильтровывать не визуальные, а потом делать частичную генерацию до шага t и помещать результат в базу.

Для генерации картинки по полному промпту, нужные частичные генерации складывают, а остаток траектории — генерируют отдельно. Авторы завяляют, что ускорение составляет в среднем 30% без сильной потери в качестве.

Поделились любопытным Александр Устюжанин и Сергей Кастрюлин

#YaECCV

CV Time