CV Time — пост #12

Доклады с ECCV 2024? Их есть у нас!

Продолжаем рассказывать о самых интересных статьях, докладах и воркшопах с неё. Вот, что принесли сегодня.

Stable Video 3D

Stability AI предлагает модель image-to-3d. Они используют image-to-video-модель Stable Video и файнтюнят её на задачу генерации видео с вращением виртуальной камеры вокруг заданного на изображении объекта. Подобно вчерашнему ControlNet Light подходу, здесь добавляют в сам unet сферические параметры камеры в качестве кондишена, а также clip embedding входной картинки. Далее модель обучают на регулярной сетке азимутов и постоянном значении элевации, а только на следующем этапе переходят на непрерывную параметризацию с произвольными значениями. Праеры из Stable Video позволяют получать консистентные novel views.

Чтобы приблизиться к получению 3D-мэша, авторы предлагают двухэтапный пайплайн: сначала обучить нерф на задачу реконструкции (без SDS) поверх выходов зафайнтьюненной SV под орбитальную съемку на регулярных позах камеры. Затем, уже на втором этапе, используется Masked SDS на непрерывных позах. Причём маскирование происходит по не наблюдаемым с регулярных ракурсов частях мэша. Это важно, чтобы не произошла деградация (блюр) наблюдаемых частей.

Авторы также говорят о проблемах baked-in lighting. Чтобы их решить, простую illumination-модель обучают на задизентанглинг diffuse color и освещения. Авторы сравнивают multiview-генерации с Zero 1-to-3 и разносят их в одну калитку.

Long-CLIP: Unlocking the Long-Text Capability of CLIP

Сначала авторы определяют, что эффективная длина последовательности в клипе составляет порядка 20 токенов. Этого очень мало для некоторых приложений — например, для ретривала или определения схожести картинки с длинными текстами. А ещё клипы часто используются в качестве текстовых энкодеров для text-conditional генеративных моделей, где такая длина последовательности тоже не достаточна.

Авторы статьи пробуют дообучить модель на более длинных последовательностях, но главный минус такого подхода — сложности с выделением важного. Модель начинает воспринимать все атрибуты как равно значимые и реагирует на мельчайшие изменения в каждом из них. Чтобы решить эту проблему, авторы предлагают двухэтапный тюнинг:

1. тюнинг на длинных кепшенах (fine-grained tuning);
2. извлечение главных компонентов изображений и текстов с помощью PCA и алайнмент их между собой обычным контрастив-лоссом (coarse-grained tuning).

В результате модель выдает лучшие показатели и в оценке соответствия длинных текстов изображению, и в качестве текстового энкодера для text2image-диффузии.

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

Авторы предлагают использовать мультимодальный агент для анализа длинных видео. Они наделяют его памятью нескольких типов.

Во-первых, это текстовые описания каждого 2-секундного клипа (здесь используют модель LaViLa). Во-вторых, — описания на уровне эмбеддингов: самого клипа (тут берут ViCLIP) и полученного текстового кэпшна (text-embedding-3-large от OpenAI). И память о конкретных затреканных объектах: их эмбеддинги для реидентификации (из CLIP) и моменты появления в видео (отслеживаются ByteTrack) складываются в SQL-базу

Используя такую память, агент может:

— описывать 2-секундные фрагменты видео;
— искать клип по текстовому запросу с описание происходящего — используются текстовые и видео-фичи клипов, чтобы определить сходство с текстовым запросом;
— отвечать на вопрос по видео — выделяется наиболее релевантный фрагмент и запускается Video-LLaVA;
— рассказывать о качествах конкретных объектов — например, их количестве. Здесь происходит поиск по фичам в трекинговой базе и отправка соответствующего SQL-запроса.

Агент сам выбирает наиболее подходящее действие с помощью дополнительной LLM. Система выглядит тяжёлой, учитывая то, сколько моделей для неё нужно. Однако она позволяет побить на известных QA-видео-датасетах крутые модели вроде VideoLLaVA, LaViLa и InternVideo.

Разборы подготовили ❣ Александр Устюжанин, Сергей Кастрюлин и Дарья Виноградова

CV Time

#YaECCV