CV Time — пост #7

Ещё интересное с ECCV 2024

Продолжаем освещать конференцию и подсвечивать самые занятные воркшопы и доклады.

Рассказ из воркшопа Knowledge in Generative Models

Авторы задаются вопросом: как в сети кодируются знания о каком-либо визуальном образе? Классический способ — сегментировать объект на изображении, а потом посмотреть активации нейронов, которые ведут к пикселям внутри маски. Однако этот способ обнаруживает далеко не всю информацию, которой обладает модель.

Предлагается взять множество «картиночных» моделей: генеративную StyleGAN2, дискриминативные DINO VIT, ResNet и так далее, — а затем посмотреть на одних картинках схожесть в послойных активациях. Для этого генерируем картинку через StyleGAN2, а затем прогоняем через дискриминативные модели.Все найденные пары — и есть искомые знания в модели. Далее эти Rosetta-нейроны можно использовать в инверсии и редактировании. Но это для ганов.

Для диффузии эта штука не работает, потому что активации нейронов меняются со временем. Поэтому в качестве постоянной компоненты предлагают использовать веса модели. Следует файнтюнить модель на разные концепты, потом рассматривать полученные веса как точку в пространстве весов. Здесь можно найти интересную линейную делимость по некоторым признакам, а также получается непрерывно сэмплить (близкие точки семантически похожи) картинки.

Investigating Style Similarity in Diffusion Models

Авторы стремятся понять, умеет ли модель воспроизводить стили художников из реально сделанных ими картин. Классические SSL-методы вроде CLIP кодируют семантическую информацию и, соответственно, для такого анализа не подходят. Поэтому авторы сначала обучают модельку для выделения стилистических эмбедов и даже выкладывают её.

Дальше они берут LAION-aesthetics, выделяют оттуда сабсет на 12 миллионов пар с эстетическим скором более шести и парсят так, чтобы выделить информацию о стилях (на основе кепшенов). Например, Если в кепшене есть что-то вроде “in a style of van Goth”, то они кладут семпл в класс Винсент ван Гог. Разметка получается шумная, тем не менее полученный сабсет называют LAION styles.

Следом авторы берут стили из этого датасета и смотрят, насколько стилевые эмбеды картинок в датасете похожи на стилевые эмбеды генераций. Пробегая по большому количеству классов используют это как оценку умения моделей генерировать изображения и подражать разным стилям.

FlashTex: Fast Relightable Mesh Texturing with Light ControlNet

Работа посвящена генерации text-to-texture для трёх моделей. Они фиксируют регулярные параметры освещения и позы камеры, а также три типа материалов. Затем рендерят мэш входного объекта при вышеописанных условиях для каждого материала, подают в ControlNet в качестве кондишена и учат текстурировать мэш в 2D. Затем авторы представляют материал в виде multi-resolution hash grid. И проводят оптимизацию материала с классическими лоссами: реконструкция по выходам ControlNet Light для регулярных параметров света и камеры и SDS — как у DreamFusion — для непрерывных параметров.

Для консистентности multiview генерации авторы подают в ControlNet коллаж сразу с несколькими параметрами камеры. Параметризация ControlNet по свету позволяет отделить материал модели от освещения для генерации более реалистичной текстуры.

Рассказали об интересном и крутом ❣ Александр Устюжанин и Сергей Кастрюлин.

CV Time

#YaECCV