EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

Сегодня разбираем статью Huawei под названием EMMA. Это мультимодальная модель, которая одной архитектурой пытается решать задачи понимания изображений, генерации и редактирования. То есть объединяет image-to-text, text-to-image и image-to-image.

На вход подаются тексты и изображения. Картинки проходят через два энкодера.

Первый — это DCAE (Deep Compression Autoencoder). Он используется в генеративной ветке и сильно сжимает изображение.

Второй — SigLIP2 (конкретно SigLIP2-so400m), используется для семантического высокоуровневого представления изображений.

Важно, что оба энкодера дают одинаковый уровень сжатия х32. За счёт этого они могут объединять признаки не по токенам, а по каналам, не увеличивая длину последовательности.

После SigLIP2 применяют pixel shuffle, чтобы дополнительно уменьшить число токенов, а после DCAE — адаптер (MLP), чтобы привести размерности.

Для задачи понимания добавляют интересный механизм — mixture-of-experts в энкодере. Есть два эксперта: универсальный (versatile) и специализированный под STEM-задачи (графики, математика и прочее). Отдельный роутер решает, какому эксперту отправлять изображение. Если это STEM-домены – идём к специализированному, остальное — к универсальному.

Причём STEM-эксперт инициализируется из обычного и дообучается только на финальной стадии и только на соответствующих данных.

Архитектура включает две ветки:
- Und (understanding) – для понимания,
- Gen (generation) – для генерации.

На ранних слоях параметры QK-матриц шарятся, а потом ветки становятся полностью независимыми.

При этом взаимодействие между ветками происходит через глобальный self-attention.

Модель инициализируется из Qwen3-4B.

По лоссам всё стандартно: для понимания используют next-token prediction, для генерации — flow matching с velocity prediction.

В качестве данных используют смесь трёх типов:
- I2T (image-to-text) — для анализа изображений,
- T2I (text-to-image) — для генерации,
- IT2I (image editing) — для редактирования.

Глобально данные — комбинация открытых датасетов, внутренних данных и синтетики. Последняя активно используется для генерации и редактирования. Датасет GPT-Image-Edit-1.5M авторы исключили, сославшись на то, что он ухудшает subject consistency.

Обучение состоит из шести стадий:

1. Alignment — обучается только адаптер анализа изображений (Und), энкодеры заморожены.
2. Pre-training — обучаются всё, кроме DCAE.
3. Supervised fine-tuning — добавляются более качественные данные, плюс подключается editing.
4. Quality tuning (QT) — дообучение на отфильтрованных данных высокого качества.
5. STEM expert tuning (ET) — обучается только STEM-эксперт.
6. Router tuning (RT) — отдельно дообучается роутер.

На задачах стандартных VLM-бенчмарков модель примерно на уровне Qwen3-VL. Есть просадка на MMMU и рост на MathVista, вероятно, за счёт STEM-эксперта. НаGenEval модель демонстрирует более высокий prompt following, чем у Qwen-Image.

Пара интересных наблюдений.

- Модель умеет работать с китайскими инструкциями в генерации и редактировании, даже без T2I-данных на китайском — вероятно, это эффект knowledge transfer из I2T-данных.
- Хотя editing обучался на одношаговых инструкциях, модель обобщается на многошаговые инструкции (типа «замени очки, поменяй одежду, измени фон»).
В целом довольно аккуратная попытка собрать unified multimodal-модель.

Разбор подготовил Сергей Овчаренко
CV Time
550 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer [3/3]

Продолжаем разбирать большую статью о новой генеративной модели Z-Image. В первой части поговорили о пайплайне подготовки данных, во второй — о тонкостях обучения. А сегодня обсудим архитектуру модели и её обучение.

Авторы используют два картиночных энкодера: SigLIP2 и Flux-VAE и один текстовый — Qwen3-4B. Трансформер мультимодальный, диффузионный, Single-Stream. 3D-RoPE стандартное, не такое хитрое, как в Qwen Image.

Рассмотреть архитектуру модели во всех подробностях можно на схеме. Она довольно стандартная: состоит из Attention- и FFN-блоков c Gate и Scale. В кондишн из Scale-/ Gate-слоёв прокидывается только время.

На вход в диффузионную модель как обычно поступают латентны и эмбеддинги промпта. Эмбеддинги конкатенируются вдоль длины последовательности. В editing-режиме на вход также попадают эмбеддинги исходных изображений, полученные из двух картиночных энкодеров, — они также конкатенируются со всем остальным. То есть, на вход Z-Image подаётся вся информация, которая есть в запросе.

Говоря об обучении, хочется отметить несколько интересных особенностей. Претрейн начинается с text-to-image на изображениях низкого разрешения — 256х256. Так модель учат в общих чертах понимать, как устроены картинки. Авторы утверждают, что на эту стадию уходит почти половина времени: скорее всего, именно это сделало маленькую модель такой эффективной.

Далее следует omni-часть предобучения: к исходному датасету добавляют изображения произвольного разрешения, editing-данные и различные виды caption’ов.

После этого — SFT-стадия, где авторы стараются сбалансировать концепты. В процессе обучения для каждого из концептов фиксируется статистика его появлений в батчах. Веса картинок, представляющих разные концепты, перевзвешиваются при сборе следующего батча. Так модель изучает концепты более равномерно.

Для стабилизации модели ей устраивают несколько SFT-стадий, во время каждой из которых перебалансируют концепты в датасетах. Потом веса полученных моделей усредняют.

Потом модель дистиллируют при помощи модифицированного DMD, который авторы называют decoupled DMD. От оригинального он отличается тем, что стадии CFG-Augmentation и Distribution matching’а разделяют и оптимизируют отдельно.

В конце модель дообучают при помощи DPO и GRPO для максимального соответствия человеческим ожиданиям.

Проверенные решения в нетипичных комбинациях позволяют Z-Image показывать хорошие результаты при небольших затратах вычислительных мощностей. Познакомиться с моделью поближе можно на GitHub или HuggingFace.

Разбор подготовил Илларион Дмитриев
CV Time
1 014 просмотров · 18 реакций Открыть в Telegram · Открыть пост на сайте
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer [2/3]

Продолжаем разбирать большую статью о новой генеративной модели Z-Image. В первой части серии поговорили об инфраструктуре для обработки данных, а сегодня обсудим ошибки модели.

Во время обучения Z-Image авторы статьи столкнулись с тем, что модель некорректно выучивает сложные концепты. В качестве примера (первая схема) они приводят выражение 松鼠鳜鱼 — название блюда китайской кухни «рыба-белка»: когда модель пытается сгенерировать изображение рыбы-белки, она может решить что ей нужно нарисовать 松鼠(рыбу) и 鳜鱼(белку).

Чтобы бороться с такими случаями, авторы используют сложную систему курирования данных с vector engine и деревом концептов. После того как граф концептов подтверждает, что рыб-белок в датасете не хватает, надо найти хорошие примеры и показать их модели. Для этого в части датасета — например, той, что соответствует концепту «китайская еда», — ищут наиболее подходящие изображения с помощью vector engine и добавляют их в текущий батч обучения. А потом регулярно повторяют эту операцию во время обучения.

Подробнее рассмотреть общий алгоритм обогащения датасетов можно на второй схеме:

1. Из всего датасета выделяют подмножество изображений, соответствующих непредставленным концептам.
2. При помощи VLM модели присваивают им caption’ы.
3. Люди и VLM оценивают качество полученных семплов.
4. Отвергнутые семплы с некорректными подписями к картинкам правят люди.
5. VLM дообучается на результатах такой разметки на каждой крупной стадии обучения модели. После каждой итерации дообучения доля картинок, оцениваемых VLM, растёт. Условно, если на первой стадии модель проверяла всего 20% семплов, на последней — уже 50%.

Комбинация обоих описанных механизмов постепенно улучшает датасет.

Кроме классической text-to-image-задачи, авторы также обучают модель редактировать изображения. Чтобы подготовить данные для этого, используют несколько стратегий:

- Произвольно переставляют и комбинируют различные версии одного и того же входного изображения, отредактированные другими моделями: например, инпейнтинг или смена ракурса.

- Собирают пары изображений из видеокадров: берут два похожих и описывают разницу между ними в виде инструкции. Например, «перемести машину из города в деревню» для кадров с одной и той же машиной в разных локациях.

Генерируют синтетические данные с текстами — подбирают изображения, пишут на них разные тексты и генерируют инструкции вида «поменяй текст на картинке с "котик" на "собачка"».

Подробнее о том, как устроена архитектура Z-Image, расскажем в третьем посте.

Разбор подготовил Илларион Дмитриев
CV Time
1 181 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer [1/3]

Сегодня начнём разбирать большую статью о новой генеративной модели Z-Image. В первом посте серии поговорим об инфраструктуре для обработки данных, во втором — об ошибках модели, в третьем — о её архитектуре.

Z-Image знаменита двумя вещами. Она:

- небольшая по современным меркам — около 6B параметров;
- весьма эффективно обучена: для тренировки использовали всего 314К GPU-часов на H800 GPU.

Пока авторы зарелизили только text-to-image-модель, но скоро обещают выкатить editing. Текущая версия уже впечатляет: иногда она ошибается в генерации текстов на изображении, но в среднем отлично справляется с этими и другими визуальными эффектами.

Таких результатов удалось добиться благодаря продуманному обучению и хорошей подготовке данных. Для того чтобы собрать качественный датасет, хорошо покрывающий разные домены, авторы настроили пайплайн из четырёх компонент:

1. Data Profiling Engine. Базовая фильтрация по качеству изображений — отсеиваются картинки со слишком высоким уровнем шума или чрезмерным объёмом фона, с артефактами компрессии и т. д.

Эстетичность картинки оценивает отдельная модель: она создаёт дополнительный атрибут aesthetic score.

Что касается caption:

- Пары «изображение + текст» с низкой похожестью фильтрует специально дообученный CLIP. Он возвращает коэффициент того, насколько картинка соответствует тексту (по шкале от 0 до 1). Таким образом датасет очищается от самых не подходящих друг другу пар.

- Чтобы обогатить caption, генерируют три его версии: очень подробную, детальную и короткую. Все три получают с помощью простой VLM. Далее их используют для прогрессивного обучения: постепенно повышают разрешение изображений и длину caption, чтобы модель познакомилась с миром изображений, поняла, как их генерировать, и усовершенствовала свои навыки.

2. Cross-modal Vector Engine. Нестандартный механизм, который проверяет, насколько хорошо датасет покрывает всё множество реальных пар «картинка + текст».

Верхнеуровнево это работает так: пары «картинка + текст» пропускают через энкодеры, получают их векторное представление. На всём множестве векторов строят индекс — далее его используют для дедупликации пар и аналитики.

3. World Knowledge Topological Graph. Для того чтобы оценить, насколько концепты реального мира представлены в датасете, используют необычный механизм. Строят граф: вершины — концепты, рёбра — их ссылки друг на друга. От маловажных концептов избавляются алгоритмом PageRank. Оставшимся точкам присваивают теги и группируют их в иерархические деревья. Такой граф позволяет балансировать датасет во время обучения, повышая вероятность у семплов, представляющих слаборепрезентованные концепты.

4. Active Curation Engine. Люди и VLM поочерёдно проверяют датасет, пока он не окажется достаточно хорошим.

Подробнее об ошибках Z-Image и том, как она устроена, расскажем в следующих постах.

Разбор подготовил Илларион Дмитриев
CV Time
1 375 просмотров · 26 реакций Открыть в Telegram · Открыть пост на сайте
OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference [2/2]

В первой части разбора рассказали о ключевых проблемах алайнмента VLM и гипотезах авторов. Дальше статья сводится к сбору данных. Вопросы и ответы генерируются через проприетарные модели, в основном GPT-4o. Самое интересное — как отбирают изображения и какие срезы задач выделяют.

Авторы хотят собирать open-ended-вопросы, не подразумевающие односложный ответ. Этим пытаются перенести в мультимодальный сеттинг часть навыков, которые обычно хорошо выучиваются из text-only-данных: креативность, генеративные запросы, более развёрнутые ответы.

По типам задач выделяют два основных среза:
1) общий (знания, ризонинг, генеративные сценарии),
2) инфографика.

У каждого среза — свой пайплайн. Сначала идёт фильтрация изображений: убирают самые простые картинки, оценивают визуальную сложность и стараются оставить те, где много объектов. Для этого используют внешние модели.

Дальше генерация стандартная: few-shot + промптинг GPT-4o для вопросов и ответов. Но на некоторых задачах few-shot работает хуже — там добавляют дополнительные приёмы, чтобы сохранить разнообразие.

Отдельно описана стадия рефайнмента. QA-пары усложняют и переписывают с помощью LLM, добавляя более строгие требования к форме ответа: ограничения длины, стиль, структура.

Ещё одна стадия — фильтрация QA-пар. На некоторых срезах, например в графиках, авторы считают, что даже GPT-4o недостаточно надёжна. Тогда используют ансамбль нескольких проприетарных и опенсорсных моделей, сравнивают ответы и либо мёржат, либо фильтруют, чтобы получить более качественную финальную пару.

В итоге удалось собрать около 200 тысяч QA-пар.

Бенчмарк MM-AlignBench

Существующие бенчмарки обычно проверяют только правильность ответа, когда есть ground truth, но не его качество в смысле human preference. Поэтому собирается отдельный небольшой бенчмарк — MM-AlignBench.

В качестве референса вспоминают попытки сделать VLM-арену, например, WildVision. И используют похожую идею оценки: сравнивают ответы моделей попарно и просят GPT-4o выступить судьёй. Получают вердикт по шкале из нескольких категорий (A лучше B, немного лучше или равны и в обратную сторону). Из этого считают win rate и reward.

Эксперименты и результаты

Дальше авторы проводят эксперимент на базе LLaVA-Next: заменяют часть исходных данных на свои новые данные OmniAlign-V и смотрят, что будет с метриками. На прокси-бенчмарках под human preference (WildVision и MM-AlignBench) метрики заметно растут. При этом классические мультимодальные бенчмарки не проседают критично. То есть human preference получилось улучшить, не убив привычные VLM-метрики.

На текстовых бенчмарках деградация всё ещё остаётся, но становится меньше. Если раньше просадка была около 50 пунктов, теперь стало около 30. Это всё ещё много, но разрушение LLM-навыков VLM стало слабее.

В итоге получился неплохой бенчмарк, который отражает другие аспекты качества по сравнению с тем, что обычно замеряют в мире VLM. Причём его не просто собрали, но и вывели на лидерборд — вопрос теперь в том, будут ли остальные игроки им пользоваться. Но сам интент двигать оценку в сторону human preference выглядит интересным и полезным.

Разбор подготовил Алексей Григорьев
CV Time
1 158 просмотров · 26 реакций Открыть в Telegram · Открыть пост на сайте
OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference [1/2]

Сегодня разбираем статью об алайнменте VLM, которую можно воспринимать как срез главных проблем в области и их решений. В первой части поговорим об основных узких местах, которые выделяют авторы.

1) Автометрики не отражают качество алайнмента полностью. Обычно для VLM его измеряют с помощью бенчмарков, где предполагается один правильный ответ: посчитать число объектов на картинке, ответить на простой вопрос в одно слово и прочее. Такие автометрики удобно считать, и они действительно проверяют базовые навыки модели, но многие аспекты качества VLM с их помощью не оценить.

2) Для VLM долгое время не было общепринятой «арены». Если для LLM была арена, которую знали, смотрели и репортили почти все, то для VLM она появилась не так давно.

3) Мультимодальный SFT портит текстовые способности LLM. Главное утверждение авторов: именно на этой стадии LLM внутри VLM сильно деградирует. Для проверки берут исходную LLM, измеряют на текстовых бенчмарках, затем делают мультимодальный SFT и снова измеряют получившуюся модель на тех же бенчмарках. В результате метрики заметно ухудшаются. Выдвигаются две гипотезы, почему это происходит.

Первая гипотеза: в мультимодальном SFT слишком мало text-only-данных. Если добавить их, возможно, просадка уменьшится. Для проверки берут датасет LLaVA-Next SFT с 40 тысячами текстовых примеров, многие из которых старые и некачественные. Эти примеры заменяют на более качественные, а затем масштабируют долю текстовых данных.

Результат получается контринтуитивный: текстовые метрики алайнмента действительно растут, но мультимодальные метрики падают как на арене, так и для базовых навыков. Таким образом, качество текстового алайнмента плохо обобщается на мультимодальный срез.

Вторая гипотеза: сами по себе мультимодальные данные слишком простые по сравнению с тем, на чём обучают LLM. Они плохо проучивают instruction following и качество ответа в разрезе human preference. Авторы приходят к идее собирать мультимодальные данные, которые по качеству и сложности ближе к задачам алайнмента под human preference.

Во второй части разбора поговорим о том, как происходил сбор данных, подробнее рассмотрим полученный бенчмарк и результаты.

Разбор подготовил Алексей Григорьев
CV Time
1 249 просмотров · 38 реакций Открыть в Telegram · Открыть пост на сайте
DeepSeek-OCR 2: Casual Visual Flow

Сегодня разбираем статью, которая продолжает идею DeepSeek-OCR. Суть первой версии была в том, чтобы использовать глубокий энкодер на базе SAM и CLIP, а затем подавать токены в небольшой decoder-like-блок. Посмотрим, что нового предложили авторы.

Архитектура

Главное отличие от DeepSeek-OCR v1 в том, что вместо CLIP берут LLM (decoder-like-модель), а также добавляют обучаемые queries. Декодер при этом остаётся тем же.

В качестве визуального токенизатора используется SAM-base на 80M параметров. Дальше идут две свёртки, которые дают сжатие в 16 раз (каждая уменьшает размерность в два раза по каждой из осей). Сжатое представление подаётся в LLM. Токенизатор получается довольно компактным.

Авторы говорят, что теоретически можно было взять encoder-decoder-схему, как в mBART, но это плохо сходилось. И если не объединять всё в одну последовательность, не хватает взаимодействия между токенами, поэтому decoder-like-архитектура работает лучше.

Используются два режима подачи: 1024×1024 (256 токенов) у всего изображения целиком либо 768×768 для локальных кропов. Если документ небольшой, подают только целое изображение. Если документ большой, нарезают на локальные кропы и добавляют сжатое целое изображение.

Идея с обучаемыми queries

Авторы вдохновлялись двумя работами. Первая — DETR (2020) на тему детекции объектов. В ней картинку сначала прогоняют через ResNet и получают визуальные признаки, а затем делают кросс-аттеншн с набором object queries. Каждая query отвечает за потенциальный объект, и decoder-like-модель выдаёт предсказания по этим queries.

Вторая работа — BLIP-2. Это captioning-модель, в которой используется Q-former с обучаемыми queries. Они делают кросс-аттеншн к визуальным токенам из CLIP и передают уже агрегированное представление в LLM. В результате вместо сотен визуальных токенов в LLM передаётся компактное представление через queries.

Подход DeepSeek-OCR 2 во многом похож на Q-former, но здесь число query соответствует числу визуальных токенов.

LLM применяют, потому что они уже хорошо показали себя в инициализации для мультимодальных задач.

Данные

Авторы используют те же данные, что и для предыдущей версии. Чтобы модель не забывала общие визуальные представления, добавляют и обычную зрительную информациию, но распознавание текста преобладает. Распределение немного перебалансируют и делают небольшую доработку меток.

Обучение

Процесс обучения состоит из трёх стадий.

1) Encoder training: обучают только энкодер, а декодер заморожен. Смысл стадии — научить токенизатор и LLM работать как энкодер: извлекать признаки, сжимать токены и собирать представление.

2) Query enhancement: обучают энкодер и декодер вместе. Происходит донастройка их совместной работы.

3) Decoder specialization: замораживают энкодер и финально доучивают только декодер.

Результаты

Авторы замеряются на большом двуязычном (английский и китайский) бенчмарке OmniDocBench v1.5. Он содержит примерно 1400 документов разных категорий, включая журналы, академические статьи и отчёты.

В сравнении с бейзлайнами в новой версии чуть меньше токенов, то есть модель дешевле, но при этом общее качество выросло примерно на 4%. Больше всего улучшились срезы по формулам и таблицам. Также уменьшилась метрика Edit Distance, которая показывает, насколько распознанный текст отличается от эталона в документе.

Сравнение идёт с InternVL, Miner и другими OCR-специфичными подходами. По цифрам PaddleOCR-VL всё ещё выглядит чуть лучше.

В некоторых аспектах DeepSeek-OCR v2 есть куда расти — например, в задаче распознавания текста на газетах. Объясняют это тем, что на очень насыщенных текстом документах выбранные разрешения и степень сжатия могут мешать точному распознаванию, и для улучшения, возможно, нужно обучаться на большем количестве кропов.

В итоге авторам удалось получить решение, которое быстро, недорого и с хорошим качеством обрабатывает документы. Код и модель выложены в публичный доступ.

Разбор подготовил Денис Кузнеделев
CV Time
1 371 просмотров · 26 реакций Открыть в Telegram · Открыть пост на сайте
When and why vision-language models behave like bags-of-words, and what to do about it?

Сегодня разбираем не новую, но актуальную статью об одной неприятной штуке: bags-of-words-ности CLIP. Другими словами, разберём ситуацию, когда VLM вроде бы должна понимать смысл, порядок и отношения между объектам, но на деле ведёт себя так, будто текст — просто набор слов без структуры. Авторы пытаются выяснить, когда и почему VLM начинают работать как BoW, и можно ли это исправить.

Для этих целей собрали специальный бенчмарк ARO (Attribution, Relation, and Order), который тестирует три вещи:

1) понимает ли модель отношения между объектами (“horse eats grass” vs “grass eats horse”);
2) различает ли она атрибуты (“paved road” vs “white road”);
3) чувствительна ли к порядку слов.

На примерах из Visual Genome делают простой тест: берут картинку и две подписи — правильную и с переставленными словами. Модели должны выбрать корректный вариант, но на графиках видно, что не все уверенно проходят даже порог случайного угадывания — 0,5. Например, Flava в некоторых настройках вообще чаще выбирает неправильные подписи.

Чтобы расширить тесты, добавляют данные из COCO Order и Flickr Order. Там уже не просто меняют местами два слова, а делают несколько видов искажений:
перемешивают существительные и прилагательные, перемешивают почти все слова, перемешивают слова внутри триграмм. Получается набор, где рядом стоит оригинальный текст и несколько сломанных вариантов. И снова видно, что многим моделям всё равно, в каком порядке стоят слова.

Можно ли обучить CLIP как BoW?

Дальше проверяют, что будет, если обучить CLIP так, чтобы текстовый энкодер вообще не видел порядок слов. Текст подают как bag-of-words и смотрят retrieval-метрики. Результат печальный: качество падает совсем немного. То есть модель можно обучить на беспорядочных текстах, и она всё равно будет работать почти так же. Это подтверждает идею, что CLIP-подобные модели часто не используют синтаксис и порядок, а просто ловят совпадения слов.

Эксперимент с картинками

Авторы делают похожий тест и для визуального энкодера: режут изображение на патчи 3×3 и перемешивают. Качество падает сильнее, но всё равно остаётся приемлемым. То есть даже порядок визуальных частей модели часто не критичен.

NegCLIP как решение

В качестве способа исправления авторы предлагают NegCLIP. Идея в том, что стандартный contrastive learning слишком легко проходит на поверхностных совпадениях, поэтому нужно добавлять более жёсткие негативы.

Вводят два типа таких негативов:

1) srong alternative images — самые похожие картинки по эмбеддингам CLIP, которые добавляются как сильные негативы;
2) targeted negative captions — подписи, где слова специально переставлены или подменены.

По итоговой диаграмме видно, что NegCLIP заметно улучшает результаты на VG-Relation, VG-Attribution, COCO-Order и Flickr-Order, то есть там, где проверяется не просто совпадение слов, а структура.

В итоге работа показывает, что многие VLM действительно ведут себя как BoW: им часто всё равно, кто кого ест и в каком порядке стоят слова. Но этот эффект можно ослабить, если в обучении использовать сложные негативные примеры, как в NegCLIP.

Разбор подготовил Фёдор Притула
CV Time
1 790 просмотров · 34 реакций Открыть в Telegram · Открыть пост на сайте
Emu3.5: Native Multimodal Models are World Learners

Сегодня разбираем работу от команды китайского Института искусственного интеллекта, которая продолжает гнуть свою линию и выкатывает очередную модель семейства Emu. На этот раз — Emu3.5. В отличие от предыдущих работ, здесь авторы прямо говорят, что пытаются построить не просто мультимодальную модель, а некую world model. Ниже разберёмся, что под этим понимают.

Сразу о путанице в названиях. Есть Emu от Meta* — text-image-модель, важная в своё время как ранний пример качественного SFT на небольших датасетах. И есть отдельная серия работ Emu от авторов этой статьи.

Например, год назад, у них была работа под названием Emu3: Next-Token Prediction is All You Need. Тогда идея была довольно простой: свести текст, картинки и видео к единой задаче next-token prediction. Генерации выглядели сочными, но при внимательном рассмотрении страдали от типичных артефактов дискретизации — текстуры «плыли», мелкие детали разваливались.

В Emu3.5 амбиции заметно выросли. Архитектурно всё по-прежнему прямолинейно: один decoder-only-трансформер на 34B параметров, обучаемый чисто авторегрессионно. Самое интересное — в данных. Вместо того чтобы опираться в основном на пары картинка-текст, модель обучают преимущественно на чередующихся (interleaved) видео-текстовых последовательностях из интернета. Видео нарезают на ключевые кадры, аудио транскрибируют с помощью ASR с таймстемпами, а затем всё это склеивают в одну длинную последовательность: в сумме — больше 10 триллионов токенов.

Так модель учится не отдельным сценам, а событиям во времени: динамике, переходам, причинно-следственным связям. Это и есть их практическое определение «world learning». Кроме видео используют обычные image-text-данные и большой объём text-only-данных.

И это ещё не финал: после претрейна модель доучивают — сначала на гигантском SFT (150 млрд сэмплов), а потом через RL-алайнмент, чтобы она вела себя адекватно и по тексту, и по картинкам.

Все модальности токенизируются в общее дискретное пространство. Словарь модели — около 280k токенов, из которых ~150k приходятся на текст, а остальная часть — на визуальные токены. Для визуальной части используется собственный токенизатор с REPA-подобной стабилизацией через SigLIP. Авторы честно признают, что дискретизация всё равно даёт артефакты, поэтому опционально добавляют диффузионный декодер поверх авторегрессионной генерации.

Отдельная важная часть — DiDA (Discrete Diffusion Adaptation). Так пробуют решить главную боль авторегрессии: медленную генерацию изображений. На этапе инференса модель временно переводится в режим дискретной диффузии: визуальные токены зашумляются и затем восстанавливаются за несколько итераций. За счёт этого генерация картинок ускоряется примерно в 20 раз без заметной потери качества.

На выходе Emu3.5 умеет довольно широкий спектр вещей: выдаёт длинные согласованные визуальные нарративы, генерацию историй с картинками, пошаговые визуальные инструкции и даже навигацию по сцене по текстовым командам — как будто внутри есть некоторое представление пространства. В классических задачах text-to-image и image editing модель на уровне сильных закрытых мультимодальных моделей.

В итоге, даже если с громким термином world model можно поспорить, сама траектория развития Emu выглядит любопытно — продолжим следить за ними.

Разбор подготовил Сергей Кастрюлин
CV Time
___
Компания Meta признана экстремистской; её деятельность в России запрещена.
1 594 просмотров · 32 реакций Открыть в Telegram · Открыть пост на сайте
Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking [2/2]

Продолжаем разбирать техрепорт, описывающий новые модели Qwen.

Обучение моделей и результаты

Обучение моделей делается в несколько этапов, причём довольно нетривиальным образом: модели с этапа X используются для последующей фильтрации данных для этапа X+1, а Embedding и Reranker на разных этапах выступают учителями друг для друга.

— На всех этапах модели обучаются как LoRA к Qwen3-VL, чтобы с большей вероятностью не испортить возможности сильного бэкбона.

— На первом этапе (s0) на всём датасете обучается Embedding, используя контрастивный InfoNCE-лосс.

— На следующем этапе Embedding:s0 используется для фильтрации датасета — и на этом фильтре обучается Embedder:s1 и Reranker.

— На последнем этапе снова фильтруется уже Reranker, и скоры Reranker используются как таргет для дистилляции Embedding:s2.

— Наконец, веса полученной модели усредняются (точнее, сферически интерполируются) с Embedding:s1, порождая финальную модель Embedding:s3, которая и пошла в релиз.

По замерам авторов, их модели опережают все существующие открытые и закрытые модели на мультимодальных бенчмарках. При этом на текстовых задачах есть и более сильные модели — в основном существенно большего размера.

Использование моделей

Авторы явно постарались сделать модели production-ready, позаботившись не только о качестве метрик, но и об удобстве использования.

Во-первых, в модель заложены несколько очень важных свойств для производительности (помимо инференса в один prefill-этап).

Тренировка проводилась в quantization-aware-режиме — при вычислении лоссов для эмбеддингов, авторы одновременно вычисляли их для квантизованных в int8-эмбеддингов. В результате, полученные эмбеддинги можно квантизовать в int8 (отмасштабировать в интервал [-127, 128] и округлить), хранить и использовать практически потери качества.

Также в тренировке эмбеддингов использовался подход матрёшки, при котором лоссы применяются не только к эмбеддингам целиком, но и по частям к их первым 32, 64, 128, 256 и 512 элементам. Благодаря этому каждый кратный степени двойки «подсрез» эмбеддинга — тоже эмбеддинг (хоть и худшего качества). При работе с большой базой документов можно, например, брать только первые 128 элементов эмбеддинга вместо 1024 и хранить только их. Суммарно можно сократить размер эмбеддингов базы документов в 10–50 раз.

Во-вторых, в силу архитектуры модель очень гибка в применении. И документ, и запрос могут быть не только одним изображением или текстом, но и их произвольной последовательностью. Довольно большое окно контекста (32К) токенов позволяет обрабатывать 10–20 страниц изображений вместе с текстом.

Также интересная фича таких моделей как класса — наличие инструкции. Мультимодальные семантические эмбеддинги доступны всем и каждому как минимум с момента релиза CLIP (5 лет назад!), но способ вычисления эмбеддинга почти всегда был «зашит» в модель. Для эмбеддеров на основе LLM/VLM можно в инструкции указать, что важно в «кодировании» документов и запросов. Например, в случае поиска по картинкам можно инструктировать модель фокусироваться на стиле изображения или, наоборот, на содержимом — и получить эмбеддинги, поиск по которым будет давать разные результаты.

В итоге у авторов получилась гибкая и эффективная опенсорсная модель для мультимодального поиска. В отчёте приведено много деталей обучения, а в cookbook — примеров использования. Модели такого класса определённо имеют множество применений как в продуктах, так и в рутинных ML-задачах по работе с данными.

Разбор подготовил Борис Зимка
CV Time
2 018 просмотров · 38 реакций Открыть в Telegram · Открыть пост на сайте
Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking [1/2]

Ещё летом 2025-го вышли текстовые Qwen3-Embedding/Reranker. А в январе этого года команда Qwen представила новые модели: Qwen3-VL-Embedding и Qwen3-VL-Reranker. В техрепорте авторы рассказывают, как им удалось адаптировать VLM для решения задач мультимодального поиска и ранжирования — ключевых тем ML с долгой историей развития и огромным количеством применений. Об этом сегодня и поговорим.

Формулировка задачи

Если кратко, задача поиска по базе документов — по запросу Q среди множества документов D[i] найти подходящие под запрос. В текстовом поиске Q и D — текст, а в мультимодальном варианте — Q и D могут быть картинками, текстом или их комбинацией, причём модальности Q и D могут не совпадать. Например, по запросу «пингвины в Южной Америке» релевантны и статьи Википедии, и соответствующие фотографии.

Модели

Один из распространённых подходов в решении задачи поиска — разбиение на два этапа: быстрый поиск кандидатов и более сложное ранжирование их между собой для определения лучших. Исходя из такой схемы, команда Qwen подготовила две модели:

1. Qwen3-VL-Embedding: модель, предсказывающая для документа или запроса вектор признаков в соответствии с инструкцией. Можно считать, `def embedding(instruction: str, query_or_doc: str | Image) -> list[float]`.

2. Qwen3-VL-Reranker: модель, оценивающая согласно инструкции степень соответствия запроса документу от 0 до 1. Интерфейс примерно: `def reranker(instruction: str, query: str | Image, document: str | Image) -> float`.

Архитектурно модели — почти точные копии VLM: получают на вход токенизированные инструкции и текст, патчи изображений, но имеют модифицированный выход, и инференсятся несколько иначе.

Reranker выполняет инференс всей VLM целиком, но на выходе в качестве оценки «релевантен ли документ запросу» берётся соотношение вероятностей токенов “yes” и “no”. Embedding выполняет инференс до последнего слоя (проекции токена в вероятности вокабуляра) — и hidden state перед этой проекцией возвращается как эмбеддинг.

В отличие от полноценных VLM, в Embedding и Reranker выполняется только этап prefill (обработка входного контекста), и состояние последнего токена промпта возвращается как ответ. Стадия decoding (предсказания одного токена за другим) отсутствует, что делает инференс многократно быстрее.

Обе модели инициализируются Qwen3-VL и доступны в двух вариантах: на 2 и 8 миллиардов параметров.

Данные

Датасеты для поиска повторяют логику задачи:
— одна текстовая инструкция к задаче I;
— база мультимодальных документов D[i];
— набор мультимодальных запросов Q[j];
— матрица меток R[i, j], определяющих D[i] как релевантный или нерелевантный Q[j].

На таком датасете можно обучать как Reranker (напрямую классифицировать релевантность пары Q-D), так и Embedding (оценивая релевантность пары по скалярному произведению эмбеддингов).

Обучающий корпус Embedding и Reranker состоит из множества таких датасетов. Для каждого из них база документов берётся из реальных данных — эти документы VLM описывает и классифицирует. Некачественные фильтруются, распределение датасетов нормализуется, чтобы избежать сильного перекоса в какой-либо домен.

Затем для документов с помощью VLM генерируют запросы разных типов, причём как релевантные документу, так и hard-negative-примеры — запросы, для которых документ похож на релевантный, но не является таковым.

После этого датасеты дополнительно фильтруются уже существующими моделями и неудачные элементы датасета отсеиваются.

Во второй части разбора поговорим о том, как модели учились, и об их использовании на практике.

Разбор подготовил Борис Зимка
CV Time
1 885 просмотров · 29 реакций Открыть в Telegram · Открыть пост на сайте
Ovis-U1 Technical Report

Некоторое время назад мы обсуждали MLLM. Сегодня разберём статью о ещё одной универсальной модели, способной обрабатывать и текст, и изображения.

Ovis-U1 — модель-швейцарский-нож. В зависимости от инструкции, она может работать и в режиме image-to-text, и в text-to-image. Например, можно изменить изображение, описать его или сгенерировать совсем новую картинку по текстовому запросу. Архитектуру MLLM можно рассмотреть на первой из трёх схем.

Следите за логикой сверху вниз:

1. Сначала Ovis-U1 обрабатывает входные данные: токенизирует текст и обрабатывает изображения визуальным энкодером, чтобы составить семантический эмбеддинг, или использует VAE-энкодер для составления детализированного представления.

2. Полученная последовательность подаётся в трансформер, инициализируемый с Qwen3-1.7B.

3. Для генерации изображения выходные токены текстов и семантических представлений входной картинки комбинируются с помощью пары трансформерных слоев (авторы называют это Refiner’ом, на схеме обозначено как (с)) и, вместе с VAE-эмбеддингами, отправляются в «визуальный декодер» на базе MMDiT. Эта часть инициализируется с нуля.

Обучение модели происходит в несколько этапов:

— Сначала предобучается визуальный декодер на задачу text-to-image-генерации. Все остальные части при этом заморожены.
— Следом предобучается адаптер между LLM и визуальным энкодером на задачи text-to-image-генерации, а также понимание и редактирование изображений.
— Потом на тех же данных визуальный энкодер и адаптер обучаются вместе.
— На следующей стадии всё, кроме визуального декодера, обучается на задачах понимания изображения.
— Далее на задаче генерации изображений обучается refiner и визуальный декодер.
— На финальном этапе визуальный декодер файнтюнится для задач text-to-image-генерации и редактирования изображений.

Авторы утверждают, что визуальный декодер на основе диффузии в сочетании с Refiner’ом позволяет генерировать изображения почти так же хорошо, как GPT-4o. Интересны ещё несколько замеров:

— 69,6 баллов в мультимодальном академическом тесте OpenCompass (что лучше последних современных моделей, такие как Ristretto-3B и SAIL-VL-1.5-2B);
— 83,72 балла и 0,89 балла при преобразовании текста в изображение в тестах DPG-Bench и GenEval;
— 4,00 и 6,42 для редактирования изображений в ImgEdit-Bench и GEdit-Bench-EN.

Разбор подготовил Сергей Овчаренко
CV Time
1 702 просмотров · 21 реакций Открыть в Telegram · Открыть пост на сайте
Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

Сегодня разберём статью, авторы которой возвращаются к идее DMD и пытаются понять, что именно заставляет этот метод работать. Их главное наблюдение — главную роль в обучении играет не distribution matching, как можно было ожидать, а CFG Augmentation.

Что такое DMD

DMD относится к ODE-free-дистилляции диффузионных моделей: здесь не важно, по какой траектории происходит сэмплирование, главное — чтобы модель умела выдавать скор-функцию.

Идея метода в том, чтобы форсить совпадение распределения генератора с распределением реальных данных, оптимизируя KL-дивергенцию между P_{fake} и P_{real}. Плотность реальных данных напрямую недоступна, но для обучения достаточно градиента этого лосса. После дифференцирования в выражении появляются скор-функции реальных и фейковых данных: фейковую мы учим, а реальную аппроксимируем замороженной моделью-учителем.

Поскольку скор-модели плохо работают на незашумлённых изображениях и реальные с фейковыми распределениями часто плохо пересекаются по модам, в DMD скоры считают на зашумлённых данных. Это делает их in-distribution и стабилизирует обучение. В итоге реальный скор остаётся замороженным, а фейковый обучается стандартным diffusion loss — это база для всех модификаций DMD.

Что изменилось в DMD2

В DMD2 авторы разомкнули обучение генератора и оценщика. Сделали несколько шагов обучения оценщика на один шаг генератора, и за счёт этого отказались от регрессионного лосса. Также был добавлен GAN loss как регуляризация: используют не как основной источник сигнала, а именно для стабилизации обучения.

Основная идея Decoupled DMD

В новой статье авторы снова смотрят на градиент KL-дивергенции и замечают, что простая conditional-оценка реального скора работает плохо. Зато на практике гораздо лучше CFG-оценка. Возникает вопрос — это просто удачный трюк или за этим стоит какая-то теория?

Оказывается, если подставить CFG прямо в формулу KL-лосса, он раскладывается на две части: классический distribution matching и дополнительный член, соответствующий вектору между real conditional и real unconditional скорами. Именно эту добавку авторы называют CFG Augmentation. Из этого разложения следует ключевой вывод статьи: основной обучающий сигнал в DMD даёт CFG Augmentation, а distribution matching выступает стабилизирующей регуляризацией.

Эксперименты и выводы

Эксперименты подтверждают этот тезис. Обучение только на distribution matching быстро ломает семантику, обучение только на CFG Augmentation приводит к переобучению. Самый стабильный результат получается при совместном использовании обоих компонент лосса.

Авторы также показывают, что CFG Augmentation и distribution matching имеет смысл обучать с разными уровнями шума: больший \tau в CFG-части помогает с высокочастотными деталями, тогда как для distribution matching лучше работает стандартный диапазон шумов.

В итоге статья интересна не столько метриками, сколько самим наблюдением: CFG в DMD — это не эвристика, а осмысленный компонент лосса.

Разбор подготовил Михаил Колтаков
CV Time
1 607 просмотров · 17 реакций Открыть в Telegram · Открыть пост на сайте
Лучшие статьи 2025 года: выбор авторов СV Time. Часть 2

Хороших статей в прошлом году оказалось слишком много, чтобы уместить их в один пост. Во второй части мы собрали не менее интересные работы, которые во многом определяют, как будет выглядеть генерация изображений и видео в 2026-м.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

Работа, отобранная программным комитетом NeurIPS 2025, как одна из лучших. Авторы исследуют причины, по которым диффузионные модели генерируют новые изображения, а не воспроизводят в точности обучающую выборку. Для модельных экспериментов берут датасет лиц Celeba в низком разрешении и сгенерированный случайной двухслойной сетью. Оказывается, что существуют две временные отметки: t_gen и t_mem, между которыми модель умеет создавать качественные примеры и при этом не в точности копировать данные из обучения. Причём с увеличением количества данных интервал растёт. Вывод: диффузионные модели обладают регуляризацией, которая позволяет им избегать переобучения даже при избыточной параметризации. На практике обучающие выборки очень велики и отметка t_mem недостижима.

Mean Flows for One-step Generative Modeling

Группа исследователей из CMU и MIT этой весной представила работу, где предложила способ обучения генеративных моделей — такой, чтобы они могли делать качественные генерации за один или мало шагов. В отличие от общепринятого сейчас подхода Flow Matching, моделирующего мгновенную скорость в точке, Mean Flow учится воспроизводить усредненную по участку траектории скорость, что даёт более надёжную и точную оценку пути из шума в данные. Авторам удалось достичь лучшего качества одношаговой генерации на ImageNet на момент выхода публикации. Работа получила продолжение в статьях AlphaFlow и Improved Mean Flows.

Diffusion Transformers with Representation Autoencoders

Как известно, сейчас в генерации картинок и видео доминирует латентная диффузия: учат VAE, чтобы перевести картинки в более низкоразмерное пространство, и потом — диффузионную модель уже в этом пространстве. Авторы предложили вместо VAE взять сотовый картиночный энкодер (Dino, Siglip), доучить к нему декодер и обучать диффузию в пространстве фичей этого энкодера. Показывают, что диффузия, обученная в этом пространстве, сильно улучшает качество генерации. Вероятно, это будет одно из самых популярных направлений ресёрча на ближайшие полгода-год, как было с REPA.

Back to Basics: Let Denoising Generative Models Denoise

Исторически диффузионные модели чаще всего обучают предсказывать либо шум, который накладывается на картинку, либо разницу между шумом и чистой картинкой. В работе отмечают, что картинки в высоком разрешении, несмотря на большую размерность, лежат в сильно более низкоразмерном пространстве, и поэтому нейронке гораздо проще предсказывать чистую картинку, чем нечто с шумом, который захватывает всё пространство. Исходя из этого, авторы предлагают простейшую диффузионную модель — JiT (Just Image Transformer), которая работает напрямую в пиксель-спейсе (без VAE) и параметризована на предсказание чистой картинки. По архитектуре это обычный ViT с минимальными диффузионными спецификами. Показывают, что такая простая модель отлично работает на больших разрешениях, не требует дополнительных наворотов и внешних моделей. При этом по компьюту они даже эффективнее, чем латетные модели с VAE.

The Principles of Diffusion Models

Классный учебник по диффузионным моделям от их «создателя» Стефано Эрмона. В книге куча пояснений, интуиции и обсуждений, которые помогают получить полную картину о том, что мы сейчас знаем про диффузию. Покрыты почти все ключевые темы — от самой базы и до последних малошаговых моделей, а-ля MeanFlow. Будет крайне полезным для тех, кто хочет глубоко разобраться с диффузией.

Статьи отобрали Дмитрий Баранчук и Денис Кузнеделев
CV Time
1 930 просмотров · 23 реакций Открыть в Telegram · Открыть пост на сайте
Лучшие статьи 2025 года: выбор авторов СV Time. Часть 1

Прошедший год оказался переломным для AI-рынка: монополия американских моделей пошатнулась, а в фокусе оказались китайские команды. Они выложили в опенсорс большое количество сильных моделей — от ризонинг до мультимодальных. Как заметил один из наших экспертов: «Можно сказать, что весь год был китайским — и есть ощущение, что следующий тоже будет».

AlphaEvolve: A coding agent for scientific and algorithmic discovery

Статья, которая описывает способ решения сложных задач путём применения эволюционного алгоритма поверх LLM с большим контекстом. Эта модель нашла более оптимальное решение для ряда открытых математических задач, в том числе обнаружила алгоритм перемножения комплекснозначных матриц размера 4x4, который требует меньше операций (скалярного) перемножения, чем алгоритм Штрассена 1969 года. Этот результат сильнейшие умы человечества не могли получить в течение 56 лет. Открытие позволяет ускорить огромное количество вычислений в самых разных технических отраслях.

Emerging Properties in Unified Multimodal Pretraining

Работа о первой унифицированной мультимодальной модели Bagel, выложенной в открытый доступ. Модель умеет принимать на вход и выдавать на выходе любые комбинации текста и картинок. Это позволяет в рамках одной VLM делать генерацию и редактирование картинок по тексту — возможности, которые раньше публично почти не были доступны.

Qwen3-VL Technical Report

Результат развития линейки моделей Qwen-VL. На момент публикации представляет собой state-of-the-art опенсорсную VLM на большинстве мультимодальных бенчмарков. В статье авторы систематизируют ключевые принципы построения современных визуально-языковых моделей и подробно разбирают архитектурные новшества. Среди них — усовершенствованный interleaved-MRoPE для корректного позиционного кодирования пространственно-временных данных, а также интеграция многоуровневых визуальных признаков через механизм DeepStack. С этими решениями модель может эффективно работать с длинными контекстами и сложными визуально-текстовыми зависимостями.

Qwen-Image Technical Report

После VLM для распознавания и рассуждений логично посмотреть на вторую половину мультимодальности — генерацию и редактирование контента. Здесь у Qwen вышла отдельная модель: Qwen-Image, построенная на трансформерной архитектуре с 3D RoPE. Модель отличается улучшенной генерацией текста и точностью редактирования изображений. Также в статье описана структура датасета для мультимодального обучения модели.

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

В 2025 году направление визуальных GUI-агентов стало активно развиваться, и линейка UI-TARS демонстрирует одни из лучших результатов в этом классе задач. В статье основной акцент сделан на тщательном подходе к формированию обучающих данных и на деталях онлайн multi-turn reinforcement learning. Авторы подробно описывают асинхронную генерацию траекторий, дизайн reward-системы и использование специализированных доменных моделей для дальнейшего их объединения. Такой подход позволяет агенту эффективно осваивать сложные многошаговые сценарии взаимодействия с интерфейсами.

Emu3.5: Native Multimodal Models are World Learners

В статье реализован унифицированный подход к обучению предсказания картиночных и текстовых токенов. Он позволяет модели лучше улавливать причинно-следственные связи и переносить знания между модальностями, что улучшает результаты в задачах восприятия, рассуждения и генерации.

DINOv3

Статья, в которой описано развитие одного из самых сильных визуальных бэкбонов. Такие модели становятся стандартом визуальных бэкбонов; напрямую влияют на качество VLM, OCR, видео- и downstream-задач; масштабируются лучше многих альтернатив; используются как учителя для дистилляции.

Продолжение следует.

Статьи отобрали Александр Устюжанин, Данил Кашин и Александр Шишеня
CV Time
1 738 просмотров · 28 реакций Открыть в Telegram · Открыть пост на сайте
🎉Итоги года в CV Time: посты, которые читали чаще всего

Пока все постепенно уходят в мандариново-выходной режим, мы решили подвести итоги года, собрав самые популярные публикации в канале за 2025-й. Это уже стало праздничной традицией, которую мы рады разделить с вами, дорогие читатели, и заодно — поздравить вас с наступающим Новым годом! А если считаете, что в топе чего-то не хватает, приходите обсуждать в комментарии.

Yandex Alchemist: открытый датасет для буста text-to-image генерации

Пост, в котором исследователи Yandex Research подробно рассказали, как получить датасет уровня Alchemist, имея лишь сырой набор интернет-данных. Интересное (и даже эксклюзивное) дополнение от авторов к основной статье. Кстати, в этом году работа успела съездить на NeurIPS 2025.

Эволюция Florence: от генеративных моделей к MLLM

В этом посте Егор Шестопалов сравнил сразу две статьи о семействе моделей Florence. И пусть по прошествии времени можно сказать, что идея использовать в качестве энкодера в VLM Florence-2 не прижилась, зато разбор получился полезным и собрал свою порцию просмотров.

Главные инсайты CV Week из первых рук

Карточки, на которых инженеры из Яндекса рассказывают самое интересное об онлайн-интенсиве по компьютерному зрению, организованном вместе со Школой анализа данных. Рекомендуем полистать, если хотите вспомнить, как это было. А для ностальгии на максималках можно заглянуть ещё и на этот лендинг.

FoundationStereo: Zero-Shot Stereo Matching

Леонид Штанько разобрал статью NVIDIA о восстановлении глубины по стереопаре — двум изображениям, снятым близко расположенными камерами. Камеры смотрят в одном направлении, поэтому каждая 3D-точка оказывается примерно на одной строке в обоих кадрах, но в разных местах. Это упрощает поиск соответствий между пикселями и позволяет восстановить глубину сцены. Ключевые идеи работы вы найдёте в нашем посте.

Improving the Diffusability of Autoencoders

Завершаем подборку разбором от Сергея Кастрюлина на тему diffusability латентного пространства. Авторы статьи выясняют, насколько легко диффузионной модели учиться на латентах автоэнкодера. Проблема локальная, но зато в статье есть понятная идея и измеримый эффект. Если ещё не читали, приглашаем ознакомиться.

Надеемся, что наступающий год принесёт индустрии, научному сообществу и нам с вами ещё больше вдохновляющих работ на тему компьютерного зрения. А мы будем и дальше держать вас в курсе самого полезного и интересного!

CV Time
1 869 просмотров · 31 реакций Открыть в Telegram · Открыть пост на сайте
Современные нейросетевые модели для глобального прогноза погоды

Недавно вышла модель WeatherNext-2 от Google, и мы решили рассказать не только о ней, но и в целом о задаче и моделях глобального прогноза погоды.

Глобальный прогноз погоды — это задача прогноза эволюции всей земной атмосферы на несколько дней вперёд. Классический подход — численный прогноз погоды (NWP), в котором численно решается система связанных дифференциальных уравнений гидродинамики. Такие расчёты выполняются на суперкомпьютерах более часа, поэтому прогноз на ближайшие часы нельзя получить мгновенно.

Из-за хаотичной природы атмосферных процессов применяется ансамблирование: прогноз запускают с немного различающихся начальных условий, получая десятки возможных сценариев. Ансамблевый прогноз — наиболее точный, он позволяет оценить вероятности событий.

К 2025 году сформировались базовые требования к DL-моделям глобального прогноза:

— пространственное разрешение не грубее 0,25°по широтам и долготам (~28×28 км);
— соответствие спектров (проверка физичности);
— наличие осадков и желательно метрик, отличных от MAE/RMSE;
— поддержка ансамблей.

Ключевым фактором развития DL-подходов стало усвоение данных. Современные техники ассимиляции позволили пересобрать архив наблюдений с 1940 года, получив ERA5 — самый полный и согласованный датасет состояния атмосферы на сетке 0,25°. Доступность большого числа качественных данных — благодатная почва для DL-подхода. Стандартный вход DL-моделей — около 72 карт (приземные переменные, переменные по уровням давления и статические поля).

Обзор основных моделей

За последние годы появились DL-модели глобального прогноза: Pangu Weather, GraphCast, Aurora, GenCast. Все они используют ERA5 и авторегрессионно транслируют состояние атмосферы в будущее.

Pangu Weather показала, что «картиночная» модель может воспроизводить крупномасштабную динамику, но ансамбли через шум в начальных условиях оказались некачественными.

GraphCast использует графовую архитектуру на икосаэдрической сетке и задаёт планку качества для детерминистских моделей. GenCast расширил этот подход, применив диффузию для получения ансамблей, что позволило уменьшить «мыло» и лучше моделировать экстремумы, но ценой более медленного инференса.

При этом выяснилось, что стандартных метрик (LW-RMSE и ACC) недостаточно: многие модели не проходят проверку на физичность по спектрам. Несоответствие спектров означает, что модель не улавливает вариации энергии на мелких масштабах, и неэффективно использует высокое разрешение.

WeatherNext-2

WeatherNext-2 — третья итерация модели Google. Это вероятностная модель, которая напрямую оптимизируется по CRPS и строит ансамбли без диффузии.

Ключевая идея — декомпозиция неопределённости:

— эпистемическая неопределённость моделируется deep-ансамблем (четыре модели с разными сидами);

— алеаторическая неопределённость моделируется через функциональные возмущения: для каждого члена ансамбля и шага сэмплируется один глобальный 32-мерный шумовой вектор, который через conditional layer norm подаётся во все слои модели.

Архитектура сохраняет подход GraphCast: переход grid→mesh, граф-трансформер на mesh и обратное отображение. Глобальный низкоразмерный шум, применяемый ко всем слоям и пространственным точкам, задаёт согласованную пространственную вариативность.

Модель работает с шагом шесть часов и делает полный 15-дневный прогноз ансамбля менее чем за минуту на одном TPU, что значительно быстрее GenCast. По метрикам CRPS и RMSE среднего ансамбля WeatherNext-2 превосходит GenCast и приближается к численным ансамблям. Про осадки в статье сообщается скупо, спектры лучше, чем у GenCast, но хуже, чем у FourCastNetV3.

В целом WeatherNext-2 показывает, что можно получить быстрый ансамбль без диффузии и существенно улучшить качество по сравнению с предыдущими нейромоделями.

При этом ключевые вопросы о соответствии спектров и корректной работе с осадками остаются.

Разбор подготовил Павел Анисимов
CV Time
3 965 просмотров · 23 реакций Открыть в Telegram · Открыть пост на сайте
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

Сегодня разбираем статью от NVIDIA, в которой высокая скорость достигается в первую очередь за счёт генерации изображений в малое число шагов с приемлемым качеством. Прошлые версии SANA быстро генерировали благодаря VAE с большим downsampling-фактором, а в SANA Sprint добились ещё большего ускорения с помощью дистилляции по шагам.

Основа работы — идея continuous-time consistency моделей, о которой ещё осенью прошлого года говорил Yang Song. По сути, она описывает движение от шума к сигналу через временную производную, превращая дискретный диффузионный процесс в непрерывный поток динамики.

Сontinuous-time consistency позволяет достигать качественных генераций в малое число шагов, но есть и нюанс. Модель должна быть обучена со специальной TrigFlow-параметризацией, а имеющиеся диффузионные модели обычно используют стандартную flow-matching-постановку. Поэтому следующая задача — правильно «перевести» предобученную модель в нужное представление.

SANA-Sprint решает это с помощью серии преобразований:
— переноса временной шкалы в тригонометрические координаты (cos / sin),
— масштабирования латентов, чтобы шум совпадал по дисперсии с данными,
— трансформации выходной head-функции, чтобы предсказания соответствовали формуле consistency-динамики.

Но перенести диффузионку в новую параметризацию — это только половина дела. Вторая часть — заставить всё это стабильно учиться. И вот здесь начинаются инженерные приключения. Стабильность «улетает в космос» из-за того, что временной эмбеддинг использует слишком большой масштаб шума — из-за этого производные становятся огромными. Лечится это просто: нужно изменить масштаб частот эмбеддинга и немного дообучить модель, буквально несколько тысяч итераций.

Вторая проблема — большие нормы градиентов в механизме внимания. Решение довольно стандартное: добавить RMSNorm на Q/K (QK-Normalization) в self- и cross-attention, после чего обучение стабилизируется.

Теперь самое главное — скорость. В разрешении 1024×1024 SANA-Sprint выдаёт картинку за ~0,1–0,18 секунды при одношаговой генерации. Из них на сам трансформер уходит ≈0,03 секунды, остальное — VAE-декодер, который становится основным бутылочным горлышком. По времени работы диффузионной модели SANA-Sprint быстрее FLUX-schnell примерно в 65 раз, а по end-to-end-задержке — примерно в 10 раз. То есть «быстро» тут — не просто эпитет.

Итоговое качество вполне пристойное: на 1–4 шагах она даёт FID и GenEval на уровне или лучше, чем у других быстрых моделей. Например, не уступает FLUX-schnell по метрикам (7,59 против 7,94 по FID и 0,74 против 0,71 по GenEval), будучи заметно быстрее.

Разбор подготовил Денис Кузнеделев
CV Time
2 219 просмотров · 21 реакций Открыть в Telegram · Открыть пост на сайте
Байки из склепа прода Alice AI VLM

Сегодня делимся двумя скримерами историями из первых рук о том, с какими сложностями столкнулись разработчики новой Алисы AI в продакшне.

Популярный сценарий использования нейросети — когда пользователь отправляет в чат картинку и просит помочь с тем, что на ней изображено. За этот навык отвечают Alice AI VLM и команда компьютерного зрения Яндекса, которая её развивает. Слово руководителю подгруппы распознавания текста в VLM Антону Клочкову @blog_toxa.

Проблема первая: пережатие картинок

Те, кто имел дело с сервисами, где есть работа с картинками, не дадут соврать: найти баланс между качеством и скоростью загрузки изображений — сложная задача. Иногда баланс перевешивает в одну из сторон, и в нашем случае была проблема качества.

Как-то во время тестирования Алисы AI прилетает баг-репорт: фотография из учебника и комментарий: «Формулы выписываются неверно!» (см. картинку 1).

Проверяем в тестинге — есть ошибка. Прогоняем офлайн через модель — ошибки нет. Странно? Очень!

Оказалось, что в продакшене сильно пережимаются изображения (см картинку 2). Из-за этого путаются мелкие обозначения, вроде знаков неравенства, и иногда теряется весь смысл. Фикс был простой: мы ослабили правила на пережатие картинок.

Проблема вторая: парсинг LaTeX

Наши первые шаги к тому, чтобы сделать Алису AI действительно умной, проходили в Поиске по картинкам — там уже была готовая инфраструктура, а в чате ещё требовалась донастройка.

Однажды пришла пора тестировать решение в сервисе. И в целом, всё было хорошо, кроме одной детали. Оказалось, что на разных поверхностях (в нашем случае — Поиска и Алисы AI) по-разному работают правила парсинга LaTeX-вставок в Markdown. Например, в Поиске по картинкам формулы отображались одним образом (см. картинку 3), а в Алиса AI — другим (см. картинку 4). И это было не единственное различие в парсинге.

Решили мы это в одних случаях дообучением VLM на форматы, в других — правками во фронтенде.


Алиса AI — это не только Alice AI VLM, о которой мы пишем в этом посте, но и Alice AI LLM, Alice AI LLM Search, Alice AI ART, а ещё много крутых инженерных решений. Если хотите больше технических деталей, советуем почитать свежий техрепорт. А ознакомиться с главными фичами можно на лендинге.

CV Time
4 177 просмотров · 37 реакций Открыть в Telegram · Открыть пост на сайте
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning and Efficiency

Авторы опенсорс-семейства InternVL постоянно выпускают всё новые и новые улучшения своих мультимодальных моделей, которые опережают SoTA-результаты в первую очередь по бенчмаркам. Сегодня разберём статью о свежей версии InternVL3.5.

В основе улучшений — три основных нововведения.

Cascade Reinforcement Learning

Раньше модели InternVL использовали MPO в качестве offline RL. В новой версии 3.5 авторы добавили ещё и online RL: принято считать, что на LLM/VLM он гораздо лучше, чем offline. Но offline RL значительно легче по вычислениям (в основном из-за того, что во время обучения не нужно генерировать ответы на инструкции).

Авторы показали, что offline RL не так уж сильно отстаёт от online RL, но при этом обучается в 20 раз быстрее. А лучшее качество модели достигается при совместном каскадном обучении: результаты лучше, чем у online RL, даже на двух эпохах. Так offline RL превратился в warmup для online RL.

В качестве online RL используется GSPO — модификация GRPO, которая решает проблему нестабильности обучения и «коллапса модели», особенно при тренировке Mixture-of-Experts-моделей. GRPO работает на уровне отдельных токенов, создавая шумные градиенты, а GSPO применяет оптимизацию на уровне всей последовательности целиком, что важно для длинных цепочек рассуждений.

Visual Resolution Router (ViR)

Основная цель этого нововведения — снизить вычислительную нагрузку на модель во время инференса. Этого удалось добиться за счёт уменьшения количества визуальных токенов в представлении каждого кропа картинки. Сколько токенов нужно выделить на кроп, решает роутер. Среднее количество визуальных токенов, поступающих в LLM, при таком подходе сокращается на 50%.

Стандартный процесс кодирования картинки выглядит так:

— изображение делится на кропы,
— каждый патч преобразуется в 1024 токена для ViT,
— после обработки ViT количество токенов уменьшается адаптером до 256 и передаются в LLM.

Роутер может направить токены в более агрессивный адаптер и сжать до 64 токенов. Обучение происходит в два этапа. На первом этапе модель тренируется решать задачу с меньшим количеством токенов за счёт минимизации KL-дивергенции между распределениями выходных данных изначального сжатия и более агрессивного сжатия.

Цель второго этапа — научить сам роутер ViR принимать правильные решения о степени сжатия для каждого кропа. ViR обучается как стандартный бинарный классификатор, где label кропа определяется по значению loss из первого этапа.

Итог — flash-модель практически без потери качества с ускорением до 4 раз (точная цифра зависит от разрешения картинки и размера модели).

DvD (Decoupled Vision-Language Deployment)

В этой системе модель для обработки изображений (ViT) и языковая модель (LLM) разворачиваются на отдельных серверах или GPU.

Они работают не последовательно (сначала картинка, потом текст), а параллельно. Пока языковая модель генерирует ответ на предыдущий запрос, визуальный энкодер уже обрабатывает следующее изображение. Это даёт ускорение до 2 раз для базовых моделей, а в комбинации с ViR — до 4 раз на высоких разрешениях.

По словам авторов, новая InternVL3.5 рассуждает на +16,0% эффективнее и в 4,05 раз быстрее, чем её предшественники.

Разбор подготовил Антон Астахов
CV Time
1 570 просмотров · 28 реакций Открыть в Telegram · Открыть пост на сайте
NeurIPS в Мехико: продолжаем делиться интересным

Червёртый день конференции в Мексике получился насыщенным. Было выступление Ричарда Саттона о его видении SuperIntelligence, две сессии со статьями и две — с постерами.

Самая интересная статья дня, по мнению Владислава Фахретдинова, — Perception Encoder: The best visual embeddings are not at the output of the network от Meta*. Мы уже разбирали работу в канале, а теперь делимся тем, что о ней говорят сами авторы.

Исследователи рассказывают, что поставили перед собой цель создать лучший визуальный энкодер для многих downstream-задач. Для этого двухстадийно обучались контрастив-лоссом на парах «изображение-текст» и потом — на парах «видео–текст», используя свою модель как кадровый энкодер.

Начав с CLIP-бейзлайна, добавили ряд улучшений и сравнили их по качеству и устойчивости. Уже на этом этапе модель достигла SOTA в zero-shot retrieval и классификации; назвали её PE_core.

Затем авторы протестировали модель как энкодер на разных downstream-задачах: детекции, трекинге, предсказании глубин. Увидели, что перфоманс оказался ниже ожидаемого.

В ходе исследования с помощью аттеншен-карт заметили появление глобальных токенов на определённом слое. Чтобы проверить гипотезу, стали брать эмбеддинги не с последнего слоя, а с предыдущих. Построив график качества по слоям для разных downstream-задач и моделей, увидели, что качество растёт к эмбеддингам средних слоёв, а к последним слоям — резко падает.

Для решения этой проблемы использовали два метода после обучения:

1. Чтобы сохранить глобальную информацию, провели файнтьюн на 41-м слое (который показывает близкие к лучшим значениям по всем задачам) с минимизацией косинусного расстояния между ним и последним слоем.

2. Чтобы сохранить локальную информацию, добавили файнтьюн на MSE попарного косинусного расстояния между эмбеддингами последнего слоя (H×W×1024 -> HW×HW) и попарного косинусного расстояния между логитами SAM для 1024 точек из равномерной сетки исходного изображения.

Эту модель авторы назвали PE_spatial и показали, что она достигает SOTA по многим downstream-задачам. Хотя вышедший позже DinoV3 достиг более высоких результатов, подход остаётся интересным.


#YaNeurIPS25

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
1 365 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
NeurIPS в Мехико: туториал о геопространственных foundation-моделях

В третий день конференции прошло большое количество туториалов. Один из них — Geospatial Foundation Models: Overview, Application and Benchmarking — посетил Владислав Фахретдинов из команды восприятия робота доставки. Делимся его заметками!

Выступали докладчики из бразильского подразделения IBM Research. Начали с рассказа о задаче remote sensing — дистанционного зондирования по спутниковым данным. Основное отличие от классических задач компьютерного зрения в том, что кроме RGB-сигналов необходимо использовать и другие спектральные каналы, у каждого из которых есть своё физическое назначение.

На основе этих данных можно решать множество задач, таких как сегментация земного покрова, пожарных шрамов и наводнений, предсказание глубины для водного покрова и процента покрытия деревьями.

Затем был базовый экскурс в развитие компьютерного зрения: от свёрточных моделей и трансформеров до автоэнкодеров, а после — рассказ о foundation-моделях в этой сфере.

Докладчики представили множество работ, в которых главный архитектурный вопрос состоит в том, как правильно объединять данные из разных каналов (модальностей). Отчасти это связано с тем, что нельзя просто склеить все каналы из-за отличий в разрешении, поэтому используются разные подходы:

— отдельные энкодер и декодер для каждой модальности, но общий аттеншн;
— динамический подбор размеров патчей для каждой модальности на основе длины волны и общий энкодер;
— либо разные энкодеры, но совместный семплинг патчей со всех модальностей на этапе претрейна.

После этого исследователи рассказали о своём фреймворке для обучения геопространственных моделей TerraTorch. На практике — собрали ноутбук с обучением двум разным задачам: land segmentation и burn scars.

Также авторы представили свой новый бенчмарк GeoBenchV2, который сгруппировали из 19 существующих датасетов. Взяли множество популярных в CV моделей для сравнения и дофайнтюнили их на разные задачи только на основе RGB.

В итоге оказалось, что общие модели, такие как DinoV3, дают гораздо лучшие предсказания на основе RGB-изображений, но на задачах с мультиспектральными данными более маленькие, но узкоспециализированные модели всё ещё побеждают.


#YaNeurIPS25

CV Time
1 303 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
NeurIPS 2025 в Мехико идёт полным ходом

Конференция продолжается, а наш коллега Владислав Фахретдинов делится заметками о воркшопе второго дня — 7th International Workshop on Large Scale Holistic Video Understanding: Toward Video Foundation Models.

Было немного спикеров, но почти каждый привёз по две-три статьи или исследования, поэтому день получился насыщенным. Основной мотив воркшопа — большинство моделей для работы с видео недостаточно хорошо ориентируются «во времени». Участники разбирались, что с этим можно сделать.

Первым выступил профессор университета Амстердама. Он заметил, что многие VideoLLM не справляются даже с простым синтетическим бенчмарком: какой из двух объектов в видео появляется раньше. Это показывает, что мы до конца не понимаем, как правильно оценивать такие способности модели.

Затем последовал рассказ о работе Bench of Time с более подробными исследованиями — оказалось, что большинство примеров в популярном бенчмарке (MVBench) решается либо знанием всего об одном кадре, либо вообще исключительно по тексту. Чтобы исправить эту ситуацию, авторы сделали свой бенчмарк TVBench. В нём все вопросы были сформулированы так, что без понимания объектов и процессов в кадре нельзя дать правильный ответ.

Сравнение моделей на новом бенчмарке показало, что большинство языковых, картиночных и даже видеомоделей выдают результаты немногим лучше случайного предсказания. При этом все же нашлись несколько моделей, которые были достаточно хороши на обоих бенчмарках, например Gemini-1.5.

Следом было выступление о генерации 3D-представления из изображения. По сути, это продолжение работы DUSt3R, в которой научились по любым входным изображениям без параметров камер и поз делать матчинг и генерировать плотное облако точек 3D-представления сцены.

Авторы сделали уточнение, что матчинг изображений по случайному видео с движением — вычислительно сложная задача. Поэтому они собрали датасет 360-1M, где происходит движение и вращение вокруг оси, из-за чего матчить изображения стало гораздо проще. На основе своего датасета они обучили генеративную модель ODIN, которая по изображению и смещению позиции камеры генерирует новое изображение. Подробностей было мало, никаких сравнений с DUSt3R или NeRF не показали, но зато рассказали, что модель хорошо обобщается вне домена — например, на картины.

Самый интересный доклад за день — о том, что визуальные модели знают о нашем мире. Авторы выделили и проверили три свойства: базовое представление о физическом устройстве мира, визуальное предсказание, а также обобщение — понимание аналогий.

Для первого свойства взяли часовые видео с прогулками по городам и с помощью сервиса визуальной локализации, а также небольшого объёма человеческой проверки, разметили эти видео. В частности, для каждого видео сгенерировали маршрут на карте.

Далее видео нарезали и собрали бенчмарк, в котором модели задавали вопросы по содержанию ролика, например: о евклидовом расстоянии от начальной до конечной точки на полученном маршруте; направлении; зацикленность маршрута; выборе правильного трека на карте среди нескольких вариантов (с текстом на карте и без текста); распознавании окружающей архитектуры. По всем этим вопросам модели уступают человеку — за исключением проверки на зацикленность маршрута.

Авторы также показали, что на самом деле модели не понимали, был цикл в маршруте или нет. Вместо этого они просто смотрели на разметку на карте и сопоставляли её с текстовыми названиями улиц, которые видны в видео.

Напоследок был доклад из трёх частей, из которых я бы выделил как самую интересную — SSL-обучение мультимодальной модели видео+аудио CAV-MAE Sync. Из того, что мне кажется важным: авторы совместно используют аудио- и видеопатчи и добавляют регистровый токен, чтобы переносить накопленную информацию в следующие слои. Больше всего мне понравилось, что новая модель позволяет локализовать на видео источники звука.


#YaNeurIPS25

CV Time
1 179 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
DeepSeek-OCR: Contexts Optical Compression [2/2]

В первой части разбора мы рассказали об особенностях архитектуры DeepSeek-OCR и ключевых задачах, которые решали авторы. А теперь посмотрим на нюансы обучения и на озвученные результаты.

Обучение модели

Процесс упрощён и включает только две стадии: тренировку энкодера и обучение модели целиком.

Важный момент: во время тренировки энкодера DeepEncoder учится работать и в режиме native-resolution, и в режиме tile-based-resolution. То есть модель видит как большие картинки, так и маленькие в разных представлениях.

Энкодер тренируется на парах картинок и текстовых описаний по схеме, описанной в статье Vary: к нему приделывается маленький текстовый декодер, и они вместе обучаются авторегрессионно.

Второй этап с обучением всей VLM повторяет обычный претрейн/SFT во множестве других VLM.

Результаты

Авторы представляют небольшую мультиязычную модель, которая может обрабатывать изображения в разном размере и даже в разных режимах динамического разрешения (tile-based, native-resolution).

Замеры точности распознавания в зависимости от размера изображения (и числа токенов) на OCR-бенчмарке Fox показывают, что для надёжного чтения текста можно использовать примерно в 10 раз меньше картиночных токенов, чем необходимо текстовых токенов для представления текста на изображении. При уменьшении этого соотношения качество чтения быстро падает.

DeepSeek-OCR показывает отличное качество на OmniDocBench, опережая в зависимости от разрешения не только сильные опенсорсные бэйзлайны, вроде Qwen-2.5VL, но и Gemini2.5-Pro. При этом скорость обработки на GPU сопоставима с пайплайновыми OCR-пакетами, такими как Miner, обрабатывая около двух изображений в секунду на А100.

В заключение можно заметить, что хотя результаты вышли довольно впечатляющими, в работе использованы только бенчмарки с фокусом на PDF-подобных картинках, а другие, более разнообразные OCR-бенчи для VLM (OCRBench_v2, CC-OCR), не замеряны. Также в статье нет аблейтов влияния на результаты ни выбранной архитектуры, ни этапов обучения, поэтому авторы сами называют свои результаты proof-of-concept.

Разбор подготовил Борис Зимка
CV Time
2 568 просмотров · 18 реакций Открыть в Telegram · Открыть пост на сайте
DeepSeek-OCR: Contexts Optical Compression [1/2]

Сегодня начинаем разбирать недавнюю статью DeepSeek-OCR. Авторы работы сфокусировались на двух аспектах:

1. обучении эффективной VLM-модели, заточенной именно под OCR-задачи;
2. изучении влияния размера входного изображения на качество работы VLM (и компрессии визуальной информации в целом).

Сначала небольшое интро по каждому из этих аспектов.

OCR-специфичные VLM-модели

Задачи, связанные с чтением текста, встречаются довольно часто и у простых пользователей, и в бизнес-процессах компаний. Такие задачи не требуют знания фактов, агентности, рассуждений, и тратить много GPU на них жалко. За последний год вышло несколько статей по OCR-специализированным легковесным VLM (GOT, Dolphin, UMiner, dots.ocr).

Динамическое разрешение в VLM

Первые VLM, вроде LLaVA, использовали статический размер изображения: любая картинка для обработки ресайзилась к фиксированному квадрату, прогонялась через энкодер (например CLIP), готовя картиночные токены на вход LLM. Так как изображение на входе может быть и пиксельной строкой текста 128 х 16, и большим фото со смартфона 1500 х 4500 пикселей — статический размер работает не оптимально. Сегодня для VLM есть два основных способа сделать разрешение динамическим:

1. Tile-based-resolution (Intern-VL2) — изображение разрезается на квадраты, например 512х512 пикселей, и каждое прогоняется через картиночный энкодер. Все выходные токены (чем больше размер — тем больше тайлов и токенов) подаются на вход LLM.

2. Native-resolution (Qwen-VL2) — картиночный энкодер обучается принимать на вход изображение любого размера, используя подходящие для этого позицинные эмбеддинги типа RoPE.

Модель и данные

DeepSeek-OCR архитектурно повторяет стандартную для VLM схему: картиночный энкодер, присоединенный к предобученной LLM (в этом случае DeepSeek-3B).

Однако вместо стандартного CLIP/SigLIP в качестве энкодера используется пайплайн из SegmentAnything (SAM-ViT-Det), свёрточного адаптера и CLIP (CLIP-ViT), который в статье называют DeepEncoder. Авторы хотели, чтоб энкодер был эффективным и быстрым, и чтобы в уже обученном энкодере можно было легко «на лету» менять количество картиночных токенов.

SAM-ViT-Det может принимать на вход изображение любого размера; токенизированные патчи обрабатываются независимо друг от друга благодаря window attention — поэтому количество вычислений уменьшается. Затем адаптер снижает количество токенов в 16 раз, а после глобальный аттеншн в CLIP-ViT агрегирует их вместе.

Для обучении используется типичная смесь пар (картинка-описание) и только текстовых данных с упором на OCR: печатный текст, графики и таблицы, формулы. В отличие от других OCR-специализированных VLM (обычно обучаемых только на английском и китайском), датасеты содержат более 100 языков.

Во второй части подробнее разберём, как обучали DeepSeek-OCR и к каким результатам пришли авторы.

Разбор подготовил Борис Зимка
CV Time
1 706 просмотров · 30 реакций Открыть в Telegram · Открыть пост на сайте
X-Fusion: Introducing New Modality to Frozen Large Language Models

Сейчас индустрия унифицирует подходы к обработке различных видов данных. Существенную часть задач компьютерного зрения решают VLM: генерируют текст на основе изображений и запросов, которые получают на вход. Следующий шаг — наделить модели возможностью генерировать изображения.

Изображения, в отличие от текстов, недискретные, поэтому для них лучше применять вариации диффузионных лоссов, а не next-token prediction. Сегодня рассмотрим статью, где предлагается объединить в одной системе два лосса.

Суперверхнеуровневая схема нового фреймворка X-Fusion — на иллюстрации к посту. Авторы предлагают использовать две одинаковых предобученных LLM: первую заморозить, чтобы она стабильно хорошо справлялась с текстовыми задачами. А её копию — назвать визуальной башней и дообучить для работы с изображениями.

Если нужно обработать изображение, то закодируем его VAE от SD-1,5 и подадим на вход визуальной башне. Таким образом, генерация текста происходит через предсказание следующего токена. А для создания изображений выберем токены, расшумим их диффузией и декодируем VAE.

Авторы сравнили четыре базовые архитектуры:
— Единообразно обрабатывать текстовые и картиночные входы одним трансформером.
— Дублировать каждый слой LLM-gated-слоем. Обучать только визуальные слои, результаты складывать, а визуальный выход домножать на обучаемый скаляр.
— Схема с двойной проекцией: копировать и добучать QKV-матрицы и MLP для визуальной модальности.
— Финальный вариант: две башни, одна из которых применяется для текстовой модальности, а вторая — для визуальной. А потом либо использовать (в целях экономии вычислений) выходы из соответствующих башен, либо суммировать их с некоторыми весами.

X-Fusion обучали на синтетике: caption сгенерировали InternVL-2.0 26B. А для text-to-image взяли свой inhouse-датасет. Хотя по словам авторов, подход с двумя башнями превосходит другие базовые решения в задачах создания изображений, в обратную сторону это не работает: задача генерации текста не помогает получать хорошие caption для изображений. Авторы также изучают, стоит ли зашумлять входные латенты для задач распознавания изображений. Их вывод — нет, это приводит к деградации качества.

Разбор подготовил Сергей Овчаренко
CV Time
1 858 просмотров · 20 реакций Открыть в Telegram · Открыть пост на сайте
ERNIE 4.5 Technical Report [2/2]

Продолжаем разбирать технический репорт от Baidu. В работе фактически выделены два независимых пайплайна алаймента: LLM и VLM. После посттрейна в мультимодальном семействе модели получаются гибридными: они работают и в режиме с ризонингом, и без него. При этом авторы не объясняют, как эти два направления соотносятся между собой и как VLM-компонента влияет на метрики LLM (и наоборот).

LLM-линия: SFT и RL с множеством ревордов

На этапе SFT всё довольно просто — собрали и сбалансировали нужные срезы под задачи. Дальше идёт многостадийный RL с разными сигналами. Есть rule-based-реворды для ризонинг-задач, есть «верифицируемые» — когда можно проверить ответ прямо в среде, например, запустить код. Также используется LLM-as-a-judge, где отдельная модель оценивает ответы, и стандартный Bradley-Terry-реворд, в котором на вход подаётся ещё и ground truth, что не очень типично для таких моделей.

Вместо классического GRPO в работе используют UPO (Unified Preference Optimization) — смесь онлайн-RL и офлайн-обучения на парах (DPO-подобный лосс). Мотивация — не переобучаться на потенциально шумных сигналах reward-моделей и держать устойчивый сигнал на аккуратно подобранных офлайн-парах. Инструкции отбирают так, чтобы дисперсия ревордов по ним была высокой — это даёт полезный сигнал в RL.

VLM-линия: три SFT-этапа и свой RL

В сложных мультимодальных задачах часто «провисает» не сам ризонинг, а перцепция: модель плохо считывает сложные структуры и объекты на картинке. Проблема — дефицит плотных, подробных пар «картинка-кэпшен». Синтетика тут помогает ограниченно. Поэтому авторы делают детальные кэпшены на реальных картинках в срезе STEM так, чтобы текст-only-модель могла отвечать на вопрос по исходной картинке, имея только кэпшен. Если это работает для множества моделей — кэпшен считается годным и идёт в обучение.

SFT включает три шага:

1. Text-only Reasoning Cold Start. Сначала учат чисто текстовый ризонинг (визуальные эксперты и энкодер тут не участвуют). Интересно, что VLM-способности при этом не разрушаются и даже появляется генерализация reasoning-паттернов на мультимодальные задачи в срезе STEM.

2. Reject Sampling for Multimodal Enhancement. Берут мультимодальные сэмплы, генерят много гипотез, ранжируют мультимодальными reward-моделями, отбирают лучшие — получается датасет для мультимодального reasoning-SFT.

3. Thinking / Non-Thinking Fusion. Обучение на смеси thinking- и non-thinking-данных; дополнительно описывают идею мёрджа экспертов между ризонинг- и неризонинг-моделью, чтобы перенести полезных мультимодальных экспертов.

RL для VLM
Авторы используют как model-based-сигналы вознаграждения, так и верифицируемые задачи, где можно проверить правильность ответа. К таким задачам относятся STEM-примеры (переписывание коротких тестовых вопросов в развёрнутые ответы), визуальные пазлы и генерация HTML по скриншоту интерфейса с автоматической проверкой через сравнение изображений (рендер против эталона).

Результаты

Текстовые модели ERNIE 4.5 чаще выигрывают у DeepSeek V3 на основных бенчмарках. После пост-трейна они держатся на уровне проприетарных моделей, вроде GPT-4, особенно хорошо справляясь с instruction-following и длинным контекстом.

В мультимодальных задачах ERNIE 4.5 показывает результаты примерно на уровне Qwen 2.5-VL — где-то чуть выше, где-то сопоставимо, особенно в reasoning-режиме.

Разбор подготовил Алексей Григорьев
CV Time
1 797 просмотров · 23 реакций Открыть в Telegram · Открыть пост на сайте
ERNIE 4.5 Technical Report [1/2]

Сегодня начинаем разбирать большой технический репорт (около 40 страниц без аппендикса) от Baidu о том, как они обучали мультимодальные Mixture-of-Experts (MoE)-модели. Авторы предлагают целую линейку моделей: MoE- и dense-версии, с ризонингом и без, варианты под LLM- и VLM-задачи.

В этой части разбираем интересные решения в архитектуре и претрейне.

Архитектура

Авторы предлагают мультимодальную гетерогенную MoE-архитектуру. Поддерживаются текст, изображения и видео, на выходе — текст. Внутри блока трансформера два роутера: один маршрутизирует текстовые токены, второй — визуальные.

Кроме специализированных экспертов, есть shared-эксперты, которые всегда активны для обеих модальностей. Это нужно, чтобы не было сдвигов при совместном обучении и модальности не разбегались в эмбеддинговом пространстве (авторы ссылаются на работу Mixture-of-Transformers). Для роутинга используется привычный top-k-подход, знакомый нам по DeepSeek.

Визуальный энкодер реализован аналогично Qwen. С помощью адаптивного 2D RoPE картинку приводят к подходящему разрешению по соотношению сторон, разбивают на патчи и кодируют. Для видео применяют тот же принцип, только с 3D RoPE и таймстемпами.

Если ролик не влезает в контекст, выбираются кадры с нужным шагом (adaptive frame-resolution sampling strategy) и при необходимости уменьшают разрешение. Потом идёт pixel shuffle и темпоральная компрессия — пространственные размеры урезаются, а временная часть остаётся.
В итоге визуальные токены из картинок и видео отправляются в мультимодальный self-attention.

Претрейн

В работе описан стандартный пайплайн с дедупликацией, удалением мусора и quality-фильтрами. Но есть и особенности:

Data Map: с её помощью данные организуют по языку, домену знаний, сценарию, качеству.
Human-Model-in-the-Loop Data Refinement: асессоры помогают улучшать качество и разметку, результаты возвращаются в обучение классификаторов.
Text-only-данные: делятся на пять типов по DIKW-фреймворку; отдельный акцент делается на фактические знания и программирование.
Interleaved-данные (текст + картинка из веба): аккуратная каталогизация источников, аугментации, чистка, генерация и фильтрация кэпшенов, дедупликация по хешам изображений и текстов; категоризация типов картинок (натуральные сцены, таблицы, скриншоты, чаты, документы и др.).
Видео: авторы парсили ролики с богатым контекстом, прогоняли через ASR и использовали транскрипты.
Domain-specific data: здесь используют прогрессивный рефильтринг данных — примерно так же, как это делалось в DeepSeekMath. Собирают пул URL по нужному домену, фильтруют, отправляют на оценку асессором, парсят содержимое, обучают новый классификатор и повторяют цикл.

Интересная находка: авторы собирали сетки из нескольких картинок в один кадр — так модель лучше учится работать с несколькими изображениями сразу и точнее понимает, о каком объекте речь.

Также исследователи пишут о применении REEAO (Record Everything Everywhere All at Once) — способе упаковывать сэмплы так, чтобы максимально заполнять контекст, не теряя остатки, и при этом быть робастными к смене data-parallel-группы.

В следующей части разберём интересное из посттрейна.

Разбор подготовил Данил Кашин
CV Time
1 885 просмотров · 23 реакций Открыть в Telegram · Открыть пост на сайте
Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Сегодня разберём статью о Loong — авторегрессионной модели для генерации видео на основе LLM. Архитектура у неё типичная:

1. Видео токенизируют. В качестве энкодера использует MAGViT2. Это 3D CNN свёрточная модель, которая обрабатывает темпоральную часть кадров видео, токенизированную с помощью Clustering Vector Quantization. Размер токенайзера — 246M параметров.

2. Вектора видео подают на вход LLM. Авторы учат с нуля LLaMa от 700M до 7B параметров: 32 000 токенов для текста, 8 192 — для видео и 10 специальных — скорее всего, для разделителей между кадрами.

3. LLM возвращает другие вектора, на основе которых модель-декодер VQGAN предсказывает изображения — кадры видео.

Лосс в конце длинной последовательности кадров оказывается меньше, так как видеотокены в одном видео похожи между собой, а модели проще предсказывать похожие токены последовательно. Текстовые токены сильно отличаются от видео: для того чтобы качественно генерировать первые кадры, авторы предлагают перевзвешивать их лосс.

Обучение делят на три стадии:

1-я стадия. Модель предсказывает только одно изображение.
2-я стадия. Генерируется 1 секунда видео и 17 фреймов.
3-я стадия. Самое длинное видео — 10 секунд.

Модель обучают на десятисекундных видео. Этого мало, если на выходе должно получиться качественное длинное видео. Чтобы повысить качество генерации, авторы предлагают так называемый реинкодинг. То есть, генерировать первые кадры по исходному промпту пользователя. А потом брать в качестве следующего промпта несколько последних кадров получившегося видео и генерировать новое.

Такой подход замедляет инференс, но снижает требования к обучающему датасету. Loong тренировали на 100M пар «текст + изображение». Для первой стадии использовали датасеты LAION-2B и CC12M. Обучающие видео — 5,5M клипов, отфильтрованных из HDVG.

Пример Loong подтверждает: генерировать качественные длинные видео можно, даже если обучать модель только на коротких примерах.

Посмотреть результаты генераций можно на GitHub.

Разбор подготовил Андрей Чернов
CV Time
1 820 просмотров · 24 реакций Открыть в Telegram · Открыть пост на сайте
Что читает команда стримингового зрения: подборка актуальных статей

Заглянули к инженерам команды стримингового зрения в Яндексе — узнали, что они читают и обсуждают в последнее время. В сегодняшней подборке: новый мультивидовый датасет для устойчивого отслеживания объектов, трекинг мяча под окклюзией в спортивных видео и рекурсивное рассуждение маленьких нейросетей, которые обгоняют крупные LLM на логических задачах.

MITracker: Multi-View Integration for Visual Object Tracking

Авторы собрали и разметили крупный мультивидовый датасет (260 видео, около 234 тысяч кадров) с калибровкой камер, BEV-аннотациями и девятью атрибутами (occlusion, motion blur, low-res и др.). С одной стороны, этот датасет отличается разнообразием классов, с другой — ограничен только сценами в помещениях, что снижает переносимость в уличные условия.

Как устроен MITracker:

— View-specific feature extraction: для каждой камеры используется отдельный Vision Transformer, который извлекает представления целевого объекта в поточном кадре; объект задаётся эталонным изображением.

— Multi-view integration: 2D-признаки всех ракурсов проецируются и объединяются в 3D-feature volume с использованием BEV-информации; этот объём применяется в spatial-enhanced attention, который корректирует представления и улучшает локализацию и ассоциацию.

TOTNet: Occlusion-Aware Temporal Tracking for Robust Ball Detection in Sports Videos

TOTNet вводит архитектуру для трекинга мяча в спортивных видео, специально сфокусированную на работе в условиях частичной и полной окклюзии. Модель сохраняет временную структуру данных за счёт применения 3D-свёрток. Это позволяет извлекать динамические признаки движения, а не статические из пачки кадров.

Ключевые компоненты TOTNet:

— Occlusion Augmentation: специальная аугментация, которая имитирует скрытие мяча, чтобы модель училась восстанавливать позицию по контексту.

— Visibility-weighted BCE loss: взвешенная функция потерь, которая усиливает вклад случаев с окклюзией при обучении.

— Интеграция оптического потока (RAFT): используется для более точного захвата движения мяча в быстрых сценах.

В результате модель устойчиво отслеживает мяч, даже когда он временно исчезает из кадра, и превосходит предыдущие методы на всех спортивных датасетах, включая новый датасет TTA (Table Tennis under Occlusion).

Less is More: Recursive Reasoning with Tiny Networks

В статье авторыпредставляют Tiny Recursive Model (TRM) — простой и эффективный подход к решению сложных логических задач. Суть метода в использовании маленькой нейросети (всего 7 млн параметров), которая рекурсивно, шаг за шагом «размышляет» над решением и улучшает свои ответы с помощью механизма deep supervision.

По результатам экспериментов TRM превосходит современные LLM на бенчмарках Sudoku и ARC-AGI, используя при этом в тысячи раз меньше вычислительных ресурсов. Авторы отмечают, что для некоторых типов задач, особенно при ограниченном количестве обучающих данных, глубокая рекурсия компактной сети помогает избежать переобучения и оказывается намного эффективнее простого увеличения размера модели.

CV Time
2 183 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте