Продолжаем разбирать технический репорт от Baidu. В работе фактически выделены два независимых пайплайна алаймента: LLM и VLM. После посттрейна в мультимодальном семействе модели получаются гибридными: они работают и в режиме с ризонингом, и без него. При этом авторы не объясняют, как эти два направления соотносятся между собой и как VLM-компонента влияет на метрики LLM (и наоборот).
LLM-линия: SFT и RL с множеством ревордов
На этапе SFT всё довольно просто — собрали и сбалансировали нужные срезы под задачи. Дальше идёт многостадийный RL с разными сигналами. Есть rule-based-реворды для ризонинг-задач, есть «верифицируемые» — когда можно проверить ответ прямо в среде, например, запустить код. Также используется LLM-as-a-judge, где отдельная модель оценивает ответы, и стандартный Bradley-Terry-реворд, в котором на вход подаётся ещё и ground truth, что не очень типично для таких моделей.
Вместо классического GRPO в работе используют UPO (Unified Preference Optimization) — смесь онлайн-RL и офлайн-обучения на парах (DPO-подобный лосс). Мотивация — не переобучаться на потенциально шумных сигналах reward-моделей и держать устойчивый сигнал на аккуратно подобранных офлайн-парах. Инструкции отбирают так, чтобы дисперсия ревордов по ним была высокой — это даёт полезный сигнал в RL.
VLM-линия: три SFT-этапа и свой RL
В сложных мультимодальных задачах часто «провисает» не сам ризонинг, а перцепция: модель плохо считывает сложные структуры и объекты на картинке. Проблема — дефицит плотных, подробных пар «картинка-кэпшен». Синтетика тут помогает ограниченно. Поэтому авторы делают детальные кэпшены на реальных картинках в срезе STEM так, чтобы текст-only-модель могла отвечать на вопрос по исходной картинке, имея только кэпшен. Если это работает для множества моделей — кэпшен считается годным и идёт в обучение.
SFT включает три шага:
1. Text-only Reasoning Cold Start. Сначала учат чисто текстовый ризонинг (визуальные эксперты и энкодер тут не участвуют). Интересно, что VLM-способности при этом не разрушаются и даже появляется генерализация reasoning-паттернов на мультимодальные задачи в срезе STEM.
2. Reject Sampling for Multimodal Enhancement. Берут мультимодальные сэмплы, генерят много гипотез, ранжируют мультимодальными reward-моделями, отбирают лучшие — получается датасет для мультимодального reasoning-SFT.
3. Thinking / Non-Thinking Fusion. Обучение на смеси thinking- и non-thinking-данных; дополнительно описывают идею мёрджа экспертов между ризонинг- и неризонинг-моделью, чтобы перенести полезных мультимодальных экспертов.
RL для VLM
Авторы используют как model-based-сигналы вознаграждения, так и верифицируемые задачи, где можно проверить правильность ответа. К таким задачам относятся STEM-примеры (переписывание коротких тестовых вопросов в развёрнутые ответы), визуальные пазлы и генерация HTML по скриншоту интерфейса с автоматической проверкой через сравнение изображений (рендер против эталона).
Результаты
Текстовые модели ERNIE 4.5 чаще выигрывают у DeepSeek V3 на основных бенчмарках. После пост-трейна они держатся на уровне проприетарных моделей, вроде GPT-4, особенно хорошо справляясь с instruction-following и длинным контекстом.
В мультимодальных задачах ERNIE 4.5 показывает результаты примерно на уровне Qwen 2.5-VL — где-то чуть выше, где-то сопоставимо, особенно в reasoning-режиме.
Разбор подготовил
CV Time