CV Time — пост #228

Лучшие статьи 2025 года: выбор авторов СV Time. Часть 1

Прошедший год оказался переломным для AI-рынка: монополия американских моделей пошатнулась, а в фокусе оказались китайские команды. Они выложили в опенсорс большое количество сильных моделей — от ризонинг до мультимодальных. Как заметил один из наших экспертов: «Можно сказать, что весь год был китайским — и есть ощущение, что следующий тоже будет».

AlphaEvolve: A coding agent for scientific and algorithmic discovery

Статья, которая описывает способ решения сложных задач путём применения эволюционного алгоритма поверх LLM с большим контекстом. Эта модель нашла более оптимальное решение для ряда открытых математических задач, в том числе обнаружила алгоритм перемножения комплекснозначных матриц размера 4x4, который требует меньше операций (скалярного) перемножения, чем алгоритм Штрассена 1969 года. Этот результат сильнейшие умы человечества не могли получить в течение 56 лет. Открытие позволяет ускорить огромное количество вычислений в самых разных технических отраслях.

Emerging Properties in Unified Multimodal Pretraining

Работа о первой унифицированной мультимодальной модели Bagel, выложенной в открытый доступ. Модель умеет принимать на вход и выдавать на выходе любые комбинации текста и картинок. Это позволяет в рамках одной VLM делать генерацию и редактирование картинок по тексту — возможности, которые раньше публично почти не были доступны.

Qwen3-VL Technical Report

Результат развития линейки моделей Qwen-VL. На момент публикации представляет собой state-of-the-art опенсорсную VLM на большинстве мультимодальных бенчмарков. В статье авторы систематизируют ключевые принципы построения современных визуально-языковых моделей и подробно разбирают архитектурные новшества. Среди них — усовершенствованный interleaved-MRoPE для корректного позиционного кодирования пространственно-временных данных, а также интеграция многоуровневых визуальных признаков через механизм DeepStack. С этими решениями модель может эффективно работать с длинными контекстами и сложными визуально-текстовыми зависимостями.

Qwen-Image Technical Report

После VLM для распознавания и рассуждений логично посмотреть на вторую половину мультимодальности — генерацию и редактирование контента. Здесь у Qwen вышла отдельная модель: Qwen-Image, построенная на трансформерной архитектуре с 3D RoPE. Модель отличается улучшенной генерацией текста и точностью редактирования изображений. Также в статье описана структура датасета для мультимодального обучения модели.

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

В 2025 году направление визуальных GUI-агентов стало активно развиваться, и линейка UI-TARS демонстрирует одни из лучших результатов в этом классе задач. В статье основной акцент сделан на тщательном подходе к формированию обучающих данных и на деталях онлайн multi-turn reinforcement learning. Авторы подробно описывают асинхронную генерацию траекторий, дизайн reward-системы и использование специализированных доменных моделей для дальнейшего их объединения. Такой подход позволяет агенту эффективно осваивать сложные многошаговые сценарии взаимодействия с интерфейсами.

Emu3.5: Native Multimodal Models are World Learners

В статье реализован унифицированный подход к обучению предсказания картиночных и текстовых токенов. Он позволяет модели лучше улавливать причинно-следственные связи и переносить знания между модальностями, что улучшает результаты в задачах восприятия, рассуждения и генерации.

DINOv3

Статья, в которой описано развитие одного из самых сильных визуальных бэкбонов. Такие модели становятся стандартом визуальных бэкбонов; напрямую влияют на качество VLM, OCR, видео- и downstream-задач; масштабируются лучше многих альтернатив; используются как учителя для дистилляции.

Продолжение следует.

Статьи отобрали ❣ Александр Устюжанин, Данил Кашин и Александр Шишеня
CV Time