CV Time — пост #227

🎉

Итоги года в CV Time: посты, которые читали чаще всего

Пока все постепенно уходят в мандариново-выходной режим, мы решили подвести итоги года, собрав самые популярные публикации в канале за 2025-й. Это уже стало праздничной традицией, которую мы рады разделить с вами, дорогие читатели, и заодно — поздравить вас с наступающим Новым годом! А если считаете, что в топе чего-то не хватает, приходите обсуждать в комментарии.

Yandex Alchemist: открытый датасет для буста text-to-image генерации

Пост, в котором исследователи Yandex Research подробно рассказали, как получить датасет уровня Alchemist, имея лишь сырой набор интернет-данных. Интересное (и даже эксклюзивное) дополнение от авторов к основной статье. Кстати, в этом году работа успела съездить на NeurIPS 2025.

Эволюция Florence: от генеративных моделей к MLLM

В этом посте Егор Шестопалов сравнил сразу две статьи о семействе моделей Florence. И пусть по прошествии времени можно сказать, что идея использовать в качестве энкодера в VLM Florence-2 не прижилась, зато разбор получился полезным и собрал свою порцию просмотров.

Главные инсайты CV Week из первых рук

Карточки, на которых инженеры из Яндекса рассказывают самое интересное об онлайн-интенсиве по компьютерному зрению, организованном вместе со Школой анализа данных. Рекомендуем полистать, если хотите вспомнить, как это было. А для ностальгии на максималках можно заглянуть ещё и на этот лендинг.

FoundationStereo: Zero-Shot Stereo Matching

Леонид Штанько разобрал статью NVIDIA о восстановлении глубины по стереопаре — двум изображениям, снятым близко расположенными камерами. Камеры смотрят в одном направлении, поэтому каждая 3D-точка оказывается примерно на одной строке в обоих кадрах, но в разных местах. Это упрощает поиск соответствий между пикселями и позволяет восстановить глубину сцены. Ключевые идеи работы вы найдёте в нашем посте.

Improving the Diffusability of Autoencoders

Завершаем подборку разбором от Сергея Кастрюлина на тему diffusability латентного пространства. Авторы статьи выясняют, насколько легко диффузионной модели учиться на латентах автоэнкодера. Проблема локальная, но зато в статье есть понятная идея и измеримый эффект. Если ещё не читали, приглашаем ознакомиться.

Надеемся, что наступающий год принесёт индустрии, научному сообществу и нам с вами ещё больше вдохновляющих работ на тему компьютерного зрения. А мы будем и дальше держать вас в курсе самого полезного и интересного!

CV Time