Долгое бодрствование агентов — как мы построили платформу Agent Transport System для Алисы AI

Агент «Исследовать», о котором мы писали ранее, должен быть устойчивым к непредвиденным ситуациям. Собственно, исследование — процесс комплексный, требующий проанализировать несколько источников, вызвать разные инструменты и запустить модели. Если где-то что-то упадёт, то всё придется начинать сначала. Чтобы этого не происходило, в Яндексе использовали платформу Agent Transport System (ATS). О ней на Хабре рассказал Алексей Логинов, ведущий разработчик в команде, которая отвечает за инфраструктуру Алисы AI. Кратко выделим главное.

Сперва агентский режим ассистента реализовали на OpenAI Agents SDK. Это работало, но стейты выполнения хранились локально, а при любых сбоях приходилось начинать всё заново. Нужно было найти такое решение, которое позволяло бы продолжать работу именно из состояния до падения. Кроме того, хорошо бы иметь под капотом распределённое выполнение, чтобы агенты и тулы взаимодействовали друг с другом, находясь на разных хостах.

Для построения отказоустойчивых систем хорошо подходит фреймворк Temporal. Он оперирует двумя типами сущностей: workflow (объект с состоянием, который описывает последовательность шагов) и activity (функции, которые вызываются из workflow). Фреймворк фиксирурет решения, принятые workflow, и результаты завершённых activity. В случае падения Temporal восстанавливает выполнение, не вызывая уже сделанные activity.

Однако Temporal не умеет в стриминг, а агенту было бы хорошо выдавать ответы пользователю по мере их получения. К тому же агенты, написанные на Temporal, привязываются к Temporal SDK, что может быть не слишком удобно в случае «переезда» в будущем.

Поэтому Temporal взяли как основу для надёжности, а уже на фреймворке построили центральный сервер платформы — ATS, чьи протоколы и реализуют агенты. ATS также берёт на себя, например, оркестрацию и транспортировку данных и событий между агентами, тулами и моделями на разных хостах. В итоге схема работы выглядит так:

1. Клиент отправляет запрос в ATS.
2. ATS делает запрос в Temporal на запуск workflow. Temporal запускает workflow.
3. Workflow делает запрос в Temporal на запуск activity корневого агента. Temporal запускает activity корневого агента.
4. Activity корневого агента поднимает двунаправленный gRPC-стрим к сервису агента.
5. Если агенту нужно вызвать модель / инструмент / дочернего агента — он просит ATS, ATS сообщает workflow о необходимости запустить activity (signal/update).
6. Workflow запускает соответствующую activity.
7. Activity поднимает двунаправленный gRPC-стрим к сервису.
8. Все activity одного workflow общаются между собой через in-memory-очереди от дочернего activity к родительскому — так чанки данных передаются в реальном времени.
9. Корневой агент пишет свои чанки во внешний стриминговый сервис — пользователь видит ответ по мере выполнения.
10. Завершённые activity возвращают результаты workflow — Temporal сохраняет их.

В случае сбоя ATS начинает взаимодействовать с агентом заново. Когда агент просит вызвать инструмент, модель или дочернего агента, ATS проверяет, есть ли в хранилище какой-то результат работы по этому запросу с прошлого раза. Если да, то агент получает результат и шаг за шагом «перематывается вперёд» до состояния, в котором он был до сбоя, без повторных вызовов тяжёлых LLM и инструментов.

А подробнее о том, как всё устроено, читайте на Хабре.

ML Underhood
1 030 просмотров · 31 реакций Открыть в Telegram · Открыть пост на сайте
На прошлой неделе мы запустили агент «Исследовать» в Алисе AI, а сегодня делимся техническими деталями

Это DeepResearch-агент, который может проанализировать большой объём данных и выдать полноценный разбор темы. За три месяца тестирования «Исследовать» использовали более 280 тысяч раз. Техлид агента Прохор Гладких рассказал о нём подробнее.

А работа началась год назад — в апреле 2025-го. Первая версия представляла собой классический пайплайн: поиск и генерация. Однако запросы в поиск генерировали с помощью тяжёлой модели и сразу несколько, а ответы получали с помощью ризонера. Так в Алисе появился режим «рассуждать + поиск».

Первый прототип непосредственно агента «Исследовать» был аналогом CodeAgent, собранным из smolagents. Такой подход позволил добиться неплохих результатов на SimpleQA и Frames.

Вторая итерация агента уже была полностью реализована на классическом function calling.

DeepResearch — и у нас, и у конкурентов — сильно нагружающий GPU продукт. Здесь очень важна оптимизация потребления ресурсов видеокарт, так как на один запрос пользователя агент делает сотни вызовов моделей. Крайне важно попадать в KV-cache, и чтобы его объёма хватало на все параллельные исследования в поде.

Чтобы этого достичь, мы сделали систему, которая отправляет все запросы в рамках одного исследования на один под, а также провели около 30 экспериментов по подбору параметров LLM-движка. В итоге достигли оптимизации в десятки раз, что позволило раскатить агента на всех пользователей.


Удалось побить метрики CodeAgent и полностью отказаться от написания кода для вызова тулов. Всего в «Исследовать» 13 подагентов и 9 тулов, среди которых, например, CodeSandbox для запуска сгенерированного агентом кода.

Я был сильно удивлён, что агент отлично справляется не только с научными запросами, но и с подбором товаров в маркетплейсах по моим сложным критериям. Особенно порадовало, что он вычитывает отзывы пользователей и анализирует их за меня. Почти все покупки я сейчас делаю с помощью агента «Исследовать» для выбора и агента «Найти дешевле» для поиска лучшего предложения. Это снимает с меня когнитивную нагрузку по выбору бренда, отсмотру отзывов и так далее.


Попробовать агент «Исследовать» можно на сайте alice.yandex.ru, в приложениях Алиса AI, Яндекс с Алисой AI и в Яндекс Браузере.

ML Underhood
1 616 просмотров · 30 реакций Открыть в Telegram · Открыть пост на сайте
Как ML помогает бороться с борщевиком

ML-разработчики Школы анализа данных вместе с экспертами Центра технологий для общества Яндекса и движением «СтопБорщевик» запустили ИИ‑инструмент для борьбы с борщевиком. Подробно о технологии читайте на Хабре, а здесь мы кратко расскажем о главном.

Борщевик Сосновского — растение крайне живучее и плодовитое, способное быстро занимать большие территории. Очаги распространения борщевика фиксируют с воздуха — их хорошо видно во время цветения, — а затем картографируют. Это помогает находить новые области заражения и следить за ликвидацией.

Однако обводить борщевик на снимках вручную — процесс дорогой и долгий. А вот модель справится с этим в 50 раз быстрее.

Для обучения использовали 55 спутниковых снимков, что дало датасет в 10 тысяч изображений. Разметка проходила в два этапа: на первом выделяли по контуру области с борщевиком, а на втором — считали вегетативный индекс и подбирали для него порог: если значение было выше, область закрашивалась, если ниже — нет.

Данных было немного, поэтому вместо тяжёлых сегментационных сетей вроде U-Net использовали табличный ML: извлекли признаки из изображений и обучили градиентный бустинг. В итоге модель решает простую задачу — есть на участке борщевик или нет.

Итоговый подход получает на вход GeoTIFF-файл — растровое изображение с геоданными — и нормализует его, чтобы избавиться от бликов, глубоких теней и артефактов. Потом изображение разбивается на тайлы 256 × 256 пикселей и из каждого тайла извлекаются признаки, по которым модель определяет, есть ли перед ней борщевик. А далее идёт векторизация, итогом которой становится вычисление площади полигона, захваченного растением. Всё это передаётся на вход работы CatBoost-а.

С помощью модели уже удалось выявить очаги заражения площадью 421 гектар в 17 регионах европейской части России. Москву и область проанализировали полностью, а к лету планируют задействовать сервис для мониторинга 100 тысяч квадратных километров в Тверской и Ярославской областях.

Напоминаем, что узнать все тонкости работы технологии вы можете на Хабре. А если тоже хотите работать над подобными полезными проектами, то можно подать заявку в Школу анализа данных Яндекса. Набор на обучение открыт до 3 мая.

ML Underhood
1 796 просмотров · 61 реакций Открыть в Telegram · Открыть пост на сайте
Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence Under Controlled Prompt Structure

Мы уже писали тут и тут о работах Yandex Research, принятых на ICLR 2026. Но это ещё не всё. На воркшоп ICBINB в рамках ICLR 2026 также приняли статью Вилианы Девбуновой, разработчика из службы технологий голосового ввода. Вилиана рассказала, как нашим исследователям удалось поставить под сомнение и критически переосмыслить устоявшееся представление о evaluation awareness в больших языковых моделях.

В некоторых работах, вышедших в последнее время, авторы заявляли о наличии evaluation awareness в LLM — будто бы большие языковые модели понимают, что их оценивают.

Есть момент, что эти выводы в основном строятся на экспериментах с пробниками (linear probes), когда берут внутренние представления модели и учат простой классификатор различать evaluation- и deployment-запросы. И он действительно хорошо справляется. Из этого делают вывод, что внутри модели есть сигнал «меня сейчас тестируют».

Но проблема в том, что сами данные устроены не очень честно. Тестовые запросы почти всегда выглядят одинаково: чёткая структура, multiple-choice, формализованные задачи. А обычные пользовательские запросы, наоборот, пишутся разговорным языком и в свободной форме.

Исходя из этого, мы в своей работе выдвигаем гипотезу, что на самом деле модель не понимает, что её оценивают — она просто узнаёт знакомый шаблон. Чтобы проверить это, мы аккуратно разделяем три вещи:

- контекст (это тест или обычное использование),
- формат (формат бенчмарка или свободный текст),
- стиль или жанр (строгий или разговорный).

Чтобы проверить, на что именно реагирует пробник, мы собрали контролируемые датасеты 2х2 сеткой, в которых формат и контекст варьируются независимо друг от друга. Берём настоящие бенчмарки и обычные пользовательские запросы — это ось контекста. А по оси формата переписываем их: пользовательские запросы оформляем как тест с вариантами ответов, а бенчмарки, наоборот, находим в свободной разговорной форме. Получаются четыре комбинации: бенчмарк в родном формате, бенчмарк в свободной форме, пользовательский запрос в формате теста и пользовательский запрос как есть. Это позволяет понять, что ловит пробник — реальный контекст оценки или просто внешнюю структуру промпта.

Если обучить стандартный «пробник», как было в предыдущих работах, он начинает массово ошибаться. Например, обычные пользовательские запросы, оформленные как тест, почти всегда считаются как evaluation. То есть он реагирует не на смысл, а на форму.

При этом, если поменять только стиль, сделав его более академическим, ничего не меняется. Отсюда напрашивается вывод, что дело именно в жёсткой структуре вроде multiple-choice или полей Question: Answer:.

Мы также обнаружили интересный момент. Если специально обучить пробник на данных, где формат и контекст больше не скоррелированы, он начинает нормально различать именно контекст. Это может значить, что внутри модели действительно есть информация про evaluation и deployment, но стандартные методы не умеют её правильно извлекать и выбирают формат как более простой сигнал.

Итого главный вывод работы в том, что evaluation awareness, может быть в значительной степени просто чувствительностью к формату. При этом мы не опровергаем само существование evaluation awareness, но говорим, что существующие доказательства пока неубедительны.


До ICLR осталось совсем немного времени. Ну а мы, как всегда, будем в по горячим следам рассказывать о самых интересных работах и событиях конференции.

#YaICLR26

ML Underhood
11 101 просмотров · 32 реакций Открыть в Telegram · Открыть пост на сайте
Openpilot 0.11 — первый робо-агент, обученный только на симуляциях

Команда Comma.ai опубликовала интересный пост, где утверждает, что впервые в истории индустрии выпустила на дороги робо-агент, полностью обученный в вымышленной нейросетями симуляции.

Немного контекста: в Comma.ai разрабатывают систему помощи водителю, совместимую со многими моделями автомобилей. Система работает на втором уровне автономности — умный лейн-кипинг в широком спектре сценариев. Эта задача гораздо проще, чем полностью автономное вождение, что позволяет Comma.ai экспериментировать.

В то время как Waymo и британская команда Wayve интегрируют модели мира в свои пайплайны, Comma.ai идёт ещё дальше и отказывается от всего, кроме модели мира. Похожую идею предлагали учёные из Беркли в классической для робототехники статье DayDreamer — интересно, что этот подход удалось адаптировать для автономного вождения.

Вот что предлагают создатели Openpilot 0.11:

Шаг 1. Собрать 40 тысяч часов интересных видео, записанных флотом автономного транспорта и разбить их на сцены по 10 секунд с частотой 5 Гц.

Шаг 2. Обучить на этом датасете двухголовую модель мира:

🔴 первая голова предсказывает по видеоконтексту следующее действие эго-агента,
🔴 вторая — генерирует следующий кадр по видеоконтексту и только что полученному следующему действию.

Потом к контексту добавляется сгенерированный кадр, и процесс повторяется.

Секретный ингредиент — подавать на вход модели не только две секунды истории, но и последнюю секунду в эпизоде. Так ей понадобится предсказывать только промежуточную траекторию — это значительно улучшает сходимость. В итоге получается достаточно реалистичный симулятор вождения, который генерирует следующий кадр по двум секундам видео и действию эго.

Шаг 3. Обучить в полученном симуляторе небольшую модель-водителя, которая должна сходиться в финальное состояние по одному лишь видео, не видя последний кадр. Щедро насыпать шум на всех стадиях для устойчивости.

Openpilot 0.11 обучали on-policy — модель много едет по сгенерированной ей самой траектории, что выгодно отличает подход от обычного imitation learning.

При этом награды или штрафы не задавались явно — по опыту reinforcement learning, конструирование наград иногда всё только портит. Авторы усвоили горький урок: для того чтобы всё сошлось, достаточно увеличить количество данных и размер модели.

Единственная проблема, которая остаётся, — модель-водитель может научиться ломать симуляцию непредсказуемыми способами. Авторы утверждают, что это решается за счёт гипотезы большого мира: одновременно увеличивать и модель мира, и размеры водителя так, чтобы мир всегда был на порядок больше.

В парадигме Level 2 получается хороший результат — агент держит линию и расстояние до других, объезжает запаркованные авто. Но вопрос, будет ли это скейлиться на более сложные задачи, остаётся открытым.

Разбор подготовил ❣️ Кирилл Федянин
404 driver not found
1 623 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
На днях команда Openpilot 0.11 анонсировала запуск первого робо-агента для автономного транспорта, обученного только на симуляциях.

О потенциальных плюсах, минусах и вопросах к подходу в канале об ML в автономном транспорте рассказывает наш коллега Кирилл Федянин.
1 230 просмотров · 6 реакций Открыть в Telegram · Открыть пост на сайте
Как выжать максимум из decoder attention на GPU

Генерация токенов в LLM часто упирается не в слабое железо, а в то, что вычисления организованы неоптимально. Андрей Шукшов (Яндекс R&D) рассказал на Хабре, почему так происходит, и показал способ насытить память GPU в режиме декодирования.

GPU и CPU: throughput vs latency

CPU оптимизированы для задач с низкой задержкой и сложной логикой. GPU делают ставку на параллелизм: тысячи более простых ядер выполняют одинаковые операции одновременно. Задержка DRAM скрывается за счёт большого числа потоков и высокой пропускной способности памяти. Это выглядит идеальным для LLM, в которых нужно одновременно выполнять триллионы однотипных операций. Главное тут — постоянно держать видеокарту полностью загруженной.

Как работает параллелизм на GPU

Казалось бы, CUDA даёт удобную модель с множеством независимых потоков, но на практике GPU работает варпами по 32 потока с одной инструкцией на всех. При расхождении веток варп последовательно исполняет обе, из-за чего часть потоков простаивает и теряется производительность.

SM внутри GPU

Streaming Multiprocessor (SM) — основная рабочая единица GPU. На видеокарте их больше сотни, и между ними распределяется вся работа. Внутри SM находятся CUDA Cores, Tensor Cores и быстрая Shared Memory. Чтобы всё работало, нужно давать достаточно параллельных задач и активно использовать быструю память, иначе SM будут простаивать или упираться в доступ к DRAM.

Декодер — худший сценарий для GPU

В режиме генерации модель выдаёт текст слово за словом. Каждый новый токен — это один вектор, который нужно умножить на весь накопленный KV-кэш предыдущих токенов. То, что в обучении выглядит как плотное умножение матрицы на матрицу (GEMM), в декодере превращается в умножение вектора на матрицу (GEMV). А это уже memory-bound-сценарий: вычислений мало, чтения из памяти много.

Аттеншн при этом состоит из трёх последовательных шагов:

1) Q @ Kᵀ;
2) Softmax;
3) умножение на V.

Если выполнять их как три отдельных кернела, результаты каждый раз записываются в глобальную память и снова читаются обратно. Для memory-bound-задачи это критично: мы трижды гоняем данные через DRAM и теряем пропускную способность.

Всё из-за софтмакса

Кажется логичным объединить всё в один кернел и не писать промежуточные результаты в память. Но софтмакс требует редукции по всей строке, потому что для подсчёта знаменателя, нужно увидеть все элементы. Это плохо сочетается с тайлингом, который используется для GEMM на уровне SM. Получается, софтмакс мешает в лоб зафьюзить все три операции.

Online Softmax и fused kernel

Решение — Online Softmax, с которым софтмакс можно считать итеративно. Данные обрабатываются частями, и софтмакс встраивается внутрь одного fused kernel`а.

Теперь тайлы K и V загружаются из DRAM в Shared Memory, внутри SM считается часть Q @ Kᵀ, на лету обновляется Online Softmax и сразу же домножается на V. Всё происходит в одном кернеле, без лишних обращений к глобальной памяти. Вместо трёх поездок «на склад» достаточно одной.

Результаты

Fused kernel даёт ускорение минимум в 1,5 раза по сравнению с тремя стандартными вызовами.

Главная метрика для memory-bound задач — утилизация пропускной способности памяти. В эксперименте она доходит до 85–91% от теоретического пика. Это значит, что алгоритм практически полностью насыщает шину памяти и упирается в физический предел железа.

Полное описание эксперимента, разбор архитектуры SM с деталями и замерами, а также выводы от автора — в хабростатье.

ML Underhood
1 772 просмотров · 36 реакций Открыть в Telegram · Открыть пост на сайте
Выкатили тестирование нового ИИ-агента для Android

Возможно, вы уже видели новости об этом в телеграм-каналах — подтверждаем: начались тесты нового ИИ-агента Яндекса. Он умеет выполнять многошаговые действия на смартфоне с Android по голосовой команде.

Например, агент может отправлять сообщения в мессенджерах без ручного ввода, находить информацию на устройстве, устанавливать приложения и переводить текст с экрана на разные языки. Для выполнения задачи достаточно голосовой команды, например: «Напиши Саше в Телеграме, что нужно купить молоко» или «Найди в Google Play приложение Яндекс Переводчик и установи его».

Алексей Цветков, руководитель службы продуктовой разработки R&D, рассказал подробнее, как агент выполняет задачу пользователя.

Пользователь задаёт запрос, скажем: «Найди товар на Яндекс Маркете и положи в корзину».

LLM переводит просьбу пользователя в цепочку атомарных действий на телефоне:

- получи список приложений;
- найди Яндекс Маркет;
- открой Яндекс Маркет;
- и так далее, пока задача не будет решена.

Агент построен на базе Android Assistant API и для принятия решения использует текстовое описание интерфейса — такое же API используют приложения для слабовидящих.

На стороне Android-клиента реализован MCP-интерфейс, который позволяет девайсу от имени пользователя выполнять простейшие команды: кликни сюда, свайпни здесь и так далее.

Задача модели — конвертировать сложносоставную команду в цепочку взаимосвязанных атомарных команд, опираясь на промежуточное состояние интерфейса.

Надеемся, что широкий тест поможет найти то, о чём мы ещё не догадались подумать, и быстрее превратить прототип в понятный и полезный продукт.


Записаться на тестирование можно в бета-версии поискового приложения «Яндекс — с Алисой AI» или через форму.

ML Underhood
4 304 просмотров · 55 реакций Открыть в Telegram · Открыть пост на сайте
ML-ранжирование маршрутов в Яндекс Картах

С недавних пор ранжированием маршрутов на Картах занимается ML‑модель, обученная на реальном поведении пользователей. Она учитывает не только время в пути, но и то, по каким маршрутам водители доезжают до конца, не сходя с дистанции.

Как именно модель понимает, какой маршрут предлагать пользователям первым, подробно рассказал на Хабре Илья Хохлов, руководитель службы разработки сервисов маршрутизации. А мы собрали интересные тезисы из статьи.

Почему важен порядок показа маршрутов

Порядок показа во многом определяет дальнейшее поведение пользователя. Чаще всего человек просто нажимает «Поехали» — и едет по первому предложенному пути.

Долгое время этот порядок формировался сортировкой по ETA (Estimated time of arrival), из‑за чего удобные и предсказуемые маршруты (которые пользователи чаще выбирают интуитивно) не оказывались на первом месте, а иногда вовсе выпадали из топ-3.

Обучение на выборах пользователей

Сначала команда пыталась обучать ранжирование на кейсах, когда пользователь осознанно выбирал не первый маршрут. Но таких случаев было слишком мало — на практике чаще выбирают именно первый маршрут, а уже позже отклоняются от него. Обучить ML‑модель ранжирования на этом количестве данных не получилось.

Таргет для обучения модели — реальное поведение

Тогда попробовали учитывать то, насколько реальный трек поездки совпадает с первым маршрутом. Это стало таргетом для обучения ML‑модели ранжирования: чем выше совпадение, тем более удачным считается маршрут.

Как правило, более простой маршрут имеет меньше сходов, даже если поездка по нему чуть дольше. С другой стороны, маршрут может формально выигрывать по времени, но, скажем, включать сложный манёвр. И без хорошего знания местности можно пропустить нужный поворот.

Эффект от нового подхода хорошо был заметен на маршрутах через центр города — с более сложной дорожной обстановкой. Их доля снизилась в выдаче на 3%. Также стало меньше маршрутов, проходящих через зоны с проблемным GPS.

Выбор функции потерь

Сначала попробовали применить функцию YetiRank, которая оптимизирует позиции самых релевантных объектов. На старте был заметный эффект, но подход не учитывал, что при выборе одного маршрута остальные перестают существовать для пользователя — он не строит рейтинг маршрутов.

Поэтому от классического ранжирования перешли к задаче выбора, используя функцию потерь на основе Softmax с one‑hot‑таргетом.

Для каждой поездки модель получает набор альтернативных маршрутов и учится распределять между ними вероятности выбора. One‑hot‑таргет указывает, какой маршрут в итоге выбрали, а Softmax позволяет напрямую оптимизировать вероятность этого выбора относительно остальных вариантов. В результате модель учится не просто упорядочивать маршруты, а предсказывать, какой из них с наибольшей вероятностью будет выбран в реальной поездке.

Что показал AB-эксперимент

— Число сходов снизилось в среднем на 2,19%;
— Доля хороших поездок без сходов с маршрута выросла на 2,16%;
— Базовое поведение пользователей при этом не изменилось: около 92% поездок по-прежнему начинаются с первого предложенного маршрута;
— Эффект зависит от региона, и там, где явные проблемы с GPS, он выражен сильнее — например, в Северной Осетии доля хороших поездок выросла на 8%;
— В ряде регионов уменьшаются сходы с выигрышем по времени — например, в Узбекистане — на 8,5%, в Казахстане — на 6,6%.

Новые предложенные маршруты — уже в Картах и Навигаторе, а детали и примеры — в полной хабростатье.

ML Underhood
1 911 просмотров · 36 реакций Открыть в Telegram · Открыть пост на сайте
Статьи Yandex Research на грядущей ICLR — 2/2

Статьи такие подробные и крутые, что просто рассказать о них всех в одном посте невозможно. Вот продолжение — ещё три работы.

SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration

Статья Дмитрия Ковалева посвящена унифицированному теоретическому анализу стохастического градиентного метода с адаптивным предобуславливанием в предположении матричной гладкости и шума, включающий популярные алгоритмы оптимизации, такие как AdaGrad-Norm, AdaGrad и Shampoo. Также автор разработал анализ ускоренного по Нестерову варианта метода, который позволяет получить теоретическое обоснование эффективности алгоритма Adam.

Revisiting Global Text Conditioning in Diffusion Transformers

Диффузионные трансформеры обычно используют текст двумя способами: через аттеншн и через модуляцию с pooled-эмбеддингом. В последние годы второй вариант часто убирают, оставляя только первый. Авторы показывают, что в стандартном виде pooled-эмбеддинг почти не влияет на качество — аттеншна обычно достаточно.

Однако если использовать pooled-эмбеддинг иначе, как guidance для управляемого смещения генерации к нужным свойствам, он даёт заметный прирост. Подход простой, не требует обучения, почти не добавляет времени и работает для разных моделей, улучшая результаты в text-to-image/video и image editing. В авторах статьи — Никита Стародубцев, Илья Дробышевский и Дмитрий Баранчук, а также исследователи из Adobe Research.

Sign-SGD is the Golden Gate between Multi-Node to SingleNode Learning: Significant Boost via Parameter-Free Optimization

Совместная работа Филиппа Змушко и Егора Петрова из Yandex Research с коллегами из BRAIn Lab. Претрейн больших моделей — крайне трудоёмкая задача, особенно в части подбора гиперпараметров. На практике шаг обучения часто выбирают эвристически через перебор, так как теоретически оптимальные значения требуют знания глобальных констант целевой функции (гладкости, липшицевости и тд), которые часто невозможно вычислить в реальных прикладных задач.

Авторы работы предложили новый parameter-free метод оптимизации, основанный на Sign-SGD. Решение (в частности алгоритм ALIAS) позволяет автоматически адаптировать шаг обучения в процессе оптимизации. Подход демонстрирует отличные практические результаты, сравнимые с тщательно настроенными SOTA методами, при этом избавляя от необходимости дорогостоящего перебора гиперпараметров.

#YaICLR26

ML Underhood
2 123 просмотров · 35 реакций Открыть в Telegram · Открыть пост на сайте
Статьи Yandex Research на грядущей ICLR — 1/2

Интересный факт: в фильме «Бразилия» не очень-то много о Бразилии. Зато о ней будет в нашем канале, когда мы возьмёмся освещать конференцию ICLR 2026. Она пройдёт уже в апреле в Рио-де-Жанейро. Туда отправляются исследователи Yandex Research — и не с пустыми руками, а с целой пачкой в шесть статей. Сперва расскажем о первых трёх.

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Авторы статьи — Денис Кузнеделев из Yandex Research и коллеги из ISTA, Red Hat AI и ETH Zürich. Они детально изучили представленные компанией NVIDIA форматы хранения весов и активаций (MXFP4, NVFP4) для квантования после обучения, чтобы понять, насколько заявленные преимущества соответствуют реальной производительности.
Анализ показал, что современные методы сталкиваются с трудностями при работе с FP4. Причины:

— привычные способы борьбы с выбросами (нетипичными значениями) не работают;
— при квантовании MXFP4 возникает ошибка.

В работе предложена улучшенная версия алгоритма квантования GPTQ. Она учитывает особенности FP4 и заметно повышает точность по сравнению с предыдущими методами. Кроме того, разработаны быстрые ядра для инференса.

Scale-wise Distillation of Diffusion Models

А это статья уже полностью от Yandex Research — Никиты Стародубцева, Дениса Кузнеделева, Артёма Бабенко и Дмитрия Баранчука. Авторы предлагают новый подход к помасштабной дистилляции диффузионных моделей — дообучать генерации изображений прогрессивно, от низкого разрешения к высокому. Это позволяет добиться более высокого качества, чем во время генерации с фиксированным разрешением при том же вычислительном бюджете.

Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization

Авторы статьи — Екатерина Бородич и Дмитрий Ковалев из Yandex Research — разработали ускоренный по Нестерову и не требующий подбора гиперпараметров градиентный метод, который автоматически адаптирует размер шага к локальной кривизне целевой функции с линейной (геометрической) скоростью. Эффективность алгоритма подтвердили, доказав, что он даёт оптимальную скорость сходимости для выпуклых задач оптимизации в условиях обобщенной гладкости.

#YaICLR26

ML Underhood
1 607 просмотров · 24 реакций Открыть в Telegram · Открыть пост на сайте
Back to EMNLP: мировые тренды в области оценки качества перевода

Мы уже кратко писали о статьях исследователей Яндекса, которые в 2025 году представили на конференции Empirical Methods in Natural Language Processing. Сегодня на Хабре вышел пост, в котором руководитель команды аналитики перевода в Яндексе Катя Еникеева рассказала об этих работах более детально, а ещё поделилась новыми подходами в оценке качества перевода.

Зовём читать полную статью и делимся интересными трендами, замеченными Катей на конференции.

1. Новые мультиязычные бенчмарки: BOUQuET

Одним из заметных стендов был BOUQuET — новый мультиязычный бенчмарк от FAIR. Вместо готовых англоязычных текстов авторы попросили носителей восьми языков придумать собственные примеры из разных жизненных ситуаций, покрывающие определённые лингвистические явления. На каждый язык пришлось по 250 примеров, а всего их в наборе — 2 тысячи. Датасет сделали открытым и развивающимся: вместе с гайдлайнами он выложен на платформу, где можно постепенно добавлять переводы на новые языки.

2. Датасеты для малоресурсных языков: SMOL

Ещё один крупный мультиязычный датасет — SMOL от Google Research/DeepMind и нескольких университетов. В отличие от BOUQuET, это обучающий корпус для малоресурсных языков. Авторы показали, что дообучение Gemini 2.0 Flash на этом корпусе даёт особенно большие приросты именно на малоресурсных направлениях.

3. Word-level Quality Estimation и помощь переводчикам

Несколько работ были посвящены оценке качества перевода на уровне слов и тому, как такие методы влияют на постредактирование. Например, QE4PE исследует способы подсветить потенциальные фрагменты для исправлений и влияние «подсветки» на скорость и качество работы переводчиков. В целом качество растёт благодаря редактуре, а сами способы подсветки существенной разницы не дают.

4. Unsupervised QE и uncertainty-метрики

Работа Unsupervised Word-level Quality Estimation Through the Lens of Annotators’ (Dis)agreement рассматривает оценку качества перевода на уровне токенов без обучения на человеческой разметке. Авторы попробовали использовать разные варианты uncertainty: surprisal, entropy и KL-дивергенции на промежуточных слоях. Выяснилось, что unsupervised-методы работают лишь немного хуже supervised-подходов, а перекрывающаяся человеческая разметка даёт более стабильное ранжирование автоматических метрик по качеству.

5. Проверка лингвистического рассуждения LLM

Отдельный сюжет — попытка оценить, насколько LLM способны к настоящему лингвистическому рассуждению. В работе LingGym авторы предлагают бенчмарк для проверки, умеют ли модели восстанавливать пропущенную информацию в описании малоресурсных языков. Результаты оказались довольно суровыми: chain-of-thought почти не даёт прироста, и для таких задач нужны более специализированные механизмы.

6. MT literacy и доверчивость пользователей

Работа Toward Machine Translation Literacy исследует, как пользователи с разным уровнем владения языком воспринимают ошибки перевода. Люди, не знающие исходного языка, часто пропускают даже очевидные сбои и оказываются слишком доверчивы к машинному переводу. Авторы делают вывод, что таким пользователям нужны дополнительные интерфейсные подсказки и развитие MT literacy.

ML Underhood
3 580 просмотров · 35 реакций Открыть в Telegram · Открыть пост на сайте
Назад в 2016: ты помнишь, как всё начиналось…

Судя по соцсетям, 2016-й был золотым годом. ML активно набирал обороты: TensorFlow в опенсорсе, Jupyter-ноутбуки, scikit-learn и матч AlphaGo — Ли Седоль (свело олдскулы?). Присоединяемся к тренду и вспоминаем ML-проекты Яндекса десятилетней выдержки.

Поисковый алгоритм «Палех»

Раньше поисковые системы работали по большей части как инвертированный индекс: запрос сопоставлялся со страницами, где встречались те же слова. Со временем в поиск начали добавлять клики, поведение пользователей и ссылочные факторы — всё это объединили в алгоритме ранжирования MatrixNet. А «Палех» стал следующим шагом: в поиске использовали нейросеть на базе DSSM, чтобы учитывать смысл запроса, а не только совпадение слов. Подробнее о том, как всё работало, можно почитать на Хабре.

Перевод текста с изображения в Переводчике

Яндекс Переводчик научился распознавать текст прямо на картинках. Можно было загрузить изображение — комикс, график с подписями или скан документа — и сразу получить перевод. Функция работала даже в неидеальных условиях: если текст был под углом, растянут или снят «на бегу». Распознавание поддерживало 12 языков, а перевод — любой из 74 языков, доступных на тот момент. В основе лежали технологии компьютерного зрения Яндекса — те же, что использовались в поиске похожих картинок и определении марки автомобиля по фото. А о том, как в Яндексе в 2016 году решали задачу машинного перевода для редких языков, — тут.

Первая нейросеть для прогноза осадков с точностью до минут

В Яндекс Погоду добавили нейросетевой «наукастинг» осадков — краткосрочный прогноз дождя и снега с высокой точностью. Модель использовала данные метеорадаров и свёрточные нейросети, чтобы предсказывать движение осадков на ближайшие пару часов с детализацией до отдельных районов. На коротких интервалах подход оказался точнее классических методов и улучшил прогноз «здесь и сейчас». О том, как далеко шагнуло прогнозирование погоды с помощью нейросетей в 2026-м — писали здесь, а вспомнить, что было в 2016-м, можно тут.

Определение фишинга в Браузере с помощью ML

Традиционная защита браузеров от фишинга была основана на чёрных списках опасных сайтов. Но с автоматизированными атаками, где фишинг-страницы появляются быстрее, чем их вносят в списки, в 2016-м она уже не справлялась.

Стали прямо на устройстве пользователя анализировать самые разные признаки страницы — от технических параметров до визуального оформления — и оценивать её подозрительность. А компьютерное зрение использовали, чтобы сравнивать внешний вид сайтов с известными сервисами — так подделки находились даже без обращения к внешним спискам. Подробнее рассказали в хабростатье.

Вот такие технологии из дохайповых времён. Делитесь в комментариях своими воспоминаниями об ML в 2016 году.

ML Underhood
9 529 просмотров · 63 реакций Открыть в Telegram · Открыть пост на сайте
Лучшие статьи 2025 года — выбор инженеров Яндекса

Мы уже обеими ногами в 2026-м, но неплохо и оглянуться назад. Тем более, что прошедший год подарил нам много отличных публикаций об ML. Каких именно? А об этом расскажут инженеры Яндекса.

CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio

Очень интересный аудиокодек, для обучения которого используется всего один лосс. Он умеет восстанавливать двухканальное аудио в 44,1 кГц как из непрерывных эмбеддингов, так и из дискретных токенов. Кодек поддерживает авторегрессивное и параллельное декодирование.

VideoGLUE: Video General Understanding Evaluation of Foundation Models

Статья от DeepMind, которую представили на ICLR-2025. Авторы собрали большой бенчмарк для разносторонней оценки качества фундаментальных видеомоделей — VideoGLUE. Весь код доступен по ссылке.

В статье предлагают эффективный и наглядный формат сравнения и показывают, что текущие фундаментальные видеомодели сильно проигрывают специализированным подходам. Это говорит о том, что сейчас анализ видео — довольно перспективное и недоработанное направление с точки зрения исследований.

SAM Audio: Segment Anything in Audio

Вся линейка SAM кажется очень изобретательной, но о сегментации звука я даже и подумать не мог. А исследователи не только подумали, но и сделали очень красиво. Так же там довольно интересно собирают данные.

Об интересных статьях рассказали Николай Глазырин, Кирилл Никоров и Стас Лебедев

ML Underhood
2 560 просмотров · 18 реакций Открыть в Telegram · Открыть пост на сайте
🎄 Самые популярные посты 2025 года в канале

Праздники приближаются, а это значит, что пора суммировать всё прожитое за минувшие 12 месяцев. Выбрали пять самых популярных постов в нашем канале, на случай, если вы что-то пропустили. Приглашаем и вас суммировать впечатления от контента и рассказать, какие из постов понравились вам больше других.

Как в Яндексе заменили сложную разметку на LLM

Заголовок говорит сам за себя, но тут стоит отметить, что совсем от асессоров не отказались — им перепоручили более хитрые задачи и контроль над работой LLM. Результат — 105% качества и 60% экономии денег.

От PyTorch к MONAI: опыт команды Yandex Cloud и ШАДа в медицинском AI

Нейросети на страже здоровья. В этом посте — о том, как команда ML-инженеров из Школы анализа данных и Yandex Cloud переписали проект для распознавания редкой патологии spina bifida.

Как и зачем Алису учат понимать интонации

В 2025 году в Яндекс Станциях появились интонационные споттеры в дополнение к командным. А нужны они не только для того, чтобы колонки могли отличать обращение к ним от обращения к человеку по имени Алиса, но и чтобы сэкономить пользователю время на активационной фразе.

Как ML рассаживает деревья в Яндекс Картах

Минутка прекрасного — пост о том, как на картах появляются трёхмерные деревья. Модель не только определяет, где нужно «посадить» растение, но и то, какое именно: хвойное или лиственное.

Как LLM помогают анализировать ответы в опросах

Систематизировать ответы на открытые вопросы — то есть данные в свободной форме — непросто. Исследователями, которые проводят опросы, приходится тратить на это немало времени. К счастью, на помощь можно позвать модель. Или даже несколько.

Напоследок — несколько популярных текстов о релизах Яндекса: о YandexGPT 5 и Lite Instruct, документальном переводе и Alice AI VLM dev. Всё — жуть какое интересное.

В новом году нас ждёт ещё больше крутых проектов и, соответственно, увлекательных рассказов о них. Оставайтесь на связи и с праздниками!

ML Underhood
2 658 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
Что нового в Нейрометеуме — нейросети глобального прогноза от Яндекс Погоды

Новая нейросеть для глобального прогноза погоды рассчитывает 70 ключевых характеристик атмосферы на 10 суток вперёд с часовым шагом. В этом посте — немного «внутрянки» о том, что нового появилось в Нейрометеуме.

Во-первых, модель Яндекса сделали быстрой и автономной. Если численным методам нужны часы на расчёт, то эта нейросеть справляется за несколько минут. К тому же в расчёте нет зависимости от внешних данных метеорологических центров — всё рассчитывается самостоятельно, но пока что зависимость сохраняется в данных для старта.

Во-вторых, использовали инновационный подход к обучению модели. Архитектурно за основу взяли Aurora (Microsoft), а от Pangu Weather (Huawei) переняли идею обучать несколько моделей для разных временных горизонтов, а не одну. При этом смогли решить проблему несогласованности прогнозов благодаря авторегрессии в латентном пространстве. Эксперименты с гиперпараметрами (число блоков, «голов» и так далее) показали, что качество достигает насыщения. В итоге модель превзошла Aurora по числу параметров — у Нейрометеума их 1,5 млрд.

В-третьих, повысили точность прогноза осадков. В Яндекс Погоде придумали, как эффективнее работать с переменной «осадки» (zero-inflated distribution). Вот что для этого сделали:

— использовали нормировку/перемасштабирование (в основе — паттерн из MetNet от Google);
— применили специальную функцию активации;
— разработали новые функции потерь (MWAE и лосс на основе Центра Масс — CoM).

А вот и результаты:

— CSI по сильным осадкам вырос на 50% относительно бэйзлайна и более чем вдвое относительно общепринятого подхода;
— метрика bias снизилась в 10 раз и достигла уровня численных моделей;
— в сравнении с последней моделью Google (WeatherNext2) — модель показывает сопоставимое или более высокое качество прогноза осадков на ближайшие 12–18 часов.

Сейчас прогнозы Нейрометеума используют как входные данные для профильной модели осадков в Яндекс Погоде.

Подробнее о том, как устроена новая нейросеть глобального прогноза погоды, читайте на Хабре.

ML Underhood
2 149 просмотров · 46 реакций Открыть в Telegram · Открыть пост на сайте
Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)

Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,637 (img→text: 0,886, img→markdown: 0,747, Grounding: 0,065, KIE (JSON): 0,751, VQA: 0,737). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.

Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.

В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.

Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.

Претрейн

Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.

Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.

Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.

Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.

Алайнмент

Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).

В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.

Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.

Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.

ML Underhood
19 138 просмотров · 42 реакций Открыть в Telegram · Открыть пост на сайте
NeurIPS 2025: доклады и идеи, к которым хочется вернуться

Конференция завершилась, но интересного на ней было так много, что мы продолжаем рассказывать о работах и докладах, заслуживающих внимания. CTO Яндекс Поиска Екатерина Серажим тоже побывала на площадке в Сан-Диего и поделилась своим заметками.

The Oak Architecture: A Vision of SuperIntelligence from Experience

На первом фото — Сан-Диего, 8 утра. Все спешат на Invited Talk Ричарда Саттона :) Доклад рекомендую: Саттон говорит, нужно не запихивать знания в агентов, а строить их такими, чтобы они масштабируемо и непрерывно изучали мир. Предлагает концепцию того, как это может быть.

WebDancer: Towards Autonomous Information Seeking Agency

У команды есть целая серия работ про deep research: на NeurIPS попала эта статья, остальные планируют представить на ICLR 2026. Авторы хитро генерируют синтетические сложные запросы, которые требуют нескольких поисков: сначала с помощью ChatGPT и других моделей составляют цепочки поисковых шагов, затем отбирают запросы, где эти цепочки не слишком длинные и не короткие, и уже на них обучаются.

Я попросила одного из авторов посоветовать другие работы на ту же тему, которые кажутся ему стоящими, и делюсь списком:

WebSailor;
WebSailor v2;
Tongyi Deep Research;
WebThinker;
Mind2Web;
Mind2Web v2.

А ещё пригласила ребят к нам в Москву :)

The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement

Checklists Are Better Than Reward Models For Aligning Language Models

Встретилось несколько интересных работ, где модели-генераторы улучшают с помощью моделей-критиков с текстовым фидбеком. Идея логичная: разбивать ответ на атомарные проблемы, просить модель их исправлять и учиться на этом.

ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning

Ребята из Google Cloud создали агента-планировщика путешествий. Командам, которые делают нейропродукты, будет полезно посмотреть на используемые пайплайны и промпты.

The Art of Artificial Reasoning for (Small) Language Models

Интересный кейноут Еджин Чой (Стэнфорд и NVIDIA) на тему маленьких языковых моделей. В докладе было не только визионерство, но и результаты. А ещё — мемы и трюки.



#YaNeurIPS25

ML Underhood
1 689 просмотров · 23 реакций Открыть в Telegram · Открыть пост на сайте
Впечатления от EurIPS в Копенгагене

Мы уже начали рассказывать о том, что в Европе в этом году впервые прошла конференция — почти как NeurIPS, только Eur. Вдогонку делимся ещё одной порцией заметок от исследователя Yandex Research Ивана Рубачёва.

— На конференции было около 2000 человек. Приехало много студентов и профессоров из Европы, но были и люди из Канады, например. Порадовал состав спикеров, как на воркшопах так и в main talks.

— Основные дни проходили в Bella Center. Но некоторые воркшопы, в том числе AI for Tabular Data, который был мне интересен, проводились в местных университетах: TU Copenhagen и South Campus U of Copenhagen.

Sepp Hochreiter, один из авторов LSTM, а теперь и xLSTM, вместе со своими соавторами заметно форсил последнюю модель по всем направлениям. Правда, версию под табличные данные пока не показали.

Gaël Varoquaux, один из руководителей группы SODA в Inria (люди, которые среди прочего стоят за sklearn), говорил про uncertainty estimation в эпоху LLM. Немного диссил тезис scale is all you need — в последнее время он действительно звучал отовсюду. Кстати, Gaël и его группа не остановились на sklearn и всё ещё занимаются табличными данными, исследователи из его команды были и на воркшопе.

— Мнения об основной программе заметно разнились. В целом конференция в этот раз ощущалась не такой масштабной: кому-то не хватало статей, а кому-то, наоборот, понравилось, что в основной программе больше «воркшопного» духа.

Первое фото взято из официального Twitter/X-аккаунта конференции.

#YaNeurIPS25

ML Underhood
1 848 просмотров · 28 реакций Открыть в Telegram · Открыть пост на сайте
Сегодня вышел техрепорт Alice AI

Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.

Alice AI LLM
На этапе претрейна улучшили качество данных: фильтрация и аугментация повысили фактологичность ответов (+4–7% на внутреннем бенчмарке). Также собрали специализированные данные по школьным предметам, что дало прирост на образовательных задачах — модель обошла конкурентов по истории, литературе, математике и русскому языку. Усилили навыки программирования и математики за счёт алгоритмических и кодовых данных (+4,5 п.п. на LiveCodeBench). В alignment-фазе перешли к единому RLHF-пайплайну с мультиаспектным ревордом (полезность, фактологичность и др.) вместо одного «суперсигнала».


Alice AI LLM Search
Пайплайн объединяет планировщик поисковых запросов, фильтрацию и ранжирование результатов и генерацию ответа, а также поддерживает мультимодальные источники — тексты, изображения, видео и геоданные — для более полных ответов. Для обучения использовали RLHF с мультиаспектными ревордами вместо одной метрики, что упростило оценку сложных ответов. В RL-тренировке перешли к онлайн-методу GRPO, сократили этапы обучения, повысили эффективность GPU и в итоге улучшили полезность и актуальность ответов.


Alice AI ART
Обучающий датасет проанализировали с помощью Alice AI VLM, извлекли структурированные JSON-описания изображений и выявили дисбалансы в данных. На основе этого датасет для файнтюна переработали и дополнили недостающими категориями запросов, чтобы лучше соответствовать реальным пользовательским сценариям. Архитектура модели сделана двухступенчатой: на первом этапе формируется общая композиция изображения, на втором — прорабатываются высокочастотные детали. Дополнительно обучили отдельный «рефразер» — компактную LLM, которая преобразует сырые пользовательские промпты в детализированное описание сцены, сохраняя исходный смысл перед генерацией.


Alice AI VLM
Объём данных претрейна увеличили с 400 до 600 млрд токенов и расширили контекст до 32 тыс. Обновили OCR-датасет, улучшив качество чтения текста с изображений, включая рукописный, и описание визуального контента. VLM тесно интегрирован с текстовой LLM и обучается с теми же RLHF-подходами. Дополнительно в систему добавлен специализированный VLM-«решатель» для задач, требующих глубокой визуально-математической экспертизы.


Инфраструктура инференса
Инференс оптимизировали, повторно использовав KV-кэш для одинаковых частей промпта. Также помогла полная FP8-квантизация весов, активаций и KV-кэша. За счёт этого объём KV-кэша сократился почти вдвое. Дополнительно внедрили спекулятивное декодирование EAGLE-3, повысив пропускную способность генерации.
В результате новый инференс-стек обеспечивает около 5,8× ускорение по сравнению с BF16 и примерно 1,3× относительно лучших открытых решений, что позволило достичь целевых показателей скорости.


ML Underhood
19 316 просмотров · 84 реакций Открыть в Telegram · Открыть пост на сайте
NeurIPS 2025: топ-3 академических постера с площадки в Сан-Диего

Конференция подошла к концу — подводим итоги. Сегодня уже знакомый вам по обзору стендов об индустрии Максим Кузин делится личным топом научных постеров из США.

Real-World Reinforcement Learning of Active Perception Behaviors
Исследователи из University of Pennsylvania, University of Liège и UC Berkeley добавляют в RL награду за «уменьшение неопределённости» модели после обучения на сгенерированном примере. Агента заставляют действовать проактивно, самому делать нужные «обучающие» попытки. А на бенчах сильно уменьшают количество сэмплов для обучения.

Generalizable, real-time neural decoding with hybrid state-space models
Команда учёных Mila — Quebec AI Institute, Université de Montréal, Columbia University, University of Pennsylvania и Canada CIFAR AI Chair обучают реалтайм-модель для предсказания сигналов. Трансформеры as is не подходят для случаев, когда важна скорость инференса. Поэтому авторы сделали быструю RNN и офлайн-компонент в виде трансформера с задержкой, который пересчитывается раз в некоторое время. Результат — по сравнению с онлайн-трансформером, качество практически не теряется.

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
Исследователи University of Pennsylvania, University of Central Florida и Johns Hopkins University выделяют сущности для работы агента с камерой и строят граф отношений между ними (например, «тостер стоит на полке»). Этот граф остаётся в промпте и помогает моделям лучше ориентироваться в пространстве, видя саммари помещения, а не выделяя его явно из кадров в контексте. Хотя подходи простой, он даёт хороший прирост на бенчах.

#YaNeurIPS25

ML Underhood
1 260 просмотров · 14 реакций Открыть в Telegram · Открыть пост на сайте
Что показали на своих стендах участники NeurIPS 2025

На конференцию в США приехали и международные гиганты, и крохотные компании. Наш коллега, руководитель качества рекламы Максим Кузин собрал для вас самое интересное:

Microsoft — большая часть стенда была посвящена их Copilot: показали новые функции и агентов.

Shopify — подробный технический стенд. На постерах схематично расписали все основные компоненты:

• как устроен поиск на их сайтах,
• как обучалась ecom-foundation-модель и что нужно, чтобы сделать на её основе рекомендации для сайтов клиентов,
• на чём и как учились агенты, которые определяют оптимальное разбиение товаров на категории.

JetBrains — тоже сделали акцент на своём Copilot. А ещё провели публичный опрос разработчиков с помощью канцелярских кнопок: используешь один из перечисленных инструментов? Проголосуй за него — воткни кнопку!

ByteDance — показали демо генерации видео и 3D-моделей из текста, картинок, других видео и промптов.

Amazon — предлагали напромптить себе коллекцию генеративных стикеров и распечатать их.

Sony — рассказали, как обучили агента управлять всеми машинами в Gran Turismo. Можно было даже взять джойстик и посоревноваться с ИИ!

Meta* — предлагали побеседовать о предметах на стенде со своим ИИ в очках RayBan.

Tesla — в основном рассказывали про роботов и как делали реалистичные движения рук для Tesla Bot. Там же можно было посмотреть на самого робота, но двигает он только руками.

Eigen AI — показывали сети, которые редактируют видео на лету: камера снимает прохожих и превращает их в плавные ролики в стиле аниме (я тоже попал в кадр!).


*Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ

Больше интересного с NeurIPS ищите в наших каналах Душный NLP, 404 Driver Not Found и CV Time по хештегу #YaNeurIPS25.

ML Underhood
1 066 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
Это хет-трик! Мы собрали все три площадки NeurIPS 2025 (да, есть ещё одна)

Пока в США и Мексике гремела NeurIPS, в Дании проходила EurIPS. На месте событий в Копенгагене побывал исследователь Yandex Research Иван Рубачёв. Он приехал на воркшоп AI for Tabular Data со статьёй Talking Trees: Reasoning-Assisted Induction of Decision Trees for Tabular Data и делится впечатлениями от европейской версии NeurIPS.

Ещё в первый день основной программы EurIPS три человека написали мне про упоминания Yandex Research и наших работ на тему табличных данных. По моему абсолютно непредвзятому мнению, тема действительно одна из самых интересных на конференции (поэтому и прилетел я только на воркшоп).

Так сложилось, что сейчас больше всего исследований по табличным данным выходит в Евразии. Из университетов в Штатах, например, работ заметно меньше. Поэтому от воркшопа я изначально ждал многого: в таких местах обычно собираются люди ровно из той самой ниши, где сейчас происходит основная движуха. И часто воркшопы по уровню не слабее основной программы.


В следующих постах поделимся парой интересных историй с европейской конференции и расскажем подробнее о самом табличном воркшопе, ради которого Иван прилетел в Данию.

#YaNeurIPS25

ML Underhood
1 255 просмотров · 39 реакций Открыть в Telegram · Открыть пост на сайте
Немного хайпуем на постерной сессии в Сан-Диего

Команда Yandex Research активно участвует в постерных сессиях NeurIPS. На фото — Роман Гарипов и Людмила Прохоренкова отвечают на вопросы, поясняют нюансы и не упускают интересных обсуждений по следующим постерам:

🔴Hogwild! Inference: Parallel LLM Generation via Concurrent Attention*️⃣наш spotlight-постер;

🔴GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data;

🔴AutoJudge: Judge Decoding Without Manual Annotation;

🔴Alchemist: Turning Public Text-to-Image Data into Generative Gold;

🔴Results of the Big ANN: NeurIPS’23 competition.

Если захотите глубже погрузиться в работы, рекомендуем обзор наших статей, принятых на конференцию в этом году.

Напоследок два бонуса.

— Один из самых милых постеров сессии: участник собирал подписи и пожелания из 30+ стран. Похоже, план выполнен!

— Джоб-борд для нетворкинга: научные идеи не отходя от кассы превращаются в офферы.

#YaNeurIPS25

ML Underhood
1 418 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
🤖 Был бы ты человек, этот пост был бы не о тебе

Ну какая ML-конференция без крутых роботов? Вот и американскую NeurIPS 2025 они посетили. В программе:

🦾 Роботизированная рука Tesla, с которой не хочется соревноваться в армрестлинге.

🦾 Та же самая роботизированная рука Tesla, с которой по-прежнему не хочется соревноваться, но которая выглядит парадно.

🤖 Робот-бариста Turing Robot, которому хочется отдать все чаевые в мире.

🛰 Бонус: архитектурные излишества с кубриковским вайбом, который I'm sorry Dave, I'm afraid I can't do that.

#YaNeurIPS25

ML Underhood
1 341 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
Порция интересного с NeurIPS 2025

Конференция продолжает греметь в Сан-Диего — и в дело вступают постеры. Разные и любопытные.

Scalable In-context Ranking with Generative Models

С развитием LLM всё чаще рассказывают об успешных подходах с использованием больших текстовых моделей для ранжирования документов под запрос или пользователя. У LLM уже хорошо сложена интуиция о том, какие документы подходят для решения пользовательской задачи по её описанию. Файнтюн помогает доучить модель под нужную область на небольшом наборе данных — это простой способ получить большую рекомендательную модель.

Авторы статьи изучили аттеншн-карты и увидели, что в таких задачах LLM обычно смотрит либо на промпт/контекст, либо на токены внутри документа. Взаимодействия между разными документами практически не происходит (или происходит внутри токенов контекста). Поэтому инженеры с помощью маски на файнтюне смогли оптимизировать аттеншн до линейной сложности без потери качества, не испортив претрейн.

Corrector Sampling in Language Models

Очень простая в исполнении идея. Авторы утверждают, что увеличивают качество на сложных бенчмарках на 10%. В обычном NTP-инференсе модель всегда предсказывает следующий токен при учёте контекста. Обратного влияния не существует — если в будущем модель поймёт, что токен был неправильный, то исправить его не сможет.

В статье предлагают RPT (Resample-Previous-Tokens). Во время обучения с вероятностью q токен перемещается на k позиций вперёд. Обучив такую модель, во время инференса мы можем делать два предикта: обычный NTP и RPT (токен на позиции x от модели; показываем ей токены до и после и просим восстановить токен на позиции x). На каждой итерации модель может дописать новый токен и исправить предыдущий.

TabDPT: Scaling Tabular Foundation Models on Real Data

Авторы пробуют обучать tabular foundation model. Взяли много табличных задач, представили строку с фичами как последовательность и обучили трансформер на классические претрейн-задачи (восстановить фичу по другим, угадать таргет, ретривал на похожие строки и так далее). Утверждается, что такая модель хорошо скейлится по параметрам (качество растёт при увеличении модели) и легко адаптируется к новым задачам в few-shot-режиме без дообучения. Показывают высокие результаты на публичных лидербордах.

Интересное увидел Максим Кузин

*компания Meta признана экстремистской, её деятельность в России запрещена.

#YaNeurIPS25

ML Underhood
1 368 просмотров · 25 реакций Открыть в Telegram · Открыть пост на сайте
Как прошёл первый день NeurIPS 2025 в США

Пока все набираются сил перед новыми воркшопами и докладами, исследователь Yandex Research Роман Гарипов делится впечатлениями о том, как прошёл первый день конференции в Сан-Диего.

После очереди на регистрацию мы направились на туториал Human-AI Alignment: Foundations, Methods, Practice, and Challenges. Провёл его Yoshua Bengio, один из отцов Deep Learning.

Потом было ещё несколько интересных выступлений:

🔴 про бенчмарки для reasoning, которые требуют робастности к минимальному изменению промпта,
🔴 про алайнмент от людей из академии, frontier ai labs и Bengio,
🔴 туториал по scaling test time compute/parallel reasoning от Beidi Chen/Zhuoming Chen из CMU и других.

На стендах компаний и университетов я успел пообщатся с профессорами из Канады, в том числе Mila (research institute). Все они охотно включались в обсуждения и делились своим взглядом на область. Ещё было много трейдеров из крупных фондов.

Закончился день на вечеринке от Together AI. Там собрались коллеги из Nvidia, Сerebras Systems, Google DeepMind, Snapchat и других известных компаний. Понетворкались, приятно удивило, что в Together AI хорошо знают Яндекс и Высшую школу экономики.


Как дела в Мексике — на второй площадке NeurIPS 2025 — читайте в канале CV Time.

#YaNeurIPS25

ML Underhood
1 088 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
NeurIPS 2025 продолжается: старт в США

В этом году конференция проходит сразу в двух странах. Про Мексику мы уже рассказывали, теперь делимся новостями из американского города Сан-Диего, где недавно закончилось открытие.

На первый день конференции приехали более 18 тысяч человек. Шестеро из них — наши коллеги-яндексоиды.

На фото те, кто собирают для вас самое интересное, vs очередь, которую им пришлось преодолеть ради этого.

#YaNeurIPS25

ML Underhood
1 304 просмотров · 31 реакций Открыть в Telegram · Открыть пост на сайте
В Мехико жара — и это мы сейчас не о погоде, а о NeurIPS

Продолжаем рассказывать о том, что происходит на полях конференции. Руководитель группы AI-планирования робота доставки Дмитрий Быков посетил любопытный воркшоп NORA: The First Workshop on Knowledge Graphs & Agentic Systems Interplay и поделился впечатлениями.

Авторы пытались решить проблему того, что способ запоминания знаний в языковых моделях через веса далеко не самый эффективный и создаёт много галлюцинаций. И даже поиск через интернет не спасает от артефактов — особенно на сложных запросах. Например, была проблема с вопросом обо всех женщинах Нобелевских лауреатах.

Разработали конкретные онтологии и способ извлечения знаний из них (graph ql и поиск по близости эмбеддингов). В целом, для конкретных даже сложных примеров это достаточно хорошо работало.

При этом проблема получения онтологий не из структурированных данных остаётся акутальной. Авторы возлагают большие надежды на обработку с помощью LLM, но пока так не делают.

Ещё решил послушать второй доклад по схожей теме. Тут в основном всё было сосредоточено на арабском языке.

Рассказали, как собирали онтологию — по сути, обучили BERT на ner и entity linking. Имели порядка 50 возможных отношений между объектами, часть из которых могла быть достаточно похожей. В итоге так заполнили онтологию, докинули в промпт ChatGPT значения и получили прирост по метрикам.


#YaNeurIPS25

ML Underhood
2 440 просмотров · 18 реакций Открыть в Telegram · Открыть пост на сайте
Всего 38 часов лёту — и мы на NeurIPS в Мехико!

В этом году конференция проходит сразу в двух странах: США и Мексике. Мы будем вести репортажи из обеих, а начём с Мехико, где уже подошёл к концу первый день. Примечательное собрал Дмитрий Быков, руководитель группы AI-планирования робота доставки.

Лететь в Мексику через Китай оказалось очень необычным опытом :) Маршрут проходит через Аляску, и зимой это невероятно красиво: почти всю дорогу из окна был необычный вид на солнце (картинка 1). В отличие от заката, здесь видна другая часть спектра. Кажется, подобное можно увидеть разве что на Северном полюсе или вот так — из самолёта.

В первый день мы посетили большой воркшоп NeurIPS 2025 Workshop on Embodied and Safe-Assured Robotic Systems. Расскажу о том, что запомнилось с него и в целом.

Toward Efficient and Reliable VLMs
for Real-World Autonomous Systems

Работа на тему улучшения VLM. Изначальная идея авторов была максимально простой: часто для получения нужной информации используют несколько разных энкодеров и затем их фьюзят.

В модели LEO исследователи как раз отказались от фьюзинга и получили SOTA по метрикам — но столкнулись с очень долгим инференсом. Ну а в LEO-mini они попытались разобраться, в чём именно проблема фьюза. Оказалось, что если добавить текстовый запрос, модель может понимать, какая информация из каких энкодеров нужна для конкретной задачи.

Однако моделей становилось много, и в работе над Hawaii авторы решили пойти дальше: с помощью CLIP дистиллировали выходы всех энкодеров в один CLIP-энкодер. В результате получилась одна модель с одним энкодером.

Systematizing the Unusual: A Taxonomy-Driven Dataset for Vision–Language Model Reasoning About Edge Cases in Traffic

Рассказ об эдж-кейсах в автономном вождении — причём самых разных типов и причин.

Кейсы авторы собирали вручную из интернета, и на их основе построили онтологию дорожных опасностей и ожидания корректного поведения модели.

Забавно, что было сделано сравнение с GPT-5: в целом видно, что есть прогресс, но при этом текущие метрики проседают. Например, в кейсе с дорогой и коровой (картинка 2) GPT-5 не видит корову, даже если напрямую спросить о ней (при этом на кропе корову распознаёт).

Diversity-Guided Genetic Algorithm for Safety-Critical Scenario Generation in Autonomous Driving Testing

А вот это уже совсем необычная вещь — вызывающая у меня сомнения, но всё же любопытная.

Исследователи решили генерировать сложные сценарии с помощью генетических алгоритмов. У них был набор признаков, и они прямо генетическим алгоритмом смешивали эти признаки, «максимизируя разнообразие».

Имхо: о настоящем разнообразии здесь речи идти не может — потому что разнообразие в таких задачах — это редкие, неожиданные случаи, а не механическая генерация «разнообразных» сцен по шаблону.


Больше о том, что было интересного на тему безопасности и масштабируемости автономного транспорта, написали в канале @DriverNotFound.

#YaNeurIPS25

ML Underhood
1 216 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте