ML Underhood

Долгое бодрствование агентов — как мы построили платформу Agent Transport System для Алисы AI

2026-04-10T11:21:26+00:00

Долгое бодрствование агентов — как мы построили платформу Agent Transport System для Алисы AI

Агент «Исследовать», о котором мы писали ранее, должен быть устойчивым к непредвиденным ситуациям. Собственно, исследование — процесс комплексный, требующий проанализировать несколько источников, вызвать разные инструменты и запустить модели. Если где-то что-то упадёт, то всё придется начинать сначала. Чтобы этого не происходило, в Яндексе использовали платформу Agent Transport System (ATS). О ней на Хабре рассказал Алексей Логинов, ведущий разработчик в команде, которая отвечает за инфраструктуру Алисы AI. Кратко выделим главное.

Сперва агентский режим ассистента реализовали на OpenAI Agents SDK. Это работало, но стейты выполнения хранились локально, а при любых сбоях приходилось начинать всё заново. Нужно было найти такое решение, которое позволяло бы продолжать работу именно из состояния до падения. Кроме того, хорошо бы иметь под капотом распределённое выполнение, чтобы агенты и тулы взаимодействовали друг с другом, находясь на разных хостах.

Для построения отказоустойчивых систем хорошо подходит фреймворк Temporal. Он оперирует двумя типами сущностей: workflow (объект с состоянием, который описывает последовательность шагов) и activity (функции, которые вызываются из workflow). Фреймворк фиксирурет решения, принятые workflow, и результаты завершённых activity. В случае падения Temporal восстанавливает выполнение, не вызывая уже сделанные activity.

Однако Temporal не умеет в стриминг, а агенту было бы хорошо выдавать ответы пользователю по мере их получения. К тому же агенты, написанные на Temporal, привязываются к Temporal SDK, что может быть не слишком удобно в случае «переезда» в будущем.

Поэтому Temporal взяли как основу для надёжности, а уже на фреймворке построили центральный сервер платформы — ATS, чьи протоколы и реализуют агенты. ATS также берёт на себя, например, оркестрацию и транспортировку данных и событий между агентами, тулами и моделями на разных хостах. В итоге схема работы выглядит так:

1. Клиент отправляет запрос в ATS.
2. ATS делает запрос в Temporal на запуск workflow. Temporal запускает workflow.
3. Workflow делает запрос в Temporal на запуск activity корневого агента. Temporal запускает activity корневого агента.
4. Activity корневого агента поднимает двунаправленный gRPC-стрим к сервису агента.
5. Если агенту нужно вызвать модель / инструмент / дочернего агента — он просит ATS, ATS сообщает workflow о необходимости запустить activity (signal/update).
6. Workflow запускает соответствующую activity.
7. Activity поднимает двунаправленный gRPC-стрим к сервису.
8. Все activity одного workflow общаются между собой через in-memory-очереди от дочернего activity к родительскому — так чанки данных передаются в реальном времени.
9. Корневой агент пишет свои чанки во внешний стриминговый сервис — пользователь видит ответ по мере выполнения.
10. Завершённые activity возвращают результаты workflow — Temporal сохраняет их.

В случае сбоя ATS начинает взаимодействовать с агентом заново. Когда агент просит вызвать инструмент, модель или дочернего агента, ATS проверяет, есть ли в хранилище какой-то результат работы по этому запросу с прошлого раза. Если да, то агент получает результат и шаг за шагом «перематывается вперёд» до состояния, в котором он был до сбоя, без повторных вызовов тяжёлых LLM и инструментов.

А подробнее о том, как всё устроено, читайте на Хабре.

ML Underhood

На прошлой неделе мы запустили агент «Исследовать» в Алисе AI, а сегодня делимся техническими деталями

2026-04-07T09:56:35+00:00

На прошлой неделе мы запустили агент «Исследовать» в Алисе AI, а сегодня делимся техническими деталями

Это DeepResearch-агент, который может проанализировать большой объём данных и выдать полноценный разбор темы. За три месяца тестирования «Исследовать» использовали более 280 тысяч раз. Техлид агента Прохор Гладких рассказал о нём подробнее.

А работа началась год назад — в апреле 2025-го. Первая версия представляла собой классический пайплайн: поиск и генерация. Однако запросы в поиск генерировали с помощью тяжёлой модели и сразу несколько, а ответы получали с помощью ризонера. Так в Алисе появился режим «рассуждать + поиск».

Первый прототип непосредственно агента «Исследовать» был аналогом CodeAgent, собранным из smolagents. Такой подход позволил добиться неплохих результатов на SimpleQA и Frames.

Вторая итерация агента уже была полностью реализована на классическом function calling.

DeepResearch — и у нас, и у конкурентов — сильно нагружающий GPU продукт. Здесь очень важна оптимизация потребления ресурсов видеокарт, так как на один запрос пользователя агент делает сотни вызовов моделей. Крайне важно попадать в KV-cache, и чтобы его объёма хватало на все параллельные исследования в поде.

Чтобы этого достичь, мы сделали систему, которая отправляет все запросы в рамках одного исследования на один под, а также провели около 30 экспериментов по подбору параметров LLM-движка. В итоге достигли оптимизации в десятки раз, что позволило раскатить агента на всех пользователей.

Удалось побить метрики CodeAgent и полностью отказаться от написания кода для вызова тулов. Всего в «Исследовать» 13 подагентов и 9 тулов, среди которых, например, CodeSandbox для запуска сгенерированного агентом кода.

Я был сильно удивлён, что агент отлично справляется не только с научными запросами, но и с подбором товаров в маркетплейсах по моим сложным критериям. Особенно порадовало, что он вычитывает отзывы пользователей и анализирует их за меня. Почти все покупки я сейчас делаю с помощью агента «Исследовать» для выбора и агента «Найти дешевле» для поиска лучшего предложения. Это снимает с меня когнитивную нагрузку по выбору бренда, отсмотру отзывов и так далее.

Попробовать агент «Исследовать» можно на сайте alice.yandex.ru, в приложениях Алиса AI, Яндекс с Алисой AI и в Яндекс Браузере.

ML Underhood

Как ML помогает бороться с борщевиком

2026-04-03T12:21:36+00:00

Как ML помогает бороться с борщевиком

ML-разработчики Школы анализа данных вместе с экспертами Центра технологий для общества Яндекса и движением «СтопБорщевик» запустили ИИ‑инструмент для борьбы с борщевиком. Подробно о технологии читайте на Хабре, а здесь мы кратко расскажем о главном.

Борщевик Сосновского — растение крайне живучее и плодовитое, способное быстро занимать большие территории. Очаги распространения борщевика фиксируют с воздуха — их хорошо видно во время цветения, — а затем картографируют. Это помогает находить новые области заражения и следить за ликвидацией.

Однако обводить борщевик на снимках вручную — процесс дорогой и долгий. А вот модель справится с этим в 50 раз быстрее.

Для обучения использовали 55 спутниковых снимков, что дало датасет в 10 тысяч изображений. Разметка проходила в два этапа: на первом выделяли по контуру области с борщевиком, а на втором — считали вегетативный индекс и подбирали для него порог: если значение было выше, область закрашивалась, если ниже — нет.

Данных было немного, поэтому вместо тяжёлых сегментационных сетей вроде U-Net использовали табличный ML: извлекли признаки из изображений и обучили градиентный бустинг. В итоге модель решает простую задачу — есть на участке борщевик или нет.

Итоговый подход получает на вход GeoTIFF-файл — растровое изображение с геоданными — и нормализует его, чтобы избавиться от бликов, глубоких теней и артефактов. Потом изображение разбивается на тайлы 256 × 256 пикселей и из каждого тайла извлекаются признаки, по которым модель определяет, есть ли перед ней борщевик. А далее идёт векторизация, итогом которой становится вычисление площади полигона, захваченного растением. Всё это передаётся на вход работы CatBoost-а.

С помощью модели уже удалось выявить очаги заражения площадью 421 гектар в 17 регионах европейской части России. Москву и область проанализировали полностью, а к лету планируют задействовать сервис для мониторинга 100 тысяч квадратных километров в Тверской и Ярославской областях.

Напоминаем, что узнать все тонкости работы технологии вы можете на Хабре. А если тоже хотите работать над подобными полезными проектами, то можно подать заявку в Школу анализа данных Яндекса. Набор на обучение открыт до 3 мая.

ML Underhood

Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence Under Controlled Prompt Structure

2026-03-30T10:33:39+00:00

Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence Under Controlled Prompt Structure

Мы уже писали тут и тут о работах Yandex Research, принятых на ICLR 2026. Но это ещё не всё. На воркшоп ICBINB в рамках ICLR 2026 также приняли статью Вилианы Девбуновой, разработчика из службы технологий голосового ввода. Вилиана рассказала, как нашим исследователям удалось поставить под сомнение и критически переосмыслить устоявшееся представление о evaluation awareness в больших языковых моделях.

В некоторых работах, вышедших в последнее время, авторы заявляли о наличии evaluation awareness в LLM — будто бы большие языковые модели понимают, что их оценивают.

Есть момент, что эти выводы в основном строятся на экспериментах с пробниками (linear probes), когда берут внутренние представления модели и учат простой классификатор различать evaluation- и deployment-запросы. И он действительно хорошо справляется. Из этого делают вывод, что внутри модели есть сигнал «меня сейчас тестируют».

Но проблема в том, что сами данные устроены не очень честно. Тестовые запросы почти всегда выглядят одинаково: чёткая структура, multiple-choice, формализованные задачи. А обычные пользовательские запросы, наоборот, пишутся разговорным языком и в свободной форме.

Исходя из этого, мы в своей работе выдвигаем гипотезу, что на самом деле модель не понимает, что её оценивают — она просто узнаёт знакомый шаблон. Чтобы проверить это, мы аккуратно разделяем три вещи:

- контекст (это тест или обычное использование),
- формат (формат бенчмарка или свободный текст),
- стиль или жанр (строгий или разговорный).

Чтобы проверить, на что именно реагирует пробник, мы собрали контролируемые датасеты 2х2 сеткой, в которых формат и контекст варьируются независимо друг от друга. Берём настоящие бенчмарки и обычные пользовательские запросы — это ось контекста. А по оси формата переписываем их: пользовательские запросы оформляем как тест с вариантами ответов, а бенчмарки, наоборот, находим в свободной разговорной форме. Получаются четыре комбинации: бенчмарк в родном формате, бенчмарк в свободной форме, пользовательский запрос в формате теста и пользовательский запрос как есть. Это позволяет понять, что ловит пробник — реальный контекст оценки или просто внешнюю структуру промпта.

Если обучить стандартный «пробник», как было в предыдущих работах, он начинает массово ошибаться. Например, обычные пользовательские запросы, оформленные как тест, почти всегда считаются как evaluation. То есть он реагирует не на смысл, а на форму.

При этом, если поменять только стиль, сделав его более академическим, ничего не меняется. Отсюда напрашивается вывод, что дело именно в жёсткой структуре вроде multiple-choice или полей Question: Answer:.

Мы также обнаружили интересный момент. Если специально обучить пробник на данных, где формат и контекст больше не скоррелированы, он начинает нормально различать именно контекст. Это может значить, что внутри модели действительно есть информация про evaluation и deployment, но стандартные методы не умеют её правильно извлекать и выбирают формат как более простой сигнал.

Итого главный вывод работы в том, что evaluation awareness, может быть в значительной степени просто чувствительностью к формату. При этом мы не опровергаем само существование evaluation awareness, но говорим, что существующие доказательства пока неубедительны.

До ICLR осталось совсем немного времени. Ну а мы, как всегда, будем в по горячим следам рассказывать о самых интересных работах и событиях конференции.

#YaICLR26

ML Underhood

На днях команда Openpilot 0.11 анонсировала запуск первого робо-агента для автономного транспорта, обученного только на

2026-03-23T11:42:28+00:00

На днях команда Openpilot 0.11 анонсировала запуск первого робо-агента для автономного транспорта, обученного только на симуляциях.

О потенциальных плюсах, минусах и вопросах к подходу в канале об ML в автономном транспорте рассказывает наш коллега Кирилл Федянин.

Openpilot 0.11 — первый робо-агент, обученный только на симуляциях

2026-03-23T11:42:28+00:00

Openpilot 0.11 — первый робо-агент, обученный только на симуляциях

Команда Comma.ai опубликовала интересный пост, где утверждает, что впервые в истории индустрии выпустила на дороги робо-агент, полностью обученный в вымышленной нейросетями симуляции.

Немного контекста: в Comma.ai разрабатывают систему помощи водителю, совместимую со многими моделями автомобилей. Система работает на втором уровне автономности — умный лейн-кипинг в широком спектре сценариев. Эта задача гораздо проще, чем полностью автономное вождение, что позволяет Comma.ai экспериментировать.

В то время как Waymo и британская команда Wayve интегрируют модели мира в свои пайплайны, Comma.ai идёт ещё дальше и отказывается от всего, кроме модели мира. Похожую идею предлагали учёные из Беркли в классической для робототехники статье DayDreamer — интересно, что этот подход удалось адаптировать для автономного вождения.

Вот что предлагают создатели Openpilot 0.11:

Шаг 1. Собрать 40 тысяч часов интересных видео, записанных флотом автономного транспорта и разбить их на сцены по 10 секунд с частотой 5 Гц.

Шаг 2. Обучить на этом датасете двухголовую модель мира:

🔴 первая голова предсказывает по видеоконтексту следующее действие эго-агента,
🔴 вторая — генерирует следующий кадр по видеоконтексту и только что полученному следующему действию.

Потом к контексту добавляется сгенерированный кадр, и процесс повторяется.

Секретный ингредиент — подавать на вход модели не только две секунды истории, но и последнюю секунду в эпизоде. Так ей понадобится предсказывать только промежуточную траекторию — это значительно улучшает сходимость. В итоге получается достаточно реалистичный симулятор вождения, который генерирует следующий кадр по двум секундам видео и действию эго.

Шаг 3. Обучить в полученном симуляторе небольшую модель-водителя, которая должна сходиться в финальное состояние по одному лишь видео, не видя последний кадр. Щедро насыпать шум на всех стадиях для устойчивости.

Openpilot 0.11 обучали on-policy — модель много едет по сгенерированной ей самой траектории, что выгодно отличает подход от обычного imitation learning.

При этом награды или штрафы не задавались явно — по опыту reinforcement learning, конструирование наград иногда всё только портит. Авторы усвоили горький урок: для того чтобы всё сошлось, достаточно увеличить количество данных и размер модели.

Единственная проблема, которая остаётся, — модель-водитель может научиться ломать симуляцию непредсказуемыми способами. Авторы утверждают, что это решается за счёт гипотезы большого мира: одновременно увеличивать и модель мира, и размеры водителя так, чтобы мир всегда был на порядок больше.

В парадигме Level 2 получается хороший результат — агент держит линию и расстояние до других, объезжает запаркованные авто. Но вопрос, будет ли это скейлиться на более сложные задачи, остаётся открытым.

Разбор подготовил ❣️ Кирилл Федянин
404 driver not found

Как выжать максимум из decoder attention на GPU

2026-03-11T07:57:50+00:00

Как выжать максимум из decoder attention на GPU

Генерация токенов в LLM часто упирается не в слабое железо, а в то, что вычисления организованы неоптимально. Андрей Шукшов (Яндекс R&D) рассказал на Хабре, почему так происходит, и показал способ насытить память GPU в режиме декодирования.

GPU и CPU: throughput vs latency

CPU оптимизированы для задач с низкой задержкой и сложной логикой. GPU делают ставку на параллелизм: тысячи более простых ядер выполняют одинаковые операции одновременно. Задержка DRAM скрывается за счёт большого числа потоков и высокой пропускной способности памяти. Это выглядит идеальным для LLM, в которых нужно одновременно выполнять триллионы однотипных операций. Главное тут — постоянно держать видеокарту полностью загруженной.

Как работает параллелизм на GPU

Казалось бы, CUDA даёт удобную модель с множеством независимых потоков, но на практике GPU работает варпами по 32 потока с одной инструкцией на всех. При расхождении веток варп последовательно исполняет обе, из-за чего часть потоков простаивает и теряется производительность.

SM внутри GPU

Streaming Multiprocessor (SM) — основная рабочая единица GPU. На видеокарте их больше сотни, и между ними распределяется вся работа. Внутри SM находятся CUDA Cores, Tensor Cores и быстрая Shared Memory. Чтобы всё работало, нужно давать достаточно параллельных задач и активно использовать быструю память, иначе SM будут простаивать или упираться в доступ к DRAM.

Декодер — худший сценарий для GPU

В режиме генерации модель выдаёт текст слово за словом. Каждый новый токен — это один вектор, который нужно умножить на весь накопленный KV-кэш предыдущих токенов. То, что в обучении выглядит как плотное умножение матрицы на матрицу (GEMM), в декодере превращается в умножение вектора на матрицу (GEMV). А это уже memory-bound-сценарий: вычислений мало, чтения из памяти много.

Аттеншн при этом состоит из трёх последовательных шагов:

1) Q @ Kᵀ;
2) Softmax;
3) умножение на V.

Если выполнять их как три отдельных кернела, результаты каждый раз записываются в глобальную память и снова читаются обратно. Для memory-bound-задачи это критично: мы трижды гоняем данные через DRAM и теряем пропускную способность.

Всё из-за софтмакса

Кажется логичным объединить всё в один кернел и не писать промежуточные результаты в память. Но софтмакс требует редукции по всей строке, потому что для подсчёта знаменателя, нужно увидеть все элементы. Это плохо сочетается с тайлингом, который используется для GEMM на уровне SM. Получается, софтмакс мешает в лоб зафьюзить все три операции.

Online Softmax и fused kernel

Решение — Online Softmax, с которым софтмакс можно считать итеративно. Данные обрабатываются частями, и софтмакс встраивается внутрь одного fused kernel`а.

Теперь тайлы K и V загружаются из DRAM в Shared Memory, внутри SM считается часть Q @ Kᵀ, на лету обновляется Online Softmax и сразу же домножается на V. Всё происходит в одном кернеле, без лишних обращений к глобальной памяти. Вместо трёх поездок «на склад» достаточно одной.

Результаты

Fused kernel даёт ускорение минимум в 1,5 раза по сравнению с тремя стандартными вызовами.

Главная метрика для memory-bound задач — утилизация пропускной способности памяти. В эксперименте она доходит до 85–91% от теоретического пика. Это значит, что алгоритм практически полностью насыщает шину памяти и упирается в физический предел железа.

Полное описание эксперимента, разбор архитектуры SM с деталями и замерами, а также выводы от автора — в хабростатье.

ML Underhood

Выкатили тестирование нового ИИ-агента для Android

2026-03-06T09:03:59+00:00

Выкатили тестирование нового ИИ-агента для Android

Возможно, вы уже видели новости об этом в телеграм-каналах — подтверждаем: начались тесты нового ИИ-агента Яндекса. Он умеет выполнять многошаговые действия на смартфоне с Android по голосовой команде.

Например, агент может отправлять сообщения в мессенджерах без ручного ввода, находить информацию на устройстве, устанавливать приложения и переводить текст с экрана на разные языки. Для выполнения задачи достаточно голосовой команды, например: «Напиши Саше в Телеграме, что нужно купить молоко» или «Найди в Google Play приложение Яндекс Переводчик и установи его».

Алексей Цветков, руководитель службы продуктовой разработки R&D, рассказал подробнее, как агент выполняет задачу пользователя.

Пользователь задаёт запрос, скажем: «Найди товар на Яндекс Маркете и положи в корзину».

LLM переводит просьбу пользователя в цепочку атомарных действий на телефоне:

- получи список приложений;
- найди Яндекс Маркет;
- открой Яндекс Маркет;
- и так далее, пока задача не будет решена.

Агент построен на базе Android Assistant API и для принятия решения использует текстовое описание интерфейса — такое же API используют приложения для слабовидящих.

На стороне Android-клиента реализован MCP-интерфейс, который позволяет девайсу от имени пользователя выполнять простейшие команды: кликни сюда, свайпни здесь и так далее.

Задача модели — конвертировать сложносоставную команду в цепочку взаимосвязанных атомарных команд, опираясь на промежуточное состояние интерфейса.

Надеемся, что широкий тест поможет найти то, о чём мы ещё не догадались подумать, и быстрее превратить прототип в понятный и полезный продукт.

Записаться на тестирование можно в бета-версии поискового приложения «Яндекс — с Алисой AI» или через форму.

ML Underhood

ML-ранжирование маршрутов в Яндекс Картах

2026-02-25T10:00:49+00:00

ML-ранжирование маршрутов в Яндекс Картах

С недавних пор ранжированием маршрутов на Картах занимается ML‑модель, обученная на реальном поведении пользователей. Она учитывает не только время в пути, но и то, по каким маршрутам водители доезжают до конца, не сходя с дистанции.

Как именно модель понимает, какой маршрут предлагать пользователям первым, подробно рассказал на Хабре Илья Хохлов, руководитель службы разработки сервисов маршрутизации. А мы собрали интересные тезисы из статьи.

Почему важен порядок показа маршрутов

Порядок показа во многом определяет дальнейшее поведение пользователя. Чаще всего человек просто нажимает «Поехали» — и едет по первому предложенному пути.

Долгое время этот порядок формировался сортировкой по ETA (Estimated time of arrival), из‑за чего удобные и предсказуемые маршруты (которые пользователи чаще выбирают интуитивно) не оказывались на первом месте, а иногда вовсе выпадали из топ-3.

Обучение на выборах пользователей

Сначала команда пыталась обучать ранжирование на кейсах, когда пользователь осознанно выбирал не первый маршрут. Но таких случаев было слишком мало — на практике чаще выбирают именно первый маршрут, а уже позже отклоняются от него. Обучить ML‑модель ранжирования на этом количестве данных не получилось.

Таргет для обучения модели — реальное поведение

Тогда попробовали учитывать то, насколько реальный трек поездки совпадает с первым маршрутом. Это стало таргетом для обучения ML‑модели ранжирования: чем выше совпадение, тем более удачным считается маршрут.

Как правило, более простой маршрут имеет меньше сходов, даже если поездка по нему чуть дольше. С другой стороны, маршрут может формально выигрывать по времени, но, скажем, включать сложный манёвр. И без хорошего знания местности можно пропустить нужный поворот.

Эффект от нового подхода хорошо был заметен на маршрутах через центр города — с более сложной дорожной обстановкой. Их доля снизилась в выдаче на 3%. Также стало меньше маршрутов, проходящих через зоны с проблемным GPS.

Выбор функции потерь

Сначала попробовали применить функцию YetiRank, которая оптимизирует позиции самых релевантных объектов. На старте был заметный эффект, но подход не учитывал, что при выборе одного маршрута остальные перестают существовать для пользователя — он не строит рейтинг маршрутов.

Поэтому от классического ранжирования перешли к задаче выбора, используя функцию потерь на основе Softmax с one‑hot‑таргетом.

Для каждой поездки модель получает набор альтернативных маршрутов и учится распределять между ними вероятности выбора. One‑hot‑таргет указывает, какой маршрут в итоге выбрали, а Softmax позволяет напрямую оптимизировать вероятность этого выбора относительно остальных вариантов. В результате модель учится не просто упорядочивать маршруты, а предсказывать, какой из них с наибольшей вероятностью будет выбран в реальной поездке.

Что показал AB-эксперимент

— Число сходов снизилось в среднем на 2,19%;
— Доля хороших поездок без сходов с маршрута выросла на 2,16%;
— Базовое поведение пользователей при этом не изменилось: около 92% поездок по-прежнему начинаются с первого предложенного маршрута;
— Эффект зависит от региона, и там, где явные проблемы с GPS, он выражен сильнее — например, в Северной Осетии доля хороших поездок выросла на 8%;
— В ряде регионов уменьшаются сходы с выигрышем по времени — например, в Узбекистане — на 8,5%, в Казахстане — на 6,6%.

Новые предложенные маршруты — уже в Картах и Навигаторе, а детали и примеры — в полной хабростатье.

ML Underhood

Статьи Yandex Research на грядущей ICLR — 2/2

2026-02-19T11:07:14+00:00

Статьи Yandex Research на грядущей ICLR — 2/2

Статьи такие подробные и крутые, что просто рассказать о них всех в одном посте невозможно. Вот продолжение — ещё три работы.

SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration

Статья Дмитрия Ковалева посвящена унифицированному теоретическому анализу стохастического градиентного метода с адаптивным предобуславливанием в предположении матричной гладкости и шума, включающий популярные алгоритмы оптимизации, такие как AdaGrad-Norm, AdaGrad и Shampoo. Также автор разработал анализ ускоренного по Нестерову варианта метода, который позволяет получить теоретическое обоснование эффективности алгоритма Adam.

Revisiting Global Text Conditioning in Diffusion Transformers

Диффузионные трансформеры обычно используют текст двумя способами: через аттеншн и через модуляцию с pooled-эмбеддингом. В последние годы второй вариант часто убирают, оставляя только первый. Авторы показывают, что в стандартном виде pooled-эмбеддинг почти не влияет на качество — аттеншна обычно достаточно.

Однако если использовать pooled-эмбеддинг иначе, как guidance для управляемого смещения генерации к нужным свойствам, он даёт заметный прирост. Подход простой, не требует обучения, почти не добавляет времени и работает для разных моделей, улучшая результаты в text-to-image/video и image editing. В авторах статьи — Никита Стародубцев, Илья Дробышевский и Дмитрий Баранчук, а также исследователи из Adobe Research.

Sign-SGD is the Golden Gate between Multi-Node to SingleNode Learning: Significant Boost via Parameter-Free Optimization

Совместная работа Филиппа Змушко и Егора Петрова из Yandex Research с коллегами из BRAIn Lab. Претрейн больших моделей — крайне трудоёмкая задача, особенно в части подбора гиперпараметров. На практике шаг обучения часто выбирают эвристически через перебор, так как теоретически оптимальные значения требуют знания глобальных констант целевой функции (гладкости, липшицевости и тд), которые часто невозможно вычислить в реальных прикладных задач.

Авторы работы предложили новый parameter-free метод оптимизации, основанный на Sign-SGD. Решение (в частности алгоритм ALIAS) позволяет автоматически адаптировать шаг обучения в процессе оптимизации. Подход демонстрирует отличные практические результаты, сравнимые с тщательно настроенными SOTA методами, при этом избавляя от необходимости дорогостоящего перебора гиперпараметров.

#YaICLR26

ML Underhood

Статьи Yandex Research на грядущей ICLR — 1/2

2026-02-19T11:07:13+00:00

Статьи Yandex Research на грядущей ICLR — 1/2

Интересный факт: в фильме «Бразилия» не очень-то много о Бразилии. Зато о ней будет в нашем канале, когда мы возьмёмся освещать конференцию ICLR 2026. Она пройдёт уже в апреле в Рио-де-Жанейро. Туда отправляются исследователи Yandex Research — и не с пустыми руками, а с целой пачкой в шесть статей. Сперва расскажем о первых трёх.

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Авторы статьи — Денис Кузнеделев из Yandex Research и коллеги из ISTA, Red Hat AI и ETH Zürich. Они детально изучили представленные компанией NVIDIA форматы хранения весов и активаций (MXFP4, NVFP4) для квантования после обучения, чтобы понять, насколько заявленные преимущества соответствуют реальной производительности.
Анализ показал, что современные методы сталкиваются с трудностями при работе с FP4. Причины:

— привычные способы борьбы с выбросами (нетипичными значениями) не работают;
— при квантовании MXFP4 возникает ошибка.

В работе предложена улучшенная версия алгоритма квантования GPTQ. Она учитывает особенности FP4 и заметно повышает точность по сравнению с предыдущими методами. Кроме того, разработаны быстрые ядра для инференса.

Scale-wise Distillation of Diffusion Models

А это статья уже полностью от Yandex Research — Никиты Стародубцева, Дениса Кузнеделева, Артёма Бабенко и Дмитрия Баранчука. Авторы предлагают новый подход к помасштабной дистилляции диффузионных моделей — дообучать генерации изображений прогрессивно, от низкого разрешения к высокому. Это позволяет добиться более высокого качества, чем во время генерации с фиксированным разрешением при том же вычислительном бюджете.

Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization

Авторы статьи — Екатерина Бородич и Дмитрий Ковалев из Yandex Research — разработали ускоренный по Нестерову и не требующий подбора гиперпараметров градиентный метод, который автоматически адаптирует размер шага к локальной кривизне целевой функции с линейной (геометрической) скоростью. Эффективность алгоритма подтвердили, доказав, что он даёт оптимальную скорость сходимости для выпуклых задач оптимизации в условиях обобщенной гладкости.

#YaICLR26

ML Underhood

Back to EMNLP: мировые тренды в области оценки качества перевода

2026-02-03T14:03:07+00:00

Back to EMNLP: мировые тренды в области оценки качества перевода

Мы уже кратко писали о статьях исследователей Яндекса, которые в 2025 году представили на конференции Empirical Methods in Natural Language Processing. Сегодня на Хабре вышел пост, в котором руководитель команды аналитики перевода в Яндексе Катя Еникеева рассказала об этих работах более детально, а ещё поделилась новыми подходами в оценке качества перевода.

Зовём читать полную статью и делимся интересными трендами, замеченными Катей на конференции.

1. Новые мультиязычные бенчмарки: BOUQuET

Одним из заметных стендов был BOUQuET — новый мультиязычный бенчмарк от FAIR. Вместо готовых англоязычных текстов авторы попросили носителей восьми языков придумать собственные примеры из разных жизненных ситуаций, покрывающие определённые лингвистические явления. На каждый язык пришлось по 250 примеров, а всего их в наборе — 2 тысячи. Датасет сделали открытым и развивающимся: вместе с гайдлайнами он выложен на платформу, где можно постепенно добавлять переводы на новые языки.

2. Датасеты для малоресурсных языков: SMOL

Ещё один крупный мультиязычный датасет — SMOL от Google Research/DeepMind и нескольких университетов. В отличие от BOUQuET, это обучающий корпус для малоресурсных языков. Авторы показали, что дообучение Gemini 2.0 Flash на этом корпусе даёт особенно большие приросты именно на малоресурсных направлениях.

3. Word-level Quality Estimation и помощь переводчикам

Несколько работ были посвящены оценке качества перевода на уровне слов и тому, как такие методы влияют на постредактирование. Например, QE4PE исследует способы подсветить потенциальные фрагменты для исправлений и влияние «подсветки» на скорость и качество работы переводчиков. В целом качество растёт благодаря редактуре, а сами способы подсветки существенной разницы не дают.

4. Unsupervised QE и uncertainty-метрики

Работа Unsupervised Word-level Quality Estimation Through the Lens of Annotators’ (Dis)agreement рассматривает оценку качества перевода на уровне токенов без обучения на человеческой разметке. Авторы попробовали использовать разные варианты uncertainty: surprisal, entropy и KL-дивергенции на промежуточных слоях. Выяснилось, что unsupervised-методы работают лишь немного хуже supervised-подходов, а перекрывающаяся человеческая разметка даёт более стабильное ранжирование автоматических метрик по качеству.

5. Проверка лингвистического рассуждения LLM

Отдельный сюжет — попытка оценить, насколько LLM способны к настоящему лингвистическому рассуждению. В работе LingGym авторы предлагают бенчмарк для проверки, умеют ли модели восстанавливать пропущенную информацию в описании малоресурсных языков. Результаты оказались довольно суровыми: chain-of-thought почти не даёт прироста, и для таких задач нужны более специализированные механизмы.

6. MT literacy и доверчивость пользователей

Работа Toward Machine Translation Literacy исследует, как пользователи с разным уровнем владения языком воспринимают ошибки перевода. Люди, не знающие исходного языка, часто пропускают даже очевидные сбои и оказываются слишком доверчивы к машинному переводу. Авторы делают вывод, что таким пользователям нужны дополнительные интерфейсные подсказки и развитие MT literacy.

ML Underhood

Назад в 2016: ты помнишь, как всё начиналось…

2026-01-27T15:14:25+00:00

Назад в 2016: ты помнишь, как всё начиналось…

Судя по соцсетям, 2016-й был золотым годом. ML активно набирал обороты: TensorFlow в опенсорсе, Jupyter-ноутбуки, scikit-learn и матч AlphaGo — Ли Седоль (свело олдскулы?). Присоединяемся к тренду и вспоминаем ML-проекты Яндекса десятилетней выдержки.

Поисковый алгоритм «Палех»

Раньше поисковые системы работали по большей части как инвертированный индекс: запрос сопоставлялся со страницами, где встречались те же слова. Со временем в поиск начали добавлять клики, поведение пользователей и ссылочные факторы — всё это объединили в алгоритме ранжирования MatrixNet. А «Палех» стал следующим шагом: в поиске использовали нейросеть на базе DSSM, чтобы учитывать смысл запроса, а не только совпадение слов. Подробнее о том, как всё работало, можно почитать на Хабре.

Перевод текста с изображения в Переводчике

Яндекс Переводчик научился распознавать текст прямо на картинках. Можно было загрузить изображение — комикс, график с подписями или скан документа — и сразу получить перевод. Функция работала даже в неидеальных условиях: если текст был под углом, растянут или снят «на бегу». Распознавание поддерживало 12 языков, а перевод — любой из 74 языков, доступных на тот момент. В основе лежали технологии компьютерного зрения Яндекса — те же, что использовались в поиске похожих картинок и определении марки автомобиля по фото. А о том, как в Яндексе в 2016 году решали задачу машинного перевода для редких языков, — тут.

Первая нейросеть для прогноза осадков с точностью до минут

В Яндекс Погоду добавили нейросетевой «наукастинг» осадков — краткосрочный прогноз дождя и снега с высокой точностью. Модель использовала данные метеорадаров и свёрточные нейросети, чтобы предсказывать движение осадков на ближайшие пару часов с детализацией до отдельных районов. На коротких интервалах подход оказался точнее классических методов и улучшил прогноз «здесь и сейчас». О том, как далеко шагнуло прогнозирование погоды с помощью нейросетей в 2026-м — писали здесь, а вспомнить, что было в 2016-м, можно тут.

Определение фишинга в Браузере с помощью ML

Традиционная защита браузеров от фишинга была основана на чёрных списках опасных сайтов. Но с автоматизированными атаками, где фишинг-страницы появляются быстрее, чем их вносят в списки, в 2016-м она уже не справлялась.

Стали прямо на устройстве пользователя анализировать самые разные признаки страницы — от технических параметров до визуального оформления — и оценивать её подозрительность. А компьютерное зрение использовали, чтобы сравнивать внешний вид сайтов с известными сервисами — так подделки находились даже без обращения к внешним спискам. Подробнее рассказали в хабростатье.

Вот такие технологии из дохайповых времён. Делитесь в комментариях своими воспоминаниями об ML в 2016 году.

ML Underhood

Лучшие статьи 2025 года — выбор инженеров Яндекса

2026-01-20T10:30:58+00:00

Лучшие статьи 2025 года — выбор инженеров Яндекса

Мы уже обеими ногами в 2026-м, но неплохо и оглянуться назад. Тем более, что прошедший год подарил нам много отличных публикаций об ML. Каких именно? А об этом расскажут инженеры Яндекса.

CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio

Очень интересный аудиокодек, для обучения которого используется всего один лосс. Он умеет восстанавливать двухканальное аудио в 44,1 кГц как из непрерывных эмбеддингов, так и из дискретных токенов. Кодек поддерживает авторегрессивное и параллельное декодирование.

VideoGLUE: Video General Understanding Evaluation of Foundation Models

Статья от DeepMind, которую представили на ICLR-2025. Авторы собрали большой бенчмарк для разносторонней оценки качества фундаментальных видеомоделей — VideoGLUE. Весь код доступен по ссылке.

В статье предлагают эффективный и наглядный формат сравнения и показывают, что текущие фундаментальные видеомодели сильно проигрывают специализированным подходам. Это говорит о том, что сейчас анализ видео — довольно перспективное и недоработанное направление с точки зрения исследований.

SAM Audio: Segment Anything in Audio

Вся линейка SAM кажется очень изобретательной, но о сегментации звука я даже и подумать не мог. А исследователи не только подумали, но и сделали очень красиво. Так же там довольно интересно собирают данные.

Об интересных статьях рассказали ❣ Николай Глазырин, Кирилл Никоров и Стас Лебедев

ML Underhood

🎄 Самые популярные посты 2025 года в канале

2025-12-30T08:48:26+00:00

🎄 Самые популярные посты 2025 года в канале

Праздники приближаются, а это значит, что пора суммировать всё прожитое за минувшие 12 месяцев. Выбрали пять самых популярных постов в нашем канале, на случай, если вы что-то пропустили. Приглашаем и вас суммировать впечатления от контента и рассказать, какие из постов понравились вам больше других.

Как в Яндексе заменили сложную разметку на LLM

Заголовок говорит сам за себя, но тут стоит отметить, что совсем от асессоров не отказались — им перепоручили более хитрые задачи и контроль над работой LLM. Результат — 105% качества и 60% экономии денег.

От PyTorch к MONAI: опыт команды Yandex Cloud и ШАДа в медицинском AI

Нейросети на страже здоровья. В этом посте — о том, как команда ML-инженеров из Школы анализа данных и Yandex Cloud переписали проект для распознавания редкой патологии spina bifida.

Как и зачем Алису учат понимать интонации

В 2025 году в Яндекс Станциях появились интонационные споттеры в дополнение к командным. А нужны они не только для того, чтобы колонки могли отличать обращение к ним от обращения к человеку по имени Алиса, но и чтобы сэкономить пользователю время на активационной фразе.

Как ML рассаживает деревья в Яндекс Картах

Минутка прекрасного — пост о том, как на картах появляются трёхмерные деревья. Модель не только определяет, где нужно «посадить» растение, но и то, какое именно: хвойное или лиственное.

Как LLM помогают анализировать ответы в опросах

Систематизировать ответы на открытые вопросы — то есть данные в свободной форме — непросто. Исследователями, которые проводят опросы, приходится тратить на это немало времени. К счастью, на помощь можно позвать модель. Или даже несколько.

Напоследок — несколько популярных текстов о релизах Яндекса: о YandexGPT 5 и Lite Instruct, документальном переводе и Alice AI VLM dev. Всё — жуть какое интересное.

В новом году нас ждёт ещё больше крутых проектов и, соответственно, увлекательных рассказов о них. Оставайтесь на связи и с праздниками!

ML Underhood

Что нового в Нейрометеуме — нейросети глобального прогноза от Яндекс Погоды

2025-12-26T14:53:43+00:00

Что нового в Нейрометеуме — нейросети глобального прогноза от Яндекс Погоды

Новая нейросеть для глобального прогноза погоды рассчитывает 70 ключевых характеристик атмосферы на 10 суток вперёд с часовым шагом. В этом посте — немного «внутрянки» о том, что нового появилось в Нейрометеуме.

Во-первых, модель Яндекса сделали быстрой и автономной. Если численным методам нужны часы на расчёт, то эта нейросеть справляется за несколько минут. К тому же в расчёте нет зависимости от внешних данных метеорологических центров — всё рассчитывается самостоятельно, но пока что зависимость сохраняется в данных для старта.

Во-вторых, использовали инновационный подход к обучению модели. Архитектурно за основу взяли Aurora (Microsoft), а от Pangu Weather (Huawei) переняли идею обучать несколько моделей для разных временных горизонтов, а не одну. При этом смогли решить проблему несогласованности прогнозов благодаря авторегрессии в латентном пространстве. Эксперименты с гиперпараметрами (число блоков, «голов» и так далее) показали, что качество достигает насыщения. В итоге модель превзошла Aurora по числу параметров — у Нейрометеума их 1,5 млрд.

В-третьих, повысили точность прогноза осадков. В Яндекс Погоде придумали, как эффективнее работать с переменной «осадки» (zero-inflated distribution). Вот что для этого сделали:

— использовали нормировку/перемасштабирование (в основе — паттерн из MetNet от Google);
— применили специальную функцию активации;
— разработали новые функции потерь (MWAE и лосс на основе Центра Масс — CoM).

А вот и результаты:

— CSI по сильным осадкам вырос на 50% относительно бэйзлайна и более чем вдвое относительно общепринятого подхода;
— метрика bias снизилась в 10 раз и достигла уровня численных моделей;
— в сравнении с последней моделью Google (WeatherNext2) — модель показывает сопоставимое или более высокое качество прогноза осадков на ближайшие 12–18 часов.

Сейчас прогнозы Нейрометеума используют как входные данные для профильной модели осадков в Яндекс Погоде.

Подробнее о том, как устроена новая нейросеть глобального прогноза погоды, читайте на Хабре.

ML Underhood

Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)

2025-12-22T15:44:26+00:00

Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)

Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,637 (img→text: 0,886, img→markdown: 0,747, Grounding: 0,065, KIE (JSON): 0,751, VQA: 0,737). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.

Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.

В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.

Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.

Претрейн

Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.

Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.

Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.

Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.

Алайнмент

Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).

В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.

Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.

Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.

ML Underhood

NeurIPS 2025: доклады и идеи, к которым хочется вернуться

2025-12-16T13:07:46+00:00

NeurIPS 2025: доклады и идеи, к которым хочется вернуться

Конференция завершилась, но интересного на ней было так много, что мы продолжаем рассказывать о работах и докладах, заслуживающих внимания. CTO Яндекс Поиска Екатерина Серажим тоже побывала на площадке в Сан-Диего и поделилась своим заметками.

The Oak Architecture: A Vision of SuperIntelligence from Experience

На первом фото — Сан-Диего, 8 утра. Все спешат на Invited Talk Ричарда Саттона :) Доклад рекомендую: Саттон говорит, нужно не запихивать знания в агентов, а строить их такими, чтобы они масштабируемо и непрерывно изучали мир. Предлагает концепцию того, как это может быть.

WebDancer: Towards Autonomous Information Seeking Agency

У команды есть целая серия работ про deep research: на NeurIPS попала эта статья, остальные планируют представить на ICLR 2026. Авторы хитро генерируют синтетические сложные запросы, которые требуют нескольких поисков: сначала с помощью ChatGPT и других моделей составляют цепочки поисковых шагов, затем отбирают запросы, где эти цепочки не слишком длинные и не короткие, и уже на них обучаются.

Я попросила одного из авторов посоветовать другие работы на ту же тему, которые кажутся ему стоящими, и делюсь списком:

— WebSailor;
— WebSailor v2;
— Tongyi Deep Research;
— WebThinker;
— Mind2Web;
— Mind2Web v2.

А ещё пригласила ребят к нам в Москву :)

The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement

Checklists Are Better Than Reward Models For Aligning Language Models

Встретилось несколько интересных работ, где модели-генераторы улучшают с помощью моделей-критиков с текстовым фидбеком. Идея логичная: разбивать ответ на атомарные проблемы, просить модель их исправлять и учиться на этом.

ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning

Ребята из Google Cloud создали агента-планировщика путешествий. Командам, которые делают нейропродукты, будет полезно посмотреть на используемые пайплайны и промпты.

The Art of Artificial Reasoning for (Small) Language Models

Интересный кейноут Еджин Чой (Стэнфорд и NVIDIA) на тему маленьких языковых моделей. В докладе было не только визионерство, но и результаты. А ещё — мемы и трюки.

#YaNeurIPS25

ML Underhood

Впечатления от EurIPS в Копенгагене

2025-12-12T09:41:23+00:00

Впечатления от EurIPS в Копенгагене

Мы уже начали рассказывать о том, что в Европе в этом году впервые прошла конференция — почти как NeurIPS, только Eur. Вдогонку делимся ещё одной порцией заметок от исследователя Yandex Research Ивана Рубачёва.

— На конференции было около 2000 человек. Приехало много студентов и профессоров из Европы, но были и люди из Канады, например. Порадовал состав спикеров, как на воркшопах так и в main talks.

— Основные дни проходили в Bella Center. Но некоторые воркшопы, в том числе AI for Tabular Data, который был мне интересен, проводились в местных университетах: TU Copenhagen и South Campus U of Copenhagen.

— Sepp Hochreiter, один из авторов LSTM, а теперь и xLSTM, вместе со своими соавторами заметно форсил последнюю модель по всем направлениям. Правда, версию под табличные данные пока не показали.

— Gaël Varoquaux, один из руководителей группы SODA в Inria (люди, которые среди прочего стоят за sklearn), говорил про uncertainty estimation в эпоху LLM. Немного диссил тезис scale is all you need — в последнее время он действительно звучал отовсюду. Кстати, Gaël и его группа не остановились на sklearn и всё ещё занимаются табличными данными, исследователи из его команды были и на воркшопе.

— Мнения об основной программе заметно разнились. В целом конференция в этот раз ощущалась не такой масштабной: кому-то не хватало статей, а кому-то, наоборот, понравилось, что в основной программе больше «воркшопного» духа.

Первое фото взято из официального Twitter/X-аккаунта конференции.

#YaNeurIPS25

ML Underhood

Сегодня вышел техрепорт Alice AI

2025-12-11T11:33:40+00:00

Сегодня вышел техрепорт Alice AI

Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.

Alice AI LLM

На этапе претрейна улучшили качество данных: фильтрация и аугментация повысили фактологичность ответов (+4–7% на внутреннем бенчмарке). Также собрали специализированные данные по школьным предметам, что дало прирост на образовательных задачах — модель обошла конкурентов по истории, литературе, математике и русскому языку. Усилили навыки программирования и математики за счёт алгоритмических и кодовых данных (+4,5 п.п. на LiveCodeBench). В alignment-фазе перешли к единому RLHF-пайплайну с мультиаспектным ревордом (полезность, фактологичность и др.) вместо одного «суперсигнала».

Alice AI LLM Search

Пайплайн объединяет планировщик поисковых запросов, фильтрацию и ранжирование результатов и генерацию ответа, а также поддерживает мультимодальные источники — тексты, изображения, видео и геоданные — для более полных ответов. Для обучения использовали RLHF с мультиаспектными ревордами вместо одной метрики, что упростило оценку сложных ответов. В RL-тренировке перешли к онлайн-методу GRPO, сократили этапы обучения, повысили эффективность GPU и в итоге улучшили полезность и актуальность ответов.

Alice AI ART

Обучающий датасет проанализировали с помощью Alice AI VLM, извлекли структурированные JSON-описания изображений и выявили дисбалансы в данных. На основе этого датасет для файнтюна переработали и дополнили недостающими категориями запросов, чтобы лучше соответствовать реальным пользовательским сценариям. Архитектура модели сделана двухступенчатой: на первом этапе формируется общая композиция изображения, на втором — прорабатываются высокочастотные детали. Дополнительно обучили отдельный «рефразер» — компактную LLM, которая преобразует сырые пользовательские промпты в детализированное описание сцены, сохраняя исходный смысл перед генерацией.

Alice AI VLM

Объём данных претрейна увеличили с 400 до 600 млрд токенов и расширили контекст до 32 тыс. Обновили OCR-датасет, улучшив качество чтения текста с изображений, включая рукописный, и описание визуального контента. VLM тесно интегрирован с текстовой LLM и обучается с теми же RLHF-подходами. Дополнительно в систему добавлен специализированный VLM-«решатель» для задач, требующих глубокой визуально-математической экспертизы.

Инфраструктура инференса

Инференс оптимизировали, повторно использовав KV-кэш для одинаковых частей промпта. Также помогла полная FP8-квантизация весов, активаций и KV-кэша. За счёт этого объём KV-кэша сократился почти вдвое. Дополнительно внедрили спекулятивное декодирование EAGLE-3, повысив пропускную способность генерации.
В результате новый инференс-стек обеспечивает около 5,8× ускорение по сравнению с BF16 и примерно 1,3× относительно лучших открытых решений, что позволило достичь целевых показателей скорости.

ML Underhood

NeurIPS 2025: топ-3 академических постера с площадки в Сан-Диего

2025-12-09T14:02:23+00:00

NeurIPS 2025: топ-3 академических постера с площадки в Сан-Диего

Конференция подошла к концу — подводим итоги. Сегодня уже знакомый вам по обзору стендов об индустрии Максим Кузин делится личным топом научных постеров из США.

Real-World Reinforcement Learning of Active Perception Behaviors
Исследователи из University of Pennsylvania, University of Liège и UC Berkeley добавляют в RL награду за «уменьшение неопределённости» модели после обучения на сгенерированном примере. Агента заставляют действовать проактивно, самому делать нужные «обучающие» попытки. А на бенчах сильно уменьшают количество сэмплов для обучения.

Generalizable, real-time neural decoding with hybrid state-space models
Команда учёных Mila — Quebec AI Institute, Université de Montréal, Columbia University, University of Pennsylvania и Canada CIFAR AI Chair обучают реалтайм-модель для предсказания сигналов. Трансформеры as is не подходят для случаев, когда важна скорость инференса. Поэтому авторы сделали быструю RNN и офлайн-компонент в виде трансформера с задержкой, который пересчитывается раз в некоторое время. Результат — по сравнению с онлайн-трансформером, качество практически не теряется.

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
Исследователи University of Pennsylvania, University of Central Florida и Johns Hopkins University выделяют сущности для работы агента с камерой и строят граф отношений между ними (например, «тостер стоит на полке»). Этот граф остаётся в промпте и помогает моделям лучше ориентироваться в пространстве, видя саммари помещения, а не выделяя его явно из кадров в контексте. Хотя подходи простой, он даёт хороший прирост на бенчах.

#YaNeurIPS25

ML Underhood

Что показали на своих стендах участники NeurIPS 2025

2025-12-09T07:49:57+00:00

Что показали на своих стендах участники NeurIPS 2025

На конференцию в США приехали и международные гиганты, и крохотные компании. Наш коллега, руководитель качества рекламы Максим Кузин собрал для вас самое интересное:

⚪Microsoft — большая часть стенда была посвящена их Copilot: показали новые функции и агентов.

⚪Shopify — подробный технический стенд. На постерах схематично расписали все основные компоненты:

• как устроен поиск на их сайтах,
• как обучалась ecom-foundation-модель и что нужно, чтобы сделать на её основе рекомендации для сайтов клиентов,
• на чём и как учились агенты, которые определяют оптимальное разбиение товаров на категории.

⚪JetBrains — тоже сделали акцент на своём Copilot. А ещё провели публичный опрос разработчиков с помощью канцелярских кнопок: используешь один из перечисленных инструментов? Проголосуй за него — воткни кнопку!

⚪ByteDance — показали демо генерации видео и 3D-моделей из текста, картинок, других видео и промптов.

⚪Amazon — предлагали напромптить себе коллекцию генеративных стикеров и распечатать их.

⚪Sony — рассказали, как обучили агента управлять всеми машинами в Gran Turismo. Можно было даже взять джойстик и посоревноваться с ИИ!

⚪Meta* — предлагали побеседовать о предметах на стенде со своим ИИ в очках RayBan.

⚪Tesla — в основном рассказывали про роботов и как делали реалистичные движения рук для Tesla Bot. Там же можно было посмотреть на самого робота, но двигает он только руками.

⚪Eigen AI — показывали сети, которые редактируют видео на лету: камера снимает прохожих и превращает их в плавные ролики в стиле аниме (я тоже попал в кадр!).

*Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ

Больше интересного с NeurIPS ищите в наших каналах Душный NLP, 404 Driver Not Found и CV Time по хештегу #YaNeurIPS25.

ML Underhood

Это хет-трик! Мы собрали все три площадки NeurIPS 2025 (да, есть ещё одна)

2025-12-08T14:03:25+00:00

Это хет-трик! Мы собрали все три площадки NeurIPS 2025 (да, есть ещё одна)

Пока в США и Мексике гремела NeurIPS, в Дании проходила EurIPS. На месте событий в Копенгагене побывал исследователь Yandex Research Иван Рубачёв. Он приехал на воркшоп AI for Tabular Data со статьёй Talking Trees: Reasoning-Assisted Induction of Decision Trees for Tabular Data и делится впечатлениями от европейской версии NeurIPS.

Ещё в первый день основной программы EurIPS три человека написали мне про упоминания Yandex Research и наших работ на тему табличных данных. По моему абсолютно непредвзятому мнению, тема действительно одна из самых интересных на конференции (поэтому и прилетел я только на воркшоп).

Так сложилось, что сейчас больше всего исследований по табличным данным выходит в Евразии. Из университетов в Штатах, например, работ заметно меньше. Поэтому от воркшопа я изначально ждал многого: в таких местах обычно собираются люди ровно из той самой ниши, где сейчас происходит основная движуха. И часто воркшопы по уровню не слабее основной программы.

В следующих постах поделимся парой интересных историй с европейской конференции и расскажем подробнее о самом табличном воркшопе, ради которого Иван прилетел в Данию.

#YaNeurIPS25

ML Underhood

Немного хайпуем на постерной сессии в Сан-Диего

2025-12-05T12:59:05+00:00

Немного хайпуем на постерной сессии в Сан-Диего

Команда Yandex Research активно участвует в постерных сессиях NeurIPS. На фото — Роман Гарипов и Людмила Прохоренкова отвечают на вопросы, поясняют нюансы и не упускают интересных обсуждений по следующим постерам:

🔴Hogwild! Inference: Parallel LLM Generation via Concurrent Attention —*️⃣наш spotlight-постер;

🔴GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data;

🔴AutoJudge: Judge Decoding Without Manual Annotation;

🔴Alchemist: Turning Public Text-to-Image Data into Generative Gold;

🔴Results of the Big ANN: NeurIPS’23 competition.

Если захотите глубже погрузиться в работы, рекомендуем обзор наших статей, принятых на конференцию в этом году.

Напоследок два бонуса.

— Один из самых милых постеров сессии: участник собирал подписи и пожелания из 30+ стран. Похоже, план выполнен!

— Джоб-борд для нетворкинга: научные идеи не отходя от кассы превращаются в офферы.

#YaNeurIPS25

ML Underhood

🤖 Был бы ты человек, этот пост был бы не о тебе

2025-12-05T07:46:24+00:00

🤖 Был бы ты человек, этот пост был бы не о тебе

Ну какая ML-конференция без крутых роботов? Вот и американскую NeurIPS 2025 они посетили. В программе:

🦾 Роботизированная рука Tesla, с которой не хочется соревноваться в армрестлинге.

🦾 Та же самая роботизированная рука Tesla, с которой по-прежнему не хочется соревноваться, но которая выглядит парадно.

🤖 Робот-бариста Turing Robot, которому хочется отдать все чаевые в мире.

🛰 Бонус: архитектурные излишества с кубриковским вайбом, который ~~I'm sorry Dave, I'm afraid I can't do that~~.

#YaNeurIPS25

ML Underhood

Порция интересного с NeurIPS 2025

2025-12-04T14:17:42+00:00

Порция интересного с NeurIPS 2025

Конференция продолжает греметь в Сан-Диего — и в дело вступают постеры. Разные и любопытные.

Scalable In-context Ranking with Generative Models

С развитием LLM всё чаще рассказывают об успешных подходах с использованием больших текстовых моделей для ранжирования документов под запрос или пользователя. У LLM уже хорошо сложена интуиция о том, какие документы подходят для решения пользовательской задачи по её описанию. Файнтюн помогает доучить модель под нужную область на небольшом наборе данных — это простой способ получить большую рекомендательную модель.

Авторы статьи изучили аттеншн-карты и увидели, что в таких задачах LLM обычно смотрит либо на промпт/контекст, либо на токены внутри документа. Взаимодействия между разными документами практически не происходит (или происходит внутри токенов контекста). Поэтому инженеры с помощью маски на файнтюне смогли оптимизировать аттеншн до линейной сложности без потери качества, не испортив претрейн.

Corrector Sampling in Language Models

Очень простая в исполнении идея. Авторы утверждают, что увеличивают качество на сложных бенчмарках на 10%. В обычном NTP-инференсе модель всегда предсказывает следующий токен при учёте контекста. Обратного влияния не существует — если в будущем модель поймёт, что токен был неправильный, то исправить его не сможет.

В статье предлагают RPT (Resample-Previous-Tokens). Во время обучения с вероятностью q токен перемещается на k позиций вперёд. Обучив такую модель, во время инференса мы можем делать два предикта: обычный NTP и RPT (токен на позиции x от модели; показываем ей токены до и после и просим восстановить токен на позиции x). На каждой итерации модель может дописать новый токен и исправить предыдущий.

TabDPT: Scaling Tabular Foundation Models on Real Data

Авторы пробуют обучать tabular foundation model. Взяли много табличных задач, представили строку с фичами как последовательность и обучили трансформер на классические претрейн-задачи (восстановить фичу по другим, угадать таргет, ретривал на похожие строки и так далее). Утверждается, что такая модель хорошо скейлится по параметрам (качество растёт при увеличении модели) и легко адаптируется к новым задачам в few-shot-режиме без дообучения. Показывают высокие результаты на публичных лидербордах.

Интересное увидел ❣ Максим Кузин

*компания Meta признана экстремистской, её деятельность в России запрещена.

#YaNeurIPS25

ML Underhood

Как прошёл первый день NeurIPS 2025 в США

2025-12-03T15:29:59+00:00

Как прошёл первый день NeurIPS 2025 в США

Пока все набираются сил перед новыми воркшопами и докладами, исследователь Yandex Research Роман Гарипов делится впечатлениями о том, как прошёл первый день конференции в Сан-Диего.

После очереди на регистрацию мы направились на туториал Human-AI Alignment: Foundations, Methods, Practice, and Challenges. Провёл его Yoshua Bengio, один из отцов Deep Learning.

Потом было ещё несколько интересных выступлений:

🔴 про бенчмарки для reasoning, которые требуют робастности к минимальному изменению промпта,
🔴 про алайнмент от людей из академии, frontier ai labs и Bengio,
🔴 туториал по scaling test time compute/parallel reasoning от Beidi Chen/Zhuoming Chen из CMU и других.

На стендах компаний и университетов я успел пообщатся с профессорами из Канады, в том числе Mila (research institute). Все они охотно включались в обсуждения и делились своим взглядом на область. Ещё было много трейдеров из крупных фондов.

Закончился день на вечеринке от Together AI. Там собрались коллеги из Nvidia, Сerebras Systems, Google DeepMind, Snapchat и других известных компаний. Понетворкались, приятно удивило, что в Together AI хорошо знают Яндекс и Высшую школу экономики.

Как дела в Мексике — на второй площадке NeurIPS 2025 — читайте в канале CV Time.

#YaNeurIPS25

ML Underhood

NeurIPS 2025 продолжается: старт в США

2025-12-03T10:33:00+00:00

NeurIPS 2025 продолжается: старт в США

В этом году конференция проходит сразу в двух странах. Про Мексику мы уже рассказывали, теперь делимся новостями из американского города Сан-Диего, где недавно закончилось открытие.

На первый день конференции приехали более 18 тысяч человек. Шестеро из них — наши коллеги-яндексоиды.

На фото те, кто собирают для вас самое интересное, vs очередь, которую им пришлось преодолеть ради этого.

#YaNeurIPS25

ML Underhood

В Мехико жара — и это мы сейчас не о погоде, а о NeurIPS

2025-12-02T10:34:32+00:00

В Мехико жара — и это мы сейчас не о погоде, а о NeurIPS

Продолжаем рассказывать о том, что происходит на полях конференции. Руководитель группы AI-планирования робота доставки Дмитрий Быков посетил любопытный воркшоп NORA: The First Workshop on Knowledge Graphs & Agentic Systems Interplay и поделился впечатлениями.

Авторы пытались решить проблему того, что способ запоминания знаний в языковых моделях через веса далеко не самый эффективный и создаёт много галлюцинаций. И даже поиск через интернет не спасает от артефактов — особенно на сложных запросах. Например, была проблема с вопросом обо всех женщинах Нобелевских лауреатах.

Разработали конкретные онтологии и способ извлечения знаний из них (graph ql и поиск по близости эмбеддингов). В целом, для конкретных даже сложных примеров это достаточно хорошо работало.

При этом проблема получения онтологий не из структурированных данных остаётся акутальной. Авторы возлагают большие надежды на обработку с помощью LLM, но пока так не делают.

Ещё решил послушать второй доклад по схожей теме. Тут в основном всё было сосредоточено на арабском языке.

Рассказали, как собирали онтологию — по сути, обучили BERT на ner и entity linking. Имели порядка 50 возможных отношений между объектами, часть из которых могла быть достаточно похожей. В итоге так заполнили онтологию, докинули в промпт ChatGPT значения и получили прирост по метрикам.

#YaNeurIPS25

ML Underhood

Всего 38 часов лёту — и мы на NeurIPS в Мехико!

2025-12-01T15:14:55+00:00

Всего 38 часов лёту — и мы на NeurIPS в Мехико!

В этом году конференция проходит сразу в двух странах: США и Мексике. Мы будем вести репортажи из обеих, а начём с Мехико, где уже подошёл к концу первый день. Примечательное собрал Дмитрий Быков, руководитель группы AI-планирования робота доставки.

Лететь в Мексику через Китай оказалось очень необычным опытом :) Маршрут проходит через Аляску, и зимой это невероятно красиво: почти всю дорогу из окна был необычный вид на солнце (картинка 1). В отличие от заката, здесь видна другая часть спектра. Кажется, подобное можно увидеть разве что на Северном полюсе или вот так — из самолёта.

В первый день мы посетили большой воркшоп NeurIPS 2025 Workshop on Embodied and Safe-Assured Robotic Systems. Расскажу о том, что запомнилось с него и в целом.

Toward Efficient and Reliable VLMs
for Real-World Autonomous Systems

Работа на тему улучшения VLM. Изначальная идея авторов была максимально простой: часто для получения нужной информации используют несколько разных энкодеров и затем их фьюзят.

В модели LEO исследователи как раз отказались от фьюзинга и получили SOTA по метрикам — но столкнулись с очень долгим инференсом. Ну а в LEO-mini они попытались разобраться, в чём именно проблема фьюза. Оказалось, что если добавить текстовый запрос, модель может понимать, какая информация из каких энкодеров нужна для конкретной задачи.

Однако моделей становилось много, и в работе над Hawaii авторы решили пойти дальше: с помощью CLIP дистиллировали выходы всех энкодеров в один CLIP-энкодер. В результате получилась одна модель с одним энкодером.

Systematizing the Unusual: A Taxonomy-Driven Dataset for Vision–Language Model Reasoning About Edge Cases in Traffic

Рассказ об эдж-кейсах в автономном вождении — причём самых разных типов и причин.

Кейсы авторы собирали вручную из интернета, и на их основе построили онтологию дорожных опасностей и ожидания корректного поведения модели.

Забавно, что было сделано сравнение с GPT-5: в целом видно, что есть прогресс, но при этом текущие метрики проседают. Например, в кейсе с дорогой и коровой (картинка 2) GPT-5 не видит корову, даже если напрямую спросить о ней (при этом на кропе корову распознаёт).

Diversity-Guided Genetic Algorithm for Safety-Critical Scenario Generation in Autonomous Driving Testing

А вот это уже совсем необычная вещь — вызывающая у меня сомнения, но всё же любопытная.

Исследователи решили генерировать сложные сценарии с помощью генетических алгоритмов. У них был набор признаков, и они прямо генетическим алгоритмом смешивали эти признаки, «максимизируя разнообразие».

Имхо: о настоящем разнообразии здесь речи идти не может — потому что разнообразие в таких задачах — это редкие, неожиданные случаи, а не механическая генерация «разнообразных» сцен по шаблону.

Больше о том, что было интересного на тему безопасности и масштабируемости автономного транспорта, написали в канале @DriverNotFound.

#YaNeurIPS25

ML Underhood

Как прошла CIKM 2025: взгляд изнутри

2025-12-01T08:14:26+00:00

Как прошла CIKM 2025: взгляд изнутри

Недавно в Сеуле закончилась международная конференция CIKM 2025. Своими впечатлениями о ней поделился Александр Михеев, руководитель группы разработки сервисов моделей.

Мне впервые довелось съездить на CIKM. Сеул порадовал и золотой тёплой осенью (днём температура поднималась до +19), и хорошо организованной конференцией в центре знаменитого района Гангнам.

Послушал много интересных докладов. Больше всего впечатлили работы от крупных китайских компаний: TikTok, Kuaishou, Alibaba, Meituan, NetEase. В частности, удалось подробно поговорить с коллегами из Kuaishou. Это вторая по популярности платформа для просмотра и загрузки коротких видео в Китае, которая в этом году наделала шума техническим отчётом об их end-to-end-генеративной системе рекомендаций OneRec. На CIKM они представили серию сильных работ, напрямую релевантных направлению развития рекомендательных систем в Яндексе.

Для меня, как представителя ML-инфраструктуры, самым интересным был доклад по статье MARM: Unlocking the Recommendation Cache Scaling-Law through Memory Augmentation and Scalable Complexity. В ней предлагается для трансформерных рекомендательных моделей перенести часть вычислений KV-матриц в офлайн, складывать их в отдельное хранилище и переиспользовать при инференсе в реалтайме. С инфраструктурной точки зрения схема нетривиальна: из-за большого размера KV-матриц возрастает нагрузка на пропускную способность отдельных компонентов — сети и шины памяти. Но при личном разговоре с докладчиком удалось узнать основные приёмы, которые помогают смягчить эти ограничения. Всё протестируем и вернёмся рассказать о них.

Из любопытных впечатлений. Я ехал на конференцию с ощущением, что буду тихо сидеть в углу и смотреть на тяжеловесов с передового края науки (индустриальной, прикладной, академической), до которых нам ещё далеко. А на деле, по многим направлениям уровень наших исследований и инфраструктуры рекомендательных систем не уступает крупным зарубежным компаниям. Мы можем чаще публиковать доклады о наших внедрениях на академических конференциях.

При этом огромная конкуренция в Китае стремительно продвигает индустрию рекомендательных систем вперёд. Поэтому расслабляться однозначно не стоит.

Продолжаем следить за индустрией и рассказывать о главных мировых ML-конференциях.

ML Underhood

Yandex Research везёт пять статей на NeurIPS 2025

2025-11-28T11:12:50+00:00

Yandex Research везёт пять статей на NeurIPS 2025

Не за горами NeurIPS 2025 — одна из главных конференций в области машинного обучения. Рассказываем о принятых на неё работах исследователей Yandex Research (и не только).

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

Исследователи предлагают новый подход к ускорению LLM: несколько LLM-агентов запускаются параллельно с возможностью их синхронизации через совместно обновляемый KV-кэш. Реализуется с помощью механизма Hogwild! Inference. Все агенты мгновенно «видят» генерации друг друга и за счёт этого могут пробовать разные способы решения задач, распределять подзадачи между собой, корректировать ошибки друг друга.

Статья получила отметку spotlight — такой статус только у 3% работ, отправленных на NeurIPS.

AutoJudge: Judge Decoding Without Manual Annotation

В статье предложили алгоритм майнинга данных для выявления «важных» токенов, влияющих на качество ответа при использовании Speculative Decoding в генерации текста LLM. Метод не требует человеческой разметки и автоматически определяет токены, которые можно безопасно принять, ослабив критерий принятия токенов драфтовой модели, без ухудшения качества ответа.

Авторы обучают компактную модель-классификатор, использующую внутренние представления таргетной и драфтовой LLM для предсказания важности токенов.

Интеграция модели в vLLM повышает скорость генерации текста с использованием Speculative Decoding до 1,5 раз.

GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data

В ML на графах есть известная проблема с бенчмарками: существующие датасеты покрывают мало доменов, задачи далеки от практики, а в ряде датасетов были допущены ошибки при сборе данных.

Авторы делают шаг к решению этой проблемы: они предлагают GraphLand, бенчмарк из 14 графовых датасетов из различных индустриальных приложений. Некоторые датасеты подготовлены на основании открытых источников, а другие собраны специально для бенчмарка из данных нескольких сервисов Яндекса.

GraphLand позволяет сравнивать графовые модели на широком спектре задач. Графовые нейросети дают хорошие результаты и имеют большой потенциал для использования в индустриальных приложениях. В то же время, существующие графовые фундаментальные модели (Graph Foundation Models) показывают слабые результаты, то есть задача разработки таких моделей ещё далека от решения.

Alchemist: Turning Public Text-to-Image Data into Generative Gold

В статье представили новую методологию создания универсальных наборов данных для файнтюнинга (SFT) моделей преобразования текста в изображение (T2I).

Методология использует предварительно обученную генеративную модель YandexART для оценки эффективных обучающих примеров. С её помощью создали датасет Alchemist, содержащий 3350 пар «картинка-текст» и выложенный в открытый доступ.

Этот датасет значительно улучшает качество генерации пяти общедоступных T2I-моделей, сохраняя при этом разнообразие и следование промпту. Веса дообученных моделей также выложены в открытый доступ.

Подробнее о решении мы писали в телеграм канале CV Time.

Results of the Big ANN: NeurIPS'23 competition

Статья основана на результатах конкурса Big ANN Challenge, который прошёл в рамках NeurIPS 2023. Его цель — разработка методов векторного поиска (ANN-поиск) в востребованных практико-ориентированных сетапах.

Рассматривались следующие сценарии: векторный поиск с использованием метаданных; поиск, при котором распределения запросов отличается от распределения базы данных (text-to-image); сетап с регулярно обновляющимися базами данных; а также поиск по спарсовым эмбеддингам.

В публикации подробно описываются эти сетапы, наборы данных, метрики и подходы участников, которые показали значительное улучшение точности и эффективности поиска по сравнению с базовыми методами. Результаты дают представление о современных достижениях и направлениях развития в области ANN-поискa.

💫 По традиции инженеры и исследователи Яндекса поедут на конференцию и будут делиться самым интересным.

#YaNeurIPS25

ML Underhood

Моменты CIKM’25 (и не только)

2025-11-14T14:50:24+00:00

Моменты CIKM’25 (и не только)

Делимся яркими кадрами с конференции.

1 — Коля Савушкин допытывается о всех подробностях у авторов MARM.

2 — Что происходит с постером, когда нет внятного ТЗ.

3–4 — Кто хорошо поработал на конференции, того покормили.

5 — Лапшу на уши на CIKM не вешали, пришлось пойти в сеульский супермаркет.

ML Underhood

CIKM’25 — горячий привет из Южной Кореи

2025-11-12T12:42:25+00:00

CIKM’25 — горячий привет из Южной Кореи

С 10 по 14 ноября в Сеуле проходит CIKM 2025 — одна из крупнейших конференций на стыке ИИ, машинного обучения и баз данных.

Мы уже рассказывали в @RecSysChannel о ожидаемых темах этого года, а теперь делимся впечатлениями команды рекомендательных технологий Яндекса от второго дня конференции.

Сергей Лямаев:

Сегодня мне показались интересными две статьи от Kuaishou (Pantheon и MARM), InterFormer от Meta*, серия статей от Airbnb (Beyond Pairwise Learning-To-Rank At Airbnb; Learning to Comparison-Shop; Maps Ranking Optimization in Airbnb). На постерной сессии обменялись опытом с ребятами из ресёчерской команды Snapchat (их постер) про обучение семантических ID, они тоже пробуют имплементировать OneRec.

Николай Савушкин:

Понравилась статья Action is All You Need от Kuaishou (очень популярная платформа коротких видео в Китае). Удалось пообщаться после доклада с автором, уточнить детали, которых не было ни в статье, ни в докладе.

Также подошли к автору MARM и расспросили подробности, которые нигде не были упомянуты.

Александр Михеев:

Посетил занимательный доклад по статье InstANNS от группы из Сеульского университета. Для задачи приближенного поиска ближайших соседей предлагают перенести часть фильтрующих вычислений в контроллер SSD при помощи хитрой NVMe-операции, чтобы гонять меньше данных в память и повысить пропускную способность диска.

Сама идея использования вычислительных ресурсов диска не является новой, и такой перенос нагрузки выглядит разумным и уместным. А забавный факт, к сожалению, в том, что эта хитрая NVMe-операция пока не существует и не поддержана ни одним из существующих SSD-дисков. Поэтому авторы её запрограммировали в специальном NVMe-симуляторе и зарепортили потенциальный профит :)

Кстати — на фото те самые ребята, которые принесли нам новые заметки с места событий.

ML Underhood

* Компания Meta признана экстремистской; её деятельность в России запрещена.

Яндексоиды на EMNLP 2025: нашли знакомые лица?

2025-11-06T14:15:05+00:00

Яндексоиды на EMNLP 2025: нашли знакомые лица?

Продолжаем делиться новостями о ежегодной конференции Empirical Methods in Natural Language Processing. В Душном NLP рассказываем о статьях, которые запомнились коллегам. А здесь поговорим о работах, которые они привезли в Китай.

В этом году на конференцию приняли сразу две статьи из Яндекса. Обе — от команды машинного перевода.

1. Refined Assessment for Translation Evaluation: Rethinking Machine Translation Evaluation in the Era of Human-Level Systems

Соавторы исследования — ребята из Together AI.

Работа посвящена проблеме оценки качества машинного перевода. Несмотря на впечатляющий прогресс LLM, задача перевода ещё далека от того, чтобы считаться решённой: современные системы хорошо справляются с новостными и бытовыми текстами, но далеко не всегда — с переводом научных статей или художественной литературы.

Мы собрали новую экспертную разметку англо-русских переводов с WMT24 и показали, что проблема заключается не только в протоколах оценки, но и в низком качестве крауд-разметки. Наши эксперты — профессиональные лингвисты и переводчики — находят в среднем в семь раз больше ошибок (4,66 против 0,65 на сегмент), чем асессоры в официальной разметке WMT24.

Также мы предложили протокол RATE (Refined Assessment for Translation Evaluation), который объединяет выделение ошибок с оценкой по 100-балльной шкале ключевых характеристик перевода — точности сохранения смысла (accuracy) и естественности/читаемости текста (fluency). RATE использует упрощённую категоризацию ошибок и расширенную шкалу их критичности, что делает анализ систем более информативным, при этом результаты разметки можно конвертировать для сравнения с существующими стандартами MQM и ESA.

Результаты показывают, что современные модели действительно превосходят человека по точности передачи смысла, но заметно уступают в естественности и читаемости текста. При этом по нашей разметке системы разделяются статистически значимо, в отличие от официальных оценок WMT24, где большинство моделей оказывается в одном кластере. Более того, становится очевидно, что без экспертной разметки и продуманных протоколов невозможно развивать качество перевода: по формальным метрикам WMT24 можно сделать вывод, что задача перевода решена, однако наши данные показывают, что это далеко от реальности — количество ошибок на сегмент остаётся высоким даже у лучших систем.

2. Yandex Submission to the WMT25 General Translation Task

В этой работе описывается участие Яндекса в ежегодном соревновании по качеству перевода в рамках конференции WMT.

Мы работаем с направлением перевода с английского на русский, используя специализированную модель, построенную с помощью дообучения pretrain-версии YandexGPT. Процесс обучения состоит из нескольких стадий.

Сначала мы делаем дополнительное предобучение для адаптации к многоязычности и переводу (post-pretrain). Затем — стандартное обучение с учителем (SFT) на корпусе параллельных документов с использованием P-Tuning. Далее — применяем новую схему алайнмента в два этапа:

🔴обучение по методике curriculum learning с расписанием сложности,
🔴исправление ошибок модели с использованием в качестве положительных примеров постредактированных человеком текстов (активное обучение) и адаптация под универсальный формат тегов.

Об исследованиях рассказали их авторы Дмитрий Попов и Николай Карпачёв ❣ специально для ML Underhood

Это отложенное сообщение: читайте, как прошло открытие EMNLP 2025, пока мы отсыпаемся и готовимся к новому дню

2025-11-05T15:34:05+00:00

Это отложенное сообщение: читайте, как прошло открытие EMNLP 2025, пока мы отсыпаемся и готовимся к новому дню

В этом году Conference on Empirical Methods in Natural Language Processing (или просто EMNLP) проходит в Сучжоу.

Скоро расскажем, какие статьи привезли в Китай наши коллеги и что интересного они узнали. А пока делимся несколькими кадрами с открытия и велком-ужина. В главных ролях: Екатерина Еникеева, Владислав Негодин, Николай Карпачёв, Александр Шишеня, плюшевая панда и постер #53.

ML Underhood

Как устроена первая Нейроредакция в Яндексе

2025-10-22T10:54:06+00:00

Как устроена первая Нейроредакция в Яндексе

В 2023 редакция ПромоСтраниц, выросшая из Дзена, начала эксперименты с LLM в написании лонгридов для клиентов. Первый нейротекст о пляжах Турции команда выпустила в апреле. Примерно тогда же команда собрала фреймворк «Барсук» — с промптами для каждого этапа работы от брифа до финальной версии.

Дальше редакция стала оптимизировать процесс:

— Сделали макрос на базе «Барсука», в который загружается бриф от клиента и тема, а дальше автоматически формируются нужные промпты.

— Добавили эмулятор действий пользователя. Один раз записываем, куда кликать, что вставлять и нажимать, а потом программа воспроизводит эти действия сколько угодно раз.

Теперь всё работает так: вставляем бриф и план, нажимаем кнопку — компьютер сам копирует промпты, отправляет их в нейросеть, получает ответы, а потом формирует чат. Из него копируем весь диалог в файл и передаём редактору, который очищает черновик от вспомогательных промптов. В итоге остаётся текст, который нужно немного дотюнить — примерно как от стажёра или джуна.

ИИ-редактор внутри кабинета

Дальше редакция захотела поделиться своими инструментами и наработанной экспертизой с клиентами. Для этого начали строить генератор текстов внутри клиентского кабинета в ПромоСтраницах. Сейчас там доступны два инструмента: «размножатор» и «улучшатор».

Размножатор. Рекламодатель или нейросеть создают описание продукта; выделяются аудитории, которым он может быть интересен и для каждого сегмента подбираются потребности, которые нужно обыграть в тексте. Пишется исходная статья, которая потом рерайтится под разные ЦА. Описание продукта остаётся тем же, но сценарии, акценты и подача меняются.

Улучшатор. Работает со стилистикой, помогает убрать воду, упростить, переформулировать заголовки, добавить конкретику, написать призыв к действию; можно применить как ко всему тексту, так и к фрагменту.

Кроме этого, команда разрабатывает генератор полного цикла, который сможет создавать тексты с нуля, под конкретные цели и продукты.

Результаты

За время существования Нейроредакция выпустила 1196 нейростатей, и многие из них показали метрики лучше человеческих. Ещё несколько цифр:

— 1–2 часа вместо 8 на производство текста;
— х2 текстов при том же бюджете;
— +80 млн рублей за счёт экспресс-запусков.

Благодаря росту производительности команда смогла не только сократить время на тексты, но и предложить новые форматы для партнёров, например, экспресс-пакеты для быстрого запуска кампаний.

Обычный флоу работы выглядит так:
— до 5 рабочих дней на темы и планы статей; до 8 рабочих дней на написание, в среднем пакет включает 5 текстов.
Дорогой пакет под экспресс-запуск:
— 10 текстов за 5 рабочих дней.

При этом недорогие пакеты также продолжают обслуживаться, но Нейроредакция успевает за то же время сделать чуть больше, чем обычные авторы или агентства.

ML Underhood

Как YandexGPT научили размечать тикеты и экономить время разработчиков

2025-10-07T11:02:21+00:00

Как YandexGPT научили размечать тикеты и экономить время разработчиков

DutyGPT — классификатор на базе YandexGPT 5 Lite в Яндекс Облаке, который по тексту тикета в трекере предсказывает, какой команде его логичнее всего передать. Раньше разработчики читали каждый тикет, сверялись с таблицами зон ответственности и вручную проставляли компоненты. У одного человека на это уходило до 25 часов в месяц, без учёта времени на исправление ошибок маршрутизации.

Техлид разработки общих AI-решений в Райдтехе Василий Дмитриев рассказал об инструменте, который освободил сотрудников от рутинной задачи.

Всё работает в реальном времени: как только в трекере создаётся тикет, автоматический триггер отправляет его содержимое в DutyGPT. Текст уезжает в дообученную модель, и мы получаем предсказание — команду и вероятность. Модель сама пишет в карточке комментарий вида «предсказываю такую-то команду с такой-то вероятностью» и проставляет нужную компоненту.

Дальше включаются стандартные триггеры трекера: по компоненте вызывается дежурный соответствующей команды. Если модель ошиблась, дежурный перевешивает компоненту или пингует людей. Все такие исправления возвращаются к нам как новые размеченные примеры для следующего дообучения.

Как происходит обучение

Перед запуском рассматривался вариант обучения без файнтюна — условный zero/few-shot на «голом» LLM. Но в проде его не пробовали: чтобы это работало, модель нужно кормить подробными описаниями зон ответственности каждой команды, а это десятки сущностей (в одной группе — ~30, а, например, в Доставке — 50+). Нужна постоянная ручная поддержка актуальности. Поэтому пошли путём дообучения под нужные домены.

Данные для дообучения на задачу классификации собираются из реальных выборок тикетов от разных команд. Стартовали с небольшой выборки с точностью около 40% — никуда не выкатывали, просто наблюдали.

Дособрали данных — подскочили до 69% и задумались, много это или мало. Померили человеческую точность на этом же процессе и получили около 70%. Фактически модель уже размечала «как человек» — с этим результатом и решили выкатываться. Ну а дальше заработал автоматический сбор правильных и неправильных кейсов. Менее чем за год дошли до стабильных 75%+ по организациям, а в некоторых командах — до ~80%.

Важно понимать, что 100% никогда не будет, потому что у команд появляются новые зоны ответственности, и модель нужно постоянно переобучать. Но дойти до 85–90% — реальная цель (по всем командам).

У проекта есть отдельная доска для контроля качества разметки, и когда на ней видна деградация (модели без дообучения закономерно «плывут»), вручную запускается новый цикл обучения: собираются свежие тикеты по конкретным командам и обновляется датасет. Ближайший план — автоматизировать этот контур, чтобы переобучение происходило самостоятельно, примерно раз в месяц.

Результаты

С марта 2024 DutyGPT сэкономил ~1000 часов у разработчиков на разметке тикетов. С момента запуска к автоматической разметке присоединились порядка 89 команд.

ML Underhood

Третий день RecSys 2025: индустриальный трек

2025-09-26T14:05:27+00:00

Третий день RecSys 2025: индустриальный трек

Конкуренция на индустриальном треке растёт: +104% сабмитов к предыдущему году. Всё, что выделил из этого многообразия работ Иван Романов, — читайте ниже.

Всё чаще звучало слово latency. Даже keynote оказался практичным: Jure Leskovec (именитый профессор из Стэнфорда) прорекламировал свой стартап Kumo — AutoML на графовых нейросетях с SQL-подобным языком для fit-predict по таблицам. Мне запомнился «наброс», что существует опенсорс-решение (CARTE: Pretraining and Transfer for Tabular Learning), которое из коробки даёт аналогичные результаты.

Следующая статья зацепила названием — User Long-Term Multi-Interest Retrieval Model for Recommendation. В качестве MLA-ментора предстоит «забустить» одну рексистему с помощью long-term-интересов. Явно разделяют долгосрочное и краткосрочное поведение пользователя и на вход долгосрочного энкодера передают в качестве query (как в encoder-decoder) выход краткосрочного. Обучают на два лосса. Кстати, заметен общий тренд: почти в каждой индустриальной статье используют несколько лоссов.

Не менее полезная статья — Zero-shot Cross-domain Knowledge Distillation: A Case Study on YouTube Music. Проблема: нужно запустить рексистему с нуля (YouTube Music), но уже есть готовая (на главной YouTube) с пересечением по фичам. Решение: переиспользовать веса, добавить спецтокены для новых фичей и дистиллировать артефакты от старой модели. Да, есть элемент overengineering, но главное — в индустрии начинают трогать cross-domain, и результаты уже позитивные.

Похожую проблему решают ребята из академии — LM-RecG: A Semantic Bias-Aware Framework for Zero-Shot Sequential Recommendation. Деталей в статье намного больше, но трудно сказать, что из этого работает (на академических датасетах буст настолько большой, что верится с трудом).

Было сразу три статьи, которые решают проблему использования контентных фичей в рекомендациях. Подходы разные, но суть одна: инициализировать lookup table через предобученную модель, а поверх запускать последовательную модель на айдишниках.

«Внебрачное дитя» европейских регуляций и Google — Cross-Batch Aggregation for Streaming Learning from Label Proportions in Industrial-Scale Recommendation Systems. Нельзя однозначно определить связь user-item, поэтому используют трюк из Learning from Label Proportions. Автор признал, что не знал о такой задаче до написания статьи, но был рад, что «поле уже немного пропахано».

Scaling Generative Recommendations with Context Parallelism on Hierarchical Sequential Transducers: инженерное ускорение HSTU (AllGather меняют на AllToAll, кастомные Triton-кернелы, jagged tensors — аналог NestedTensor из PyTorch в TorchRec). Около постера никого не было, визуализации классные, но темой вокруг особо не интересовались, хотя ускорение достойное — x5.

T2ARec: The Proposed Method — по метрикам отлично, но пугает SSM (state space model). Основное улучшение достигается через test-time alignment (во время теста модели выполняется градиентный спуск по двум вспомогательным задачам: сопоставление временных интервалов пользователей и сопоставление previous state с current state представления).

В конце дня был «званый ужин», на котором Иван успел посидеть за тремя русскоговорящими столами и вынести кое-какие инсайты:

— По ощущениям 2/3 участников используют GPT-интерфейс (VSCode, Cursor, либо разделённый экран: с одной стороны Jupyter Notebook, с другой — Perplexity/Gemini).

— У самого в квартальных целях — порешать эту проблему, так что, наверное, я biased, но повсюду говорят о холодном старте.

— С Сашей Петровым (gSASRec) обсуждали формулу хорошей статьи. Я уточнил, не обидится ли он на фидбек, что «читается просто». Его ответ порадовал: «Чем проще читается статья, тем сложнее её было писать».

ML Underhood

POV: вы пережили открытие RecSys 2025 и вернулись туда на следующий день

2025-09-25T17:00:01+00:00

POV: вы пережили открытие RecSys 2025 и вернулись туда на следующий день

Продолжаем рассказывать, как проходит RecSys 2025 — девятая международная конференция о рекомендательных системах в Праге. В предыдущих сериях: TL;DR интересных статей и суммаризация воркшопов в Рекомендательной, а также таймлайн первого дня от Ивана Романова, нашего коллеги из Яндекс Вертикалей. Сегодня снова передадим слово Ивану: попросили его поделиться впечатлениями о втором дне конференции.

От второго дня конференции (он же первый «основной») у меня были заниженные ожидания: по опыту прошлых RecSys, сильнее всего запоминаются открывающий и закрывающий дни, когда в расписании есть воркшопы. Но всё оказалось лучше, чем я рассчитывал!

В аудитории с постерами постоянно бурлили интересные дискуссии. Мои коллеги, авторы работы Correcting the LogQ Correction, до последнего не снимали постер в ожидании Xinyang Yi, автора оригинальной статьи с LogQ. У меня тоже есть свои кумиры: повезло не только пообщаться с ребятами из Pinterest, но и задать вопросы одному из авторов статьи про PinFM.

Абсолютным фаворитом этого дня для меня стал постер от Amazon Music: Off-Policy Evaluation of Candidate Generators in Two-Stage Recommender Systems. Если коротко, авторы попытались замерить качество кандидатогенерации. Делать это на текущих пользовательских логах, на которые воздействует текущий КГ, неправильно из-за sample bias. А держать бесконечный рандомный сбор даже на 1% трафика — дорого. На помощь приходит off-policy evaluation: оценка политики на основе данных, собранных другой политикой.

Чисто академическая статья, в которой, как мне кажется, есть интересное направление работы с diversity: D-RDW. Diversity-Driven Random Walks. Авторы показывают алгоритм, который случайно ходит по сети «читатели — новости», выбирает материалы и проверяет, чтобы итоговый набор новостей соответствовал некоторым правилам баланса. Если соответствия нет — он подбирает другой набор, пока не получится нужная комбинация. Алгоритм сравнивают с MMR, на пальцах звучит прикольно — планирую закопаться и проверить.

Масштаб RecSys в этом году поражает. Слушать доклады можно не отходя от буфета (поймал на фото одного из звукорежиссёров), появилась комната для детей. Русскоговорящих на конференции много: в одном только чатике уже около 60 человек. А я познакомился с профессором из University of Pittsburgh, который закончил МГУ больше 30 лет назад.

Несколько инсайтов напоследок:

🔴В Google первые скрипты трейнов LLM переподнимали вручную в случае инцидентов ночью (когда обучение уходило в NaN/стопалось и т.п.) — после приняли решение вознаградить за это всех неравнодушных.
🔴Очень сложно есть и говорить на английском одновременно, это какой-то отдельный скилл. Присоединился на обеде к ребятам из IKEA и Telegraph, приходилось очень часто их переспрашивать.
🔴В IKEA и Telegraph сейчас используют только implicit feedback, хотя explicit тоже есть и такие действия уже логируются. А ещё ребята были очень удивлены размером Yambda-датасета и тем, как мы справляемся с обработкой таких объёмов данных, да ещё и с доказательством целесообразности скейла.

ML Underhood

Александр Плошкин выступил на ACM RecSys 2025 с oral'ом о датасете Yambda! Рассказывали о нём в Рекомендательной. Поздра

2025-09-23T13:03:45+00:00

Александр Плошкин выступил на ACM RecSys 2025 с oral'ом о датасете Yambda! Рассказывали о нём в Рекомендательной. Поздравляем ребят!

ML Underhood

Впечатления от первого дня RecSys 2025

2025-09-23T09:43:49+00:00

Впечатления от первого дня RecSys 2025

В Праге проходит конференция RecSys 2025 — и мы по традиции ведём репортаж с мероприятия. Первыми впечатлениями с нашим каналом поделился Иван Романов из Яндекс Путешествий. Слово Ивану:

Прошёл первый день RecSys, посвящённый в основном воркшопам. Первые доклады разочаровали: много воды в духе «за хорошие рекомендации против плохих». Хотел уйти, но попасть на CARS (Context-Aware RecSys) было сложно, поэтому остался на вторую часть — и не зря: стало интереснее.

Несмотря на, как мне кажется, индустриальное название самого воркшопа, большинство статей было академическими, и некоторые — сильно оторваны от реальности.

Одному человеку пришлось перейти от задачи с персонализацией — sasrec/argus-like арх-рой — к choice modeling, и он долгое время аудитории объяснял, зачем использовал что-то вроде feature tokenize transformer для своей задачи. И правда, зачем? Думаю, чтобы самому было интереснее — на графиках от скейла трансформера метрика не росла: layers=1, head=1, dim=16 давал по сути топовый результат.

Был обзор статьи KP4POI: файнтюнят LLM, промптируют посещённые места и после спецтокена ожидают новые POI (points of interest). Ничего особенного, просто отметить что LLM-based RecSys набирает обороты. В тайтле статьи есть «on Large-scale Datasets», но на одном из слайдов было что-то вроде про 5–10 тыс. пользователей.

Многие работают над своими агентами для построения маршрутов путешествий с персонализацией. Показали две демки, и ни в одной не было Чехии, что странно — можно же было всем посетителям конференции попиарить приложение. А другая демка (CityRiddler) была только по Вене, где до конференции я провёл чудесный день. Маршрут по городу и нескольким музеям мне составил ChatGPT, вот и у спикеров напросился вопрос: «А не работает ли уже это out of the box в ChatGPT и нужен ли продукт в целом, если это только промпт?»

Если не агентами богаты и LLM не тюним, то тогда RAG. Здесь, несмотря на скепсис, был очень классный слайд от одного из спикеров: «LLM as a judge» (можно оценивать не только релевантность ответа запросу, но и, например, вопросом «were retrieved chunks actually relevant» считать что-то вроде Precision). Не знаю, насколько рабочая конфигурация и не будет ли 100% корреляции скоров «судьи» под каждую из задач (recall, precision, faithfulness, answer relevancy).

А ещё среди докладов обнаружил вот такую интересную идею — взяли Mixup из image augmentation и применяют над пользовательскими векторами. Эффект есть, но метрики были странные.

ML Underhood

Self-rewarding Language Models

2025-09-02T10:31:31+00:00

Self-rewarding Language Models

Сегодня разберём статью о том, как научить языковую модель самостоятельно оценивать качество своих ответов и итеративно улучшаться за счëт этого.

Direct Preference Optimization (DPO)

Раньше большие языковые модели учили примерно так:

1. Предобучение без учителя на огромном корпусе текстов;
2. SFT — supervised fine-tuning;
3. Создание датасета предпочтений (сравнение качества нескольких гипотез LLM между собой вручную);
4. Обучение reward-модели на датасете предпочтений.
5. RL — reinforcement learning.

Метод DPO (Direct Preference Optimization) предлагает заменить обучение reward-модели и RL на supervised fine-tuning LLM на датасете предпочтений с некоторой лосс-функцией (подробнее в оригинальной статье про DPO).

Метод авторов статьи

Авторы предлагают учить LLM не только отвечать на вопросы пользователя (instruction following), но и оценивать эти ответы с помощью механизма LMM-as-a-Judge. Благодаря этому можно автоматизировать создание датасета предпочтений.

Более подробно, взяв предобученную модель M₀, делают еë supervised fine-tuning на instruction following (IFT данные) + оценивание качества ответа (EFT данные) — и так получают модель M₁. Далее начинается итеративный процесс, при котором:

1. Модель Mᵢ сама генерирует датасет предпочтений (генерирует гипотезы и оценивает их) обозначаемый AEFT(Mᵢ);
2. Модель Mᵢ дообучается на AEFT(Mᵢ) с помощью DPO — так получаем новую модель Mᵢ₊₁.

Весь процесс выглядит так:

M₀ — предобученная LLM без fine-tuning.
M₁ — модель, инициализированная M₀, а после дообученная на IFT+EFT в режиме supervised fine-tuning.
M₂ — модель, инициализированная M₁ и дообученная на AEFT(M₁) в режиме DPO.
M₃ — модель, инициализированная M₂ и дообученная на AEFT(M₂) в режиме DPO.

Авторы утверждают, что метод не только помогает нейросетям лучше справляться с инструкциями, но и улучшает их способности к оцениванию ответов. Доработав Llama 2 70B на трёх итерациях этого подхода, они получили модель, которая превосходит многие существующие системы в таблице лидеров AlpacaEval 2.0: например, Claude 2, Gemini Pro и GPT-4 0613.

Более подробно итерации обучения, применяемые в подходе, описали в канале «Душный NLP».

Разбор подготовил ❣ Никита Фёдоров
ML Underhood

И ещё несколько кадров, чтобы проникнуться атмосферой конференции.

2025-08-14T13:22:16+00:00

И ещё несколько кадров, чтобы проникнуться атмосферой конференции.

P. S. KDD 2026 анонсировали в Южной Корее: надеемся, про «Игру в кальмара» они просто шутят!

ML Underhood

Теперь вы знаете, кому сказать спасибо за прямые включения с KDD 2025

2025-08-14T13:22:01+00:00

Теперь вы знаете, кому сказать спасибо за прямые включения с KDD 2025

В начале августа в Торонто прошла KDD 2025 — конференция о поиске знаний и анализе данных:

— Обзор свежих публикаций читайте в Рекомендательной.
— Главные цифры конференции и лучшие работы ищите в Душном NLP.

Запомнил и записал для вас всё самое интересное один из наших коллег — инженер Сергей Мить. Именно его портрет рисует роборука на видео выше.

Привёз вам новости ❣ Сергей Мить

ML Underhood

Возвращаемся на ICML 2025

2025-08-11T13:16:10+00:00

Возвращаемся на ICML 2025

Собрали ещё несколько интересных работ вдогонку прошедшей конференции. Сегодня — об оптимизации больших моделей, новых SGD-подходах и работе на тему conformal prediction.

The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training

Крайне любопытная теоретическая статья, показывающая (без доказательства — прямо на постере: «we don't know why»), что график лоссов LLM-претрейна с cosine и WSD lr-шедулерами выглядит практически так же, как график теоретических верхних оценок расстояния финальной точки оптимизации от точки оптимума для выпуклых негладких задач при использовании SGD с cosine/WSD-шедулерами. Что ещё любопытнее — теоретические оценки выводятся для SGD, однако графики LLM-претрейна авторы запускали с Adam — использование адаптивных оптимизаторов ведёт к таким же результатам. Авторы также утверждают, что шедулер WSD удобнее для экспериментов со scaling law.

General framework for online-to-nonconvex conversion: Schedule-free SGD is also effective for nonconvex optimization

Статья берёт новый алгоритм оптимизации Schedule-Free из работы The Road Less Scheduled, демонстрировавшей лучшие на момент публикации результаты в бенчмарке методов оптимизации, и разрабатывает инструменты для теоретического анализа в невыпуклых случаях. Идея Schedule-Free в том, что большинство шедулеров на самом деле похожи на усреднение итераций — алгоритм выглядит схожим образом, как хитрое усреднение параметров итераций. Достоинство подхода — алгоритму не нужно наперёд знать число итераций T для задания расписания шедулера. Текущая статья — теоретическая работа, показывающая, как алгоритм ведёт себя в невыпуклых сценариях. Значительное количество статей по методам оптимизации доказываются для задачи онлайн-обучения в терминах regret — в данной статье авторы также решили воспользоваться достоинствами regret-формулировок для анализа.

Decision Theoretic Foundations for Conformal Prediction: Optimal Uncertainty Quantification for Risk-Averse Agents

На конференции было как минимум 10 (а скорее — больше) статей на тему conformal prediction — её сейчас активно исследуют. Conformal prediction — когда модель предсказывает не один label, а множество, и нужно предсказать такое множество, которому с заданной уверенностью принадлежит правильный ответ. Мы пообщались с автором этой работы — он подробнее рассказал о подходе, математических идеях, а также о том, как эти идеи соотносятся с реальными задачами. Выглядит как хорошая точка входа, чтобы разобраться в теме.

Интересное отобрал ❣ Алексей Морозов

ML Underhood

#YaICML25

Как в Яндекс Погоде использовали фичу для таргета, чтобы улучшить точность предсказания осадков

2025-08-06T14:08:21+00:00

Как в Яндекс Погоде использовали фичу для таргета, чтобы улучшить точность предсказания осадков

Яндекс запустил новые модели краткосрочного прогноза осадков — подробнее о них можно почитать на Хабре. А специально для нашего канала ML-разработчик в Яндекс Погоде Дмитрий Стефеев рассказал о важной идее, которая позволила обойти возникшие в начале работы трудности.

Цель — создать модель регрессии для прогноза выпавших за час осадков (в мм). Основными фичами являются прогнозы глобальных численных моделей (NWP).

Главная проблема заключалась в том, что радарные данные, которые мы используем в качестве таргета для обучения, значительно отличаются от прогноза численных моделей на входе. Всё из-за сложности прогноза осадков. Очень легко промазать как по времени, так и пространству. Все функции потерь и их комбинации, которые мы пробовали, приводили к тому, что модель прогнозировала значительно меньше осадков, чем нужно, боясь промазать. Можно было бы попробовать перейти от регрессии к классификации и подбирать пороги, но их, скорее всего, пришлось бы подбирать для каждого шага прогноза (как делали, к примеру, в Metnet от Google) и, вероятно, они бы отличались для разных мест на Земле и разных сезонов. Это значительно усложнило бы поддержку модели и увеличило вероятность непредсказуемого поведения.

Тогда нам пришла идея использовать прогноз осадков одной из численных моделей в фичах в качестве второго таргета, помимо радаров. Получается, что модель начала частично обучаться к собственной фиче! Сначала мы пробовали выставлять фиксированные веса лоссов к радарному таргету и прогнозу численной модели. Стало значительно лучше, но местами проблема сохранялась. Тогда мы сделали предположение, что веса должны зависеть от согласованности прогноза численных моделей на входе отдельно в каждой точке прогноза: чем более согласованный прогноз дают численные модели, тем меньший вес мы используем для радарного лосса и больший — для лосса численной модели.

В ходе экспериментов мы пришли к простой формуле для весов. Сначала считаем медиану для прогнозов осадков всех численных моделей в каждой точке прогноза. Далее считаем среднюю абсолютную разность прогнозов численных моделей и медианы, а затем делим полученное значение на медиану, клипая результат по подобранным границам. Полученное значение W мы применяем для лосса к радарам, а для лосса к прогнозу численной модели используем вес 1 - W. И такой трюк позволяет полностью устранить проблему с уменьшением объёма осадков — по сути это можно считать регуляризацией выхода модели к численному прогнозу, так как мы привязываем прогноз к физической модели, не давая ему отойти слишком далеко.

Далее мы добавили домножение полученных весов на дополнительные веса, которые линейно зависят от шага прогноза, чтобы по мере увеличения шага снижать вес лосса к радарам и увеличивать к численному прогнозу до подобранного граничного значения.

На изображении выше в первой строке показан пример радарного таргета по первым 12 часам прогноза. Ниже — прогноз нашей модели и прогноз численной модели в дополнительном таргете. Для удобства отображения значения мм приведены к трём классам осадков. Видно, что на первых шагах, прогноз модели больше похож на радары, а далее становится ближе к прогнозу численной модели, что позволяет улучшать качество прогноза на первых шагах за счёт исторических радарных данных, если они доступны на входе модели.

ML Underhood

Как проходит ACL 2025 👀

2025-07-30T13:11:42+00:00

Как проходит ACL 2025 👀

Продолжаем рассказывать, что увидели и услышали на конференции: листайте фото и видео!

В этом году ACL состоялась в Austria Center Vienna — конференц-зале в центре Вены. Красиво не только внутри, но и снаружи. Иногда на докладах людно, иногда — не очень.

Поразило невероятное количество постеров: около 250 только в одном зале. Работы очень разные, от «денег нет, но вы держитесь» до лаконичных постеров на А4. Мы выбрали для вас самые интересные из них — о трендах и статьях читайте в Душном NLP:

В Вене проходит 63-я ежегодная конференция ассоциации компьютерной лингвистики — ACL 2025

Интересное с конференции ACL 2025

Кадры для вас сделали и отобрали ❣ Алексей Березникер и Александр Николайчик

#YaACL25

ML Underhood

Начинаем новую неделю с новой конференцией

2025-07-28T08:05:16+00:00

Начинаем новую неделю с новой конференцией

В Вене стартовала ACL 2025. В ближайшие дни мы будем рассказывать обо всём самом интересном, что увидим на мероприятии, а сейчас поделимся занимательной статистикой.

— Всего на конференцию зарегистрировались около 20 тысяч авторов.
— 51% авторов — из Китая, ещё 18,6% — из США.
— У 67% работ, поданных на ACL, в названии есть LLM.
— Почти так же часто, как LLM, в названиях встречается двоеточие — оно есть в 65% заголовков.

Рассказывайте в комментариях, о чём, связанном с ACL, вам интересно было бы почитать. А, может быть, вы сами на конференции? Тогда обязательно делитесь впечатлениями!

#YaACL25

ML Underhood

AQUA-KV: адаптивная квантизация KV-кэша

2025-07-23T11:10:00+00:00

AQUA-KV: адаптивная квантизация KV-кэша

На ICML 2025 команда Yandex Research представила шесть статей (каких именно — читайте в одном из предыдущих постов) — среди них есть работа, посвящённая методу адаптивной квантизации KV-кэша. Один из авторов, исследователь Yandex Research Алина Шутова, рассказала нашему каналу, в чём суть предложенного в публикации способа.

Одна из ключевых проблем эксплуатации LLM — экспоненциальный рост потребления памяти графических процессоров при обработке длинных контекстов. Это связано с необходимостью хранения KV-кэша. Для современных моделей, таких как Llama 3.2 70B, и контекстов в 131 тысячу токенов, объём KV-кэша может достигать 42,9 ГБ на последовательность, что существенно ограничивает практическое применение и увеличивает стоимость вычислений. Традиционные методы сжатия, такие как примитивное квантование или прунинг, демонстрируют значительную деградацию качества генерации при агрессивных режимах сжатия, особенно в области 2–3 бит на значение.

Предложенный авторами статьи метод AQUA-KV (Adaptive QUAntization for Key-Value) представляет принципиально новый подход, основанный на фундаментальном наблюдении: векторы ключей и значений в соседних слоях трансформера обладают высокой степенью корреляции. Эта структурная избыточность позволяет прогнозировать значительную часть информации слоя k+1 на основе данных слоя k.

Вместо независимого квантования каждого слоя AQUA-KV использует обученные линейные предикторы. Один предиктор предсказывает ключи слоя k+1 на основе ключей слоя k, другой предсказывает значения слоя k+1 по комбинации предсказанных ключей этого слоя и значений слоя k. Обучение этих компактных адаптеров проводится в ходе одноразовой калибровки на целевой модели.

Критический шаг метода — переход от квантования векторов целиком к квантованию только остаточной информации, то есть разности между фактическими векторами слоя и их предсказаниями. Поскольку остаток содержит лишь ту информацию, которую нельзя получить из предыдущего слоя, его информационная энтропия существенно ниже. Эта остаточная компонента подвергается экстремальному квантованию (до 2–2,5 бит на элемент) с применением векторного квантования без данных (data-free VQ), адаптивно оптимизирующего распределение битов под дисперсию остатков. Для восстановления KV-векторов во время инференса используются те же предикторы и деквантованный остаток.

Эксперименты демонстрируют эффективность AQUA-KV. На моделях семейств Llama 3.2 и Qwen 2.5 применение метода с квантованием до 2 бит на значение привело к снижению объёма памяти KV-кэша в 16 раз (с ~43 ГБ до ~2,7 ГБ для контекста в 131K токенов) при сохранении практически исходного качества генерации. Относительное увеличение перплексии составило менее 1%, а деградация точности на задачах длинного контекста из бенчмарка LongBench не превысила 1%. AQUA-KV совместим с любыми методами квантизации, и, как продемонстрировано в работе, заметно улучшает качество всех рассмотренных методов. Метод демонстрирует совместимость с техниками прунинга, такими как H2O, обеспечивая дополнительную экономию памяти. Код AQUA-KV можно найти на GitHub.

ML Underhood

#YaICML25