ML Underhood — пост #262

NeurIPS 2025: доклады и идеи, к которым хочется вернуться

Конференция завершилась, но интересного на ней было так много, что мы продолжаем рассказывать о работах и докладах, заслуживающих внимания. CTO Яндекс Поиска Екатерина Серажим тоже побывала на площадке в Сан-Диего и поделилась своим заметками.

The Oak Architecture: A Vision of SuperIntelligence from Experience

На первом фото — Сан-Диего, 8 утра. Все спешат на Invited Talk Ричарда Саттона :) Доклад рекомендую: Саттон говорит, нужно не запихивать знания в агентов, а строить их такими, чтобы они масштабируемо и непрерывно изучали мир. Предлагает концепцию того, как это может быть.

WebDancer: Towards Autonomous Information Seeking Agency

У команды есть целая серия работ про deep research: на NeurIPS попала эта статья, остальные планируют представить на ICLR 2026. Авторы хитро генерируют синтетические сложные запросы, которые требуют нескольких поисков: сначала с помощью ChatGPT и других моделей составляют цепочки поисковых шагов, затем отбирают запросы, где эти цепочки не слишком длинные и не короткие, и уже на них обучаются.

Я попросила одного из авторов посоветовать другие работы на ту же тему, которые кажутся ему стоящими, и делюсь списком:

— WebSailor;
— WebSailor v2;
— Tongyi Deep Research;
— WebThinker;
— Mind2Web;
— Mind2Web v2.

А ещё пригласила ребят к нам в Москву :)

The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement

Checklists Are Better Than Reward Models For Aligning Language Models

Встретилось несколько интересных работ, где модели-генераторы улучшают с помощью моделей-критиков с текстовым фидбеком. Идея логичная: разбивать ответ на атомарные проблемы, просить модель их исправлять и учиться на этом.

ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning

Ребята из Google Cloud создали агента-планировщика путешествий. Командам, которые делают нейропродукты, будет полезно посмотреть на используемые пайплайны и промпты.

The Art of Artificial Reasoning for (Small) Language Models

Интересный кейноут Еджин Чой (Стэнфорд и NVIDIA) на тему маленьких языковых моделей. В докладе было не только визионерство, но и результаты. А ещё — мемы и трюки.

#YaNeurIPS25

ML Underhood