В этом году конференция проходит сразу в двух странах: США и Мексике. Мы будем вести репортажи из обеих, а начём с Мехико, где уже подошёл к концу первый день. Примечательное собрал Дмитрий Быков, руководитель группы AI-планирования робота доставки.
Лететь в Мексику через Китай оказалось очень необычным опытом :) Маршрут проходит через Аляску, и зимой это невероятно красиво: почти всю дорогу из окна был необычный вид на солнце (картинка 1). В отличие от заката, здесь видна другая часть спектра. Кажется, подобное можно увидеть разве что на Северном полюсе или вот так — из самолёта.
В первый день мы посетили большой воркшоп NeurIPS 2025 Workshop on Embodied and Safe-Assured Robotic Systems. Расскажу о том, что запомнилось с него и в целом.
Toward Efficient and Reliable VLMs
for Real-World Autonomous Systems
Работа на тему улучшения VLM. Изначальная идея авторов была максимально простой: часто для получения нужной информации используют несколько разных энкодеров и затем их фьюзят.
В модели LEO исследователи как раз отказались от фьюзинга и получили SOTA по метрикам — но столкнулись с очень долгим инференсом. Ну а в LEO-mini они попытались разобраться, в чём именно проблема фьюза. Оказалось, что если добавить текстовый запрос, модель может понимать, какая информация из каких энкодеров нужна для конкретной задачи.
Однако моделей становилось много, и в работе над Hawaii авторы решили пойти дальше: с помощью CLIP дистиллировали выходы всех энкодеров в один CLIP-энкодер. В результате получилась одна модель с одним энкодером.
Systematizing the Unusual: A Taxonomy-Driven Dataset for Vision–Language Model Reasoning About Edge Cases in Traffic
Рассказ об эдж-кейсах в автономном вождении — причём самых разных типов и причин.
Кейсы авторы собирали вручную из интернета, и на их основе построили онтологию дорожных опасностей и ожидания корректного поведения модели.
Забавно, что было сделано сравнение с GPT-5: в целом видно, что есть прогресс, но при этом текущие метрики проседают. Например, в кейсе с дорогой и коровой (картинка 2) GPT-5 не видит корову, даже если напрямую спросить о ней (при этом на кропе корову распознаёт).
Diversity-Guided Genetic Algorithm for Safety-Critical Scenario Generation in Autonomous Driving Testing
А вот это уже совсем необычная вещь — вызывающая у меня сомнения, но всё же любопытная.
Исследователи решили генерировать сложные сценарии с помощью генетических алгоритмов. У них был набор признаков, и они прямо генетическим алгоритмом смешивали эти признаки, «максимизируя разнообразие».
Имхо: о настоящем разнообразии здесь речи идти не может — потому что разнообразие в таких задачах — это редкие, неожиданные случаи, а не механическая генерация «разнообразных» сцен по шаблону.
Больше о том, что было интересного на тему безопасности и масштабируемости автономного транспорта, написали в канале @DriverNotFound.
#YaNeurIPS25
ML Underhood