ML Underhood — пост #202

Всего 38 часов лёту — и мы на NeurIPS в Мехико!

В этом году конференция проходит сразу в двух странах: США и Мексике. Мы будем вести репортажи из обеих, а начём с Мехико, где уже подошёл к концу первый день. Примечательное собрал Дмитрий Быков, руководитель группы AI-планирования робота доставки.

Лететь в Мексику через Китай оказалось очень необычным опытом :) Маршрут проходит через Аляску, и зимой это невероятно красиво: почти всю дорогу из окна был необычный вид на солнце (картинка 1). В отличие от заката, здесь видна другая часть спектра. Кажется, подобное можно увидеть разве что на Северном полюсе или вот так — из самолёта.

В первый день мы посетили большой воркшоп NeurIPS 2025 Workshop on Embodied and Safe-Assured Robotic Systems. Расскажу о том, что запомнилось с него и в целом.

Toward Efficient and Reliable VLMs
for Real-World Autonomous Systems

Работа на тему улучшения VLM. Изначальная идея авторов была максимально простой: часто для получения нужной информации используют несколько разных энкодеров и затем их фьюзят.

В модели LEO исследователи как раз отказались от фьюзинга и получили SOTA по метрикам — но столкнулись с очень долгим инференсом. Ну а в LEO-mini они попытались разобраться, в чём именно проблема фьюза. Оказалось, что если добавить текстовый запрос, модель может понимать, какая информация из каких энкодеров нужна для конкретной задачи.

Однако моделей становилось много, и в работе над Hawaii авторы решили пойти дальше: с помощью CLIP дистиллировали выходы всех энкодеров в один CLIP-энкодер. В результате получилась одна модель с одним энкодером.

Systematizing the Unusual: A Taxonomy-Driven Dataset for Vision–Language Model Reasoning About Edge Cases in Traffic

Рассказ об эдж-кейсах в автономном вождении — причём самых разных типов и причин.

Кейсы авторы собирали вручную из интернета, и на их основе построили онтологию дорожных опасностей и ожидания корректного поведения модели.

Забавно, что было сделано сравнение с GPT-5: в целом видно, что есть прогресс, но при этом текущие метрики проседают. Например, в кейсе с дорогой и коровой (картинка 2) GPT-5 не видит корову, даже если напрямую спросить о ней (при этом на кропе корову распознаёт).

Diversity-Guided Genetic Algorithm for Safety-Critical Scenario Generation in Autonomous Driving Testing

А вот это уже совсем необычная вещь — вызывающая у меня сомнения, но всё же любопытная.

Исследователи решили генерировать сложные сценарии с помощью генетических алгоритмов. У них был набор признаков, и они прямо генетическим алгоритмом смешивали эти признаки, «максимизируя разнообразие».

Имхо: о настоящем разнообразии здесь речи идти не может — потому что разнообразие в таких задачах — это редкие, неожиданные случаи, а не механическая генерация «разнообразных» сцен по шаблону.

Больше о том, что было интересного на тему безопасности и масштабируемости автономного транспорта, написали в канале @DriverNotFound.

#YaNeurIPS25

ML Underhood