Недавно завершилась ICML 2024. На конференции побывал руководитель R&D в Геосервисах Яндекса Дмитрий Бабаев и специально для нашего канала поделился впечатлениями от события. А заодно — рассказал о нескольких интересных докладах. Итак, слово Дмитрию:
Было очень много статей из мира LLM и на связанные темы, например, RLHF. Обучение с подкреплением — всё ещё активно развивающееся направление исследований, и статей было достаточно много.
Показалось, что было не так много докладов по компьютерному зрению. Вероятно из-за того, что есть хорошие специализированные конференции. Почти не попадались статьи о классическом ML.
Зато появился новый интересный формат публикаций — position papers. В них исследователи описывают свой взгляд на важную проблему или возможные направления исследований. Думаю, что это полезный формат.
Несколько интересных статей по RL.
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
Oral-статья от авторов из DeepMind. В ней прекрасно не только название, но и содержание. Авторы развивают идеи из старых статей — например, из Improving Regression Performance with Distributional Losses — о том, что замена MSE-функции потерь на нечто, похожее на классификацию, делает обучение нейросетей более стабильным. Исследователи показывают, что такая замена очень полезна для обучения прогнозу будущих наград во многих задачах в RL-постановке.
Статья не только представляет интерес для исследователей и пользователей RL, но и наводит на мысли о том, где ещё такая модификация задачи регрессии может помочь.
WARM: On the Benefits of Weight Averaged Reward Models
Ещё одна статья от DeepMind. Авторы показывают, что для решения проблемы с хакингом наград в RLHF помогает обучить несколько моделей оценки награды и усреднить их веса. Интересно, что этот метод работает немного лучше, чем ансамбль моделей.
Learning to Model the World with Language
Oral-статья от авторов из Беркли, в том числе от таких известных исследователей как Данияр Хафнер и Питер Аббил. Интересно, что предыдущую версию этой публикации не взяли на ICLR, а на ICML она попала сразу в список oral-статей.
Авторы использовали DreamerV3 и добавили к входным наблюдениям-картинкам ещё и полезный текст. Оказалось, что агент начинает эффективно использовать текст и неявно учится связывать текстовую и картиночную информацию.
DreamerV3 сам по себе достаточно интересен. Например, с его помощью впервые удалось решить задачу получения алмазов в игре Minecraft без каких-либо подсказок или демонстраций.
ML Underhood