Отгремела конференция ICML, но делиться впечатлениями от мероприятия никогда не поздно. Руководитель команды YandexGPT Alignment Андрей Бут рассказал нашему каналу, чем ему запомнилось событие и на какие статьи стоит обратить внимание.
Первое и главное впечатление — LLM добрались и до ICML. Им была посвящена примерно треть работ. Ну что же, о времена, о нравы.
С другой стороны, большой плюс конференции в том, что организаторы смогли поддержать разнообразие работ по всем темам. Можно было найти и «хардкорную математику» и обзорные position-статьи. Приятно порадовали работы по RL — причём за счёт того, что работы по RLHF были вперемешку со «взрослым RL», можно было оценить применимость к области LLM.
Несмотря на рост числа работ, по-прежнему остаётся опция пообщаться за постером (привет, NeurIPS). Хотя охватить все интересные статьи — скорее невозможная задача.
Интересные статьи
A Closer Look at the Limitations of Instruction Tuning
В этой работе авторы задаются вопросом: какие есть минусы у Supervised Finetuning (SFT) и может ли обучение с LoRA побороть их? Исследователи опираются на тот факт, что при SFT модель чаще галлюцинирует и подстраивается под SFT-датасет. Проводятся различные эксперименты, чтобы доказать эту гипотезу. В статье показано, что LoRA выдаёт лучший результат на нескольких общепризнанных датасетах — например, SFT-Alpaca-52k, SFT-Wizard-LM и других.
Self-Rewarding Language Models
В этой работе исследователи задаются вопросом: можно ли отказаться от дорогой preference-разметки? Авторы предлагают подход, в котором исходная модель используется для генерации новых инструкций и ответов, а также для их оценки! За три итерации такой метод выдаёт сильные результаты, превосходящие Claude 2, Gemini Pro и GPT-4 0613.
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
Авторы этой публикации рассматривают преимущества двух популярных алгоритмов для RLHF: DPO и PPO. В работе есть как интересные теоретические находки (область решений PPO строго вложена в область решений DPO), так и практические советы о том, как добиться лучших результатов для каждого из подходов. Своими замерами авторы демонстрируют, что при правильном «приготовлении» PPO превосходит DPO.
Душный NLP