Конференция в самом разгаре — доклады и постеры сыпятся на нас как из рога изобилия. А мы выбираем самые любопытные и рассказываем вам.
Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective
Статья посвящена решению проблемы, при которой модель после DPO генерирует ответы длиннее, чем референсная модель. Это связано с тем, DPO отдаёт предпочтение последним токенам, а не первым. Чтобы исправить проблему, авторы предлагают добавить множитель \gamma \in (0, 1) в лосс. Лосс для токена в позиции t умножается на \gamma^t. Аналогия с классическим RL ясна, хотя нужно понимать, что это не discount factor, а просто что-то похожее по смыслу. Такая политика мало отличается от оптимальной, а задача выбора гаммы выпуклая (около 0,99 будет достаточно, но лучше подобрать для каждого случая отдельно).
Progressive Mixed-Precision Decoding for Efficient LLM Inference
Квантизация, отмечают авторы, хороший способ снизить требования LLM к вычислительным мощностям. Однако применение низкой точности (2-3 бита) ведёт к сильному ухудшению качества. Авторы предлагают новый фазо-ориентированный метод, который избирательно распределяет точность между различными фазами инференса и вводят технику, позволяющую постепенно снижать точность по мере углубления в сгенерированную последовательность.
По сути для каждого токена выбирается битность. У авторов есть обучаемый шедулер, который предсказывает, когда надо переключаться на меньшую битность. Он очень чувствителен к гиперпараметрам, датасету и обучению. В будущем его хотят интегрировать внутрь самой LLM. А саму квантизацию наследуют из статьи Any-precision LLM. В ней префикс веса нужной битности — это ключ в lookup-таблице весов, что позволяет не использовать дополнительную память под разные битности.
What is Wrong with Perplexity for Long-context Language Modeling?
Очень простая идея для длинного контекста — считать лосс в основном на key-токенах, где лосс, обусловленный на длинный контекст, сильно отличается от короткого. На long-бенче у авторов получилась значительная корреляция со скором по сравнению с обычной ppl, что немного смущает, и улучшения от такого тюна.
RRM: Robust Reward Model Training Mitigates Reward Hacking
Авторы заявляют, что современные реворд-модели не способны эффективно различать контекстуальные сигналы и нерелевантные артефакты при определении предпочтений. В статье предлагается обучать предпочтения, независимые от подобных артефактов, а также новая техника аугментации данных, специально разработанную для их устранения.
Авторы делают случайную перестановку датасета и расширяют его всеми возможными комбинациями i оригинальной тройки и sigma_i — тройки на позиции i после перестановки. Всего комбинаций 16 штук.
Победитель в полученных парах определяется так:
— если в паре один ответ на этот запрос, а второй от другого запроса, то побеждает всегда тот, который отвечает на «свой» запрос;
— если оба ответа от другого запроса, то это ничья.
Получается огромный датасет, в котором много тривиальных пар, где плохой ответ явно не от того запроса. Авторы фильтруют этот датасет с помощью предыдущей версии RM, оставляя только негативы и неуверенные.
How new data permeates LLM knowledge and how to dilute it
Авторы показывают, что при усвоении новой информации LLM проявляют эффект «прайминга»: изучение нового факта может привести к тому, что модель начнёт некорректно применять это знание в несвязанных контекстах. Чтобы это исправить, предлагают игнорировать самые большие градиенты — то есть не обновлять тот процент весов, который получил бы самый большой градиентный апдейт.
Интересные постеры увидели
#YaICLR