Конференция KDD 2025 в цифрах

В начале августа в Торонто прошла KDD 2025 — ведущая конференция по поиску знаний и анализу данных. Событие посетили инженеры из Яндекса, которые принесли нам слайды с занимательной статистикой, а также поделились интересными статьями.

Главные цифры конференции:

— 2332 зарегистрированных участника;
— более 700 научных работ в основных и прикладных треках;
— в программе — шесть тематических дней, 30 воркшопов и 30 обучающих сессий.

В этом году больше всего заявок поступило из Китая (43,8%), США (24,5%) и Индии (11,7%), а среди принятых статей доля Китая выросла до 55,8%. Спонсорами выступили Google, Meta*, Amazon, Baidu, LinkedIn, Tencent, Bloomberg, Apple и другие технологические компании.

В исследовательском треке главный студенческий приз получила работа по снижению смещения в рекомендательных системах. А награду Test of Time присудили исследованию коллаборативного DL для рекомендательных систем.

Больше деталей и цифр — на слайдах.

Компания Meta, владеющая Instagram, признана экстремистской; её деятельность в России запрещена.

За статистикой следил Сергей Мить

Душный NLP
3 622 просмотров · 15 реакций Открыть в Telegram · Открыть пост на сайте
Лучшие работы Dissertation Award и немного статистики: подводим итоги ACL 2025

В этом году Ассоциация компьютерной лингвистики (ACL) учредила награду для лучших PhD-диссертаций. Критериев выбора несколько. Исследование должно:

⚪️быть связным и хорошо написанным;
⚪️охватывать одну из областей интереса ACL;
⚪️удовлетворять принятым в академии методологиям;
⚪️вызывать желание прочитать его целиком.

Диссертацию пубедителя публикуют в журнале Computational Linguistics, который индексируется в Scopus и Web of Science, а также стабильно входит в I и II квартиль.

В этом сезоне с 1 сентября 2022-го по 31 августа 2024 года на рассмотрении комиссии подали 29 диссертаций. Почётного упоминания удостоились работы:

Human-AI Collaboration to Support Mental Health and Well-Being
Ashish Sharma


Диссертация сдвигает границы взаимодействия человека с ИИ: автор исследует способы выявлять и имитировать эмпатию, расширяя возможности применения NLP для улучшения ментального здоровья людей.

Modeling Cross-lingual Transfer for Semantic Parsing
Tom Sherborne


В этой диссертации развивают высокоточные методы кросс-лингвистического трансфера для языков, на которых собрано слишком мало датасетов для разработки и обучения моделей. Эффективность методов демонстрируется в контекст семантического парсинга для интеграцим с базами данных API.

Лучшей диссертацией стала работа об LLM:

Rethinking Data Use in Large Language Models
Sewon Min


На фото улыбается победительница — Sewon Min, одна из самых известных учёных в области обработки естественного языка. Она специализируется на языковых моделях, использующих контекст. Большинство её статей посвящено задаче автоматического ответа на вопросы, в частности, проблеме повышения фактической корректности ответа.

В диссертации Sewon Min сосредоточилась на более узких темах: генерации на основе примеров (fewshot-learning), а также непараметрических языковых моделях, которые используют для генерации внешний корпус. В исследование вошло множество инсайтов о поведении и возможностях больших лингвистических моделей в рамках обучения с контекстом. Эти находки сформировали сегодняшнее ядро NLP.

Больше о трендах и лучших статьях конференции читайте в предыдущих постах:

В Вене проходит 63-я ежегодная конференция ассоциации компьютерной лингвистики — ACL 2025

Интересное с конференции ACL 2025

Запомнили для вас всё самое интересное Алексей Березникер и Алексей Сорокин

#YaACL25

Душный NLP
4 051 просмотров · 18 реакций Открыть в Telegram · Открыть пост на сайте
Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

Сегодня разберём статью от команды Qwen о том, как они придумали новый LBL-лосс для обучения MoE.

В MoE-моделях токены по экспертам распределяет роутер. LBL — вспомогательный лосс, который делает распределение равномерным, чтобы избежать перегрузки одних экспертов и голода других.

Обычно LBL считают на уровне отдельного микробатча каждого DP-ранка, а потом усредняют полученные LBL по всем микробатчам. Но заставлять роутер распределять токены равномерно в рамках одного микро-батча — довольно строгое ограничение. Пара длинных семплов может заполнить весь микро-батч, и тогда, если эти семплы пришли из одного домена, роутер всë равно будет вынужден разослать эти токены равномерно по всем экспертам. Так теряется логика специализации экспертов.

Для того чтобы избежать потери специализации, авторы предлагают считать LBL на уровне глобального батча (global-batch), где больше разнообразия данных. Как? Добавляют шаг коммуникации: синхронизируют нужные для подсчёта LBL статистики роутера по выбору экспертов со всей DP-группы, то есть со всех микробатчей. Рассмотрим пример:

1. Вообразим 2 карты и обучение с DP.
2. А к ним — 4 эксперта и 16 токенов (после пермьюта).
На первой карте токены распределятся по экспертам так: [0, 0, 8, 8]. На второй — [8, 8, 0, 0].
3. Для micro-lbl этот лосс будет на каждой карте ругать роутер за неравномерное распределение токенов.
5. Но если мы соберём глобальную статистику (то есть, сложим вектора распределений со всех карт), то получим [8, 8, 8, 8]. Это идеальная равномерность и macro-lbl на такое не обижается.
6. macro-lbl даёт роутеру больше свободы, что конвертируется в прирост качества.

Авторы отмечают значительный рост производительности при обучении новым методом: модели с глобальной балансировкой показывают лучшие результаты как по лоссам, так и на различных бенчах. А ещё у экспертов появляется настоящая специализация: чёткая и интерпретируемая на доменах (код, математика, разные языки).

Предложенный метод при эффективной реализации совсем не замедляет обучение. Можно собрать статистики каждого слоя и сделать лишь одну незначительную коммуникацию в конце.

Разбор подготовил Даниил Сухой

Душный NLP
3 147 просмотров · 24 реакций Открыть в Telegram · Открыть пост на сайте
POV: на улицах пусто, все ушли на воркшопы

Вот так сегодня выглядели окрестности Austria Center Vienna — конференц-зала в центре Вены, где проходит ACL 2025.

Мы тоже на воркшопах, поэтому сегодня больше ничего не покажем и не расскажем. Зато на следующей неделе вернёмся подытожить, чем запомнилась конференция.

До связи!

Нашёл минутку выглянуть на улицу Алексей Березникер

#YaACL25

Душный NLP
3 719 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
Интересное с конференции ACL 2025

Мы снова выходим на связь — с любопытными постерами продолжающейся ACL.

AdParaphrase v2.0: Generating Attractive Ad Texts Using a Preference-Annotated Paraphrase Dataset

Исследователь предлагает набор данных для переформулировок рекламных текстов, содержащий данные о предпочтениях 10 асессоров. Набор позволяет анализировать лингвистические факторы и разрабатывать методы создания привлекательных рекламных текстов.

Утверждают, что анализ продемонстрировал взаимосвязь между предпочтениями пользователей (асессоры) и эффективностью рекламы (CTR). На фото есть график со значимостью исследуемых факторов.

Semantic Outlier Removal with Embedding Models and LLMs

Любопытная прикладная статья о том, как быстро почистить страницу от мусора, не относящегося к основной теме. Берём все HTML-теги с текстом и их уровень вложенности. Отдаём всё это эмбеддеру, а отдельно ему же — тайтл и основную тему. Затем просто режем по расстоянию. Автор статьи утверждает, что такой подход эффективно фильтрует, футеры, меню и тому подобное.

Learning to Insert [PAUSE] Tokens for Better Reasoning

Делая фиктивные паузы и «вздохи» в рассуждениях, модель приходит к лучшим ответам. Авторы изучали возможность улучшения ризонинга за счёт добавления спецтокенов (PAUSE) в процесс обучения LLM. У авторов уже были успешные исследования на эту тему. Конкретно в этой работе представили подход динамического определения позиции для вставки спецтокенов.

Интересное увидели Алексей Березникер и Александр Николайчик

#YaACL25

Душный NLP
3 171 просмотров · 14 реакций Открыть в Telegram · Открыть пост на сайте
В Вене проходит 63-я ежегодная конференция ассоциации компьютерной лингвистики — ACL 2025

А мы как всегда следим 👀 и делимся с вами самым интересным. Мы уже публиковали занимательную статистику c конференции в канале ML Underhood (кстати, подписывайтесь!), а теперь настало время поговорить о статьях.

Конференцию открыл часовой кейноут Люка Зеттлемойера, профессора Paul G. Allen School of Computer Science & Engineering в Университете Вашингтона, старшего научного руководителя Meta* и президента ACL. Он рассказал о том, как стандартный пайплайн обучения LLM: токенизация, претрейн и элаймент, несмотря на невероятный успех, почти наверняка имеет множество возможностей улучшения, которые мы упускаем. Доклад был построен вокруг трех векторов исследования:

повышения эффективности обработки данных после обучения;
— новых методов извлечения большего количества сигналов из данных претрейна, включая новые иерархические архитектуры для языковых моделей байтового уровня (BLT), которые не требуют использования токенизаторов и масштабируются лучше, чем традиционные методы на основе BPE;
— одного из подходов к MoE — FlexOLMo.

Все три темы были интересными! А вот ещё н несколько докладов, которые отметили яндексоиды:

Human-LLM Coevolution: Evidence from Academic Writing

Довольно ожидаемо авторы утверждают, что с появлением Chat GPT частотность употребления некоторых слов в научных статьях резко изменилась. Затем исследователи делают ещё один шажок и говорят, что это не обязательно означает, что LLM пишут статьи. Скорее мы наблюдаем, как люди, много взаимодействующие с LLM, оказываются под их влиянием и изменяют свои паттерны словоупотребления.

From Words to Worlds: NLP for Game Creation and Interaction

Индустриальный рассказ об Epic Games об использовании LLM для NPC в играх. Пользователь, играя, может задать произвольный вопрос и персонаж будет отвечать (естественно, со своим характером и т. п.). Это выглядит здорово и меняет опыт взаимодействия с игровым миром. Решение внедрили в Fortnite пару месяцев назад, она работает поверх чужих API и позволяет поговорить с Дартом Вейдером. Также они делают свой code completion и анимацию персонажей с помощью AI.

Understanding Impact of Human Feedback via Influence Functions

Исследователи оценили влияние фидбека человека, введя понятие функции влияния, и пришли к выводам, что это влияние превосходит показатели базовой LLM. Ещё более сильным негативным влиянием обладает ошибочный фидбек. Авторы разработали подход, который позволяет это детектировать и, следовательно, убирать или исправлять.

* Компания Meta признана экстремистской организацией в России.

Наблюдениями делились Алексей Березникер и Александр Николайчик

#YaACL25

Душный NLP
2 524 просмотров · 13 реакций Открыть в Telegram · Открыть пост на сайте
Qwen3-Coder

Alibaba представила Qwen3-Coder — новую MoE-модель, заточенную под задачи программирования. Самая крупная версия — на 480 миллиардов параметров, из которых активные — 35 миллиардов. Контекстное окно Qwen3-Coder-480B-A35B-Instruct составляет 256 тысяч токенов с возможностью расширения до миллиона с помощью YaRN. Число поддерживаемых языков программирования — 358.

Qwen3-Coder адаптирован для агентного программирования (Agentic Coding) — то есть модель не просто пишет код, а полноценно использует инструменты и принимает решения. Ранее в июле Moonshot AI представила MoE-модель KIMI-K2, которая тоже поддерживает агентное программирование. Заметен переход к нему.

Qwen3-Coder тренировали на 7,5 триллиона токенов, 70% из которых — код. Для очистки и перезаписи шумных данных использовали Qwen2.5-Coder. Во время RL модель учили на реальных задачах, которые нужно было решать с помощью различных инструментов. Здесь на помощь пришла инфраструктура Alibaba Cloud — на её основе инженеры компании построили систему из 20 тысяч параллельных изолированных сред для обучения.

В результате, как сообщают разработчики, Qwen3-Coder демонстрирует лучшие результаты на SWE-Bench Verified среди всех открытых моделей, а по качеству решение Alibaba сопоставимо с Claude Sonnet 4. Опробовать Qwen3-Coder можно по ссылке.

Вместе с новой моделью Alibaba открыла и код инструмента командной строки для агентного программирования — Qwen Code, основанного на форке Gemini Code. В него добавили кастомные подсказки и протоколы вызова функций.

Душный NLP
4 541 просмотров · 20 реакций Открыть в Telegram · Открыть пост на сайте
Новая порция постеров с ICML 2025 — в последний день конференции

Independence Tests for Language Models

Авторы задаются вопросом, как проверить, являются ли две модели независимыми, или одна из них — это файнтюн другой? А может быть, у них общий предок? Чтобы узнать это, вводят специальный тест, основанный на перестановках весов. Предположим, что две модели имеют одинаковые архитектуры и размер. Тогда можно сгенерировать много перестановок весов для одной модели и считать статистики между этими перестановками и весами второй, а на основе этого вывести p-value.

Подход работает, если алгоритм обучения эквивариантен к перестановкам (сначала обучить, а потом переставить, или наоборот — в любом случае, получим один и тот же порядок весов), а перестановки при этом не меняют распределение весов на этапе инициализации модели. Для моделей с разными архитектурами можно делать сравнение слоёв с одинаковыми размерами. При этом надо учесть, что порядок нейронов может быть другим. Авторы убедились, что метод работает на моделях c Hugging Face из семейства Llama и её тюнов — посчитали, какие слои Llama-3.1 8B обрезали, чтобы получить Llama-3.2 3B.

Softmax is not Enough (for Sharp Size Generalisation)

Простое и понятное исследование с практическими рекомендациями. В аттеншне используется софтмакс, от которого мы, как правило, ждём разреженности и фокуса на небольшом количестве токенов. На практике так не получается — особенно с ростом длины последовательности. Софтмакс неизбежно размазывается по всей последовательности. Оно и понятно: числитель в софтмаксе остается неизменным, а знаменатель растёт с длинной последовательности. Что делать: авторы предлагают адаптивно подстраивать температуру так, чтобы энтропия оставалась постоянной.

What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?

При обучении на задачах с решением и ответом можно смотреть на две метрики: перплексия правильного решения и точность финального ответа. Точность оценивается с помощью генерации нескольких решений, по которым считается средняя accuracy ответа. На разных примерах модель может вести себя по-разному: на каких-то в начале или середине обучения показывает высокую точность, но и высокую перплексию решения. Это хорошие примеры — модель ещё не запомнила ground truth-решение, но при генерациях приходит к правильному ответу. А бывают сложные примеры, в которых в течение обучения точность низкая, и растёт только тогда, когда перплексия ground truth-решения становится достаточно маленькой. То есть модель ничего не может выучить из этого примера, а лишь запоминает его. В статье предлагается метрика — точность до запоминания, — которая позволяет такие примеры разделять. На основе этого можно генерировать примеры, похожие на сложные, и повышать точность модели.

Overtrained Language Models Are Harder to Fine-Tune

Авторы делают следующее наблюдение: чем дольше мы претрейним модель, тем сложнее её потом файнтюнить. Как проверяют: берут чекпоинты открытых моделей с разных точек обучения, и измеряют точность на бенчмарках после претрейна и после файнтюна этого чекпоинта.

Оказывается, что в какой-то момент метрики после файнтюна начинают ухудшаться. Почему так происходит? Модель становится более чувствительной к изменениям весов. Авторы попробовали добавлять гауссовский шум к весам с разной дисперсией на разной длине обучения, и смотрели, как изменяется перплексия. Чем дольше учится модель, тем больше разница между перплексиями до и после добавления шума. То же самое происходит и при файнтюне.

Во всех результатах lr сводится к нулю. В первый день конференции была статья, в которой утверждалось, что если не сводить, то результаты на дообучении (файнтюне) будут лучше. Приятно, что независимые наблюдения сходятся.

Интересным поделился Ермек Капушев

#YaICML25

Душный NLP
3 386 просмотров · 18 реакций Открыть в Telegram · Открыть пост на сайте
И ещё постеры с ICML 2025

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Статья показывает, как с помощью маленькой модели (1,5-7В) добиться качества на уровне больших вроде OpenAI o1. Для этого использует реворд-модель, которая умеет оценивать каждый шаг в рассуждении (process reward model, PRM) и генерируют рассуждения с помощью Monte Carlo Tree Search.

Как получить качественную PRM: шаг за шагом бустим политику и PRM. Сначала обучаем начальную политику на синтетике от DeepSeek-coder v2 (236B). Далее, используя её, получаем данные для обучения PRM. Следующим шагом с помощью и политики, и PRM генерируем новые более качественные данные. Обновляем все модели. А в конце полируем их, генерируя и обучаясь на траекториях для более сложных задач.

На каждом шаге для валидации правильности шагов используется код (то есть просят модель сгенерировать python-код для проверки шага). Результат — улучшение скоров на десятки процентов на математических бенчмарках.

VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data

Ещё немного о PRM — VersaPRM. Авторы заметили, что такие модели работают только для математики, но не на остальных доменах (биология, философия, юридический домен). Проблема в данных — нет качественных размеченных пошаговых рассуждений для этих доменов.

Взяли вопросы из нужных доменов, сгенерировали рассуждения небольшой моделью (Llama-3.1 8B), оценили каждый шаг большой моделью (Llama-3.1 80B), и обучили на этом PRM. Далее при генерации ответов — взвешенный majority vote, где в качестве весов используют усреднённое по шагам предсказания PRM.

Получают хорошие приросты по всем доменам. Правда, тут есть вопросы, так как для обучения и теста применяют данные из одного и того же бенчмарка MMLU-Pro.

CollabLLM: From Passive Responders to Active Collaborators

На сессии Alignment and Agents был доклад, отмеченный как Outstanding Paper. Он посвящён тому, что диалоговая модель иногда должна отвечать не сразу, а сначала уточнить запрос пользователя — но без лишней «болтовни». Доклад довольно простой, и при этом получил признание.

Интересное увидели Алексей Поспелов и Ермек Капушев

#YaICML25

Душный NLP
2 166 просмотров · 18 реакций Открыть в Telegram · Открыть пост на сайте
Несём новую порцию статей с ICML 2025

Продолжаем рассказывать о том, что увидели на конференции.

Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models

Для нахождения плохих или, наоборот, хороших примеров в датасете часто используют influence function — это некоторый скор, который показывает, насколько сильно изменится лосс, если пример убрать из обучения. Проблема в том, что для вычисления функции надо обращать гессиан по параметрам модели, что вычислительно очень сложно.

В этой статье заметили, что на самом деле можно смотреть только на градиенты модели по примерам, которые мы проверяем. Если они сонаправлены с градиентами по данным из обучения — примеры хорошие, и наоборот. Далее, на основе этого можно применять методы детекции аномалий для нахождения примеров, которые портят обучение, и отфильтровывать их (но можно делать и наоборот — искать хорошие примеры и добавлять их в обучающую выборку). Основное преимущество метода — вычислительная простота; не нужны супердорогие обращения гессиана: только forward и backward pass модели для заданных примеров.

Towards Memorization Estimation: Fast, Formal and Free

Как померить меморизацию посэмплово, запоминала модель пример или нет? Для этого надо обучить модель один раз на данных с этим примером, а потом ещё несколько моделей на данных без него, и померить лосс на примере. Это очень дорого вычислительно. Но можно сделать проще — вычислять лосс на примере несколько раз в течение обучения и посчитать сумму. Если она выше некоторого порога, значит модель не смогла запомнить пример.

Где это можно применять? Для фильтрации данных. Если вдруг модель никак не может выучить какой-то пример, то, вероятно, в нём есть шум (например, неправильное решение математической задачи или неполное условие). Такие примеры можно выкидывать и улучшать точность модели или уменьшать компьют на обучение. Интересная и простая идея, надо проверять, действительно ли она будет работать для LLM (в статье проверяли только на задаче компьютерного зрения, в которой одни и те же данные проходят несколько эпох).

NICE Data Selection for Instruction Tuning in LLMs with Non-differentiable Evaluation Metric

В этой статье снова задаются вопросом, как выбирать такие примеры для обучения, чтобы на валидации получать хорошее качество. Отличие в том, что качество на валидации измеряется не лоссом, а произвольной необязательно дифференцируемой функцией (например, accuracy). В качестве её градиента используют policy gradient.

Jailbreaking LLMs and Agentic Systems: Attacks, Defenses, and Evaluations

На туториале рассказали о защите языковых моделей от нарушения политик элайнмента — например, чтобы модель не выдавала инструкции по созданию опасных веществ или не генерировала дискриминационный контент. Оказалось, что white-box-модели с доступом к весам (например, Llama) до сих пор уязвимы к так называемым token-based-атакам — вставке «мусорных» токенов в промпт. С этим неплохо работают методы поиска инжекта, близкого к кластеру безопасных промптов.

Промпт-инжекты по-прежнему похожи на попытки обмануть не очень внимательного человека, но сейчас работают лучше. Для большинства моделей удаётся подобрать рабочий инжект за 256 попыток («shots»).

Дальше рассказывали о методах защиты. Понятный способ — кластеризовать опасные состояния, добавить состояния отклонения ответа и дообучить модель переходить в них. Однако такой подход снижает качество ответов даже на безобидные вопросы (например, «how to kill python script» — из-за слова kill).

Другой способ — «пошатать» промпты и с помощью majority vote ответов решить, отказаться отвечать или выдать ответ на исходный промпт. При этом иногда ответить может быть приемлемо: например, если инструкция по сборке бомбы нерабочая.

В заключительной части рассказали о взломе агентов. Выяснилось, что там уязвимостей ещё больше, потому что появляется дополнительная возможность дать на вход вредоносный контент, причем его достаточно совсем мало.

Интересное увидели Алексей Поспелов и Ермек Капушев

#YaICML25

Душный NLP
2 395 просмотров · 15 реакций Открыть в Telegram · Открыть пост на сайте
Соскучились по конференциям? Тогда ICML 2025 спешит на помощь!

В Ванкувере стартовала конференция ICML, а это значит, что мы — уже по традиции — будем делиться самым интересным с мероприятия. И вот первая подборка постеров, с пылу с жару.

Scion: Training Deep Learning Models with Norm-Constrained LMOs

Самый популярный оптимизатор — AdamW — не делает никаких предположений о геометрии весов модели. Из-за этого во время обучения надо накапливать и хранить статистики градиента. В Scion сразу вводят предположение о норме весов и используют linear minimization oracle для вычисления их апдейта на каждой итерации. Для разных типов слоёв можно (и нужно) использовать разные нормы.

Получаем менее требовательный к памяти алгоритм — не надо хранить первый и второй моменты градиента. Кроме того, оптимальные гиперпараметры переносятся между моделями разных размеров. А главное — Scion находит лучший лосс по сравнению с AdamW и позволяет сократить общее время обучения на 25-40% . Это происходит благодаря большому батчу.

Learning Dynamics in Continual Pre-Training for Large Language Models

Было много постеров о scaling laws. На этом — исследуют динамику дообучения (continual Pre-training), зависимость от lr schedule и от данных. Заметили, что на дообучении лосс сходится к тому же значению, что и при обучении на этом же датасете с нуля. Кроме того, лосс повторяет форму lr scheduler с некоторой задержкой. Опираясь на это, выводят scaling law. Ну а дальше подбирают некоторые оптимальные гиперпараметры обучения.

Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks

Ещё один интересный постер о scaling law. Здесь показали, что если построить график нормированного лосса (нормируем на финальное значение) от нормированного компьюта (переводим в [0; 1]), то кривые для моделей разных размеров накладываются друг на друга. Причём этот феномен зависит от lr и lr scheduler. Для переобученных моделей кривые будут накладываться с некоторым шумом, а для неоптимальных lr — могут и вовсе расходиться. Также выводят scaling law, который зависит от lr scheduler. Как это можно использовать на практике — пока вопрос открытый.

Layer by Layer: Uncovering Hidden Representations in Language Models

Интересный постер об эмбеддингах промежуточных слоёв трансформера. Всегда считалось, что если нужны эмбеддинги для какой-нибудь задачи (например, классификации), то надо просто снять их с последнего слоя, и будет хорошо. А здесь авторы исследовали, насколько хороши эмбеддинги промежуточных слоёв (проверяют на MTEB), и оказалось, что всегда лучше брать какой-то промежуточный. Чтобы узнать, какой именно — считаем метрику prompt entropy для каждого слоя по некоторому набору входных данных. Чем она меньше — тем лучше будут работать эмбеддинги с этого слоя.

Интересным поделился Ермек Капушев

#YaICML25

Душный NLP
2 444 просмотров · 32 реакций Открыть в Telegram · Открыть пост на сайте
Впечатления от конференции ICLR 2025

Минувшая ICLR была насыщенной и полезной. Мы попросили инженеров Яндекса, посетивших конференцию, поделиться впечатлениями и рассказать о том, что им запомнилось.

Материалы, которые упоминаются в карточках:

Asynchronous RLHF. Faster And More Efficient Off-Policy RL For LLMs
Learning Dynamics of LLM Finetuning
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates
Strong Model Collapse
Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory
IST-DASLab/MoE-Quant: Code for data-aware compression of DeepSeek models

*Компания Meta признана экстремистской организацией в России.

Душный NLP
3 103 просмотров · 21 реакций Открыть в Telegram · Открыть пост на сайте
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Сегодня разберём короткую, но ёмкую статью из Китая. Авторы предлагают опенсорсный метод работы с большими LLM RL: алгоритмы, инфраструктуру кода и датасеты. Забавно, что на момент подготовки обзора у ребят почти пустой GitHub — большая его часть заполнена картинками.

DAPO — Dynamic sAmpling Policy Optimization — не представляет из себя чего-то кардинально нового. Использованные авторами подходы либо витали в воздухе, либо публиковались в других статьях.

Этот метод — модификация GRPO, который в свою очередь получился после улучшения PPO. Все эти алгоритмы объединяет возможность переиспользовать генерации. В обычных on-policy RL-алгоритмах каждый шаг оптимизации требует генерации свежей модели. А в PPO-подобных можно заранее создать большой батч ответов и сделать для него не один, а сразу несколько шагов оптимизации. Зачем? Большой батч эффективнее генерировать!

Новое классное свойство появляется за счёт использования importance sampling и трюка с обрезкой градиентов там, где свежая политика и так уже слишком сильно отличается от той, что сгенерировала данные.

Конкретно DAPO отличается от GRPO четырьмя вещами. Здесь есть:

— Модификация процедуры обрезки градиентов — Clip-Higher. Верхний порог обрезки выше, чем у GRPO, что улучшает итоговое качество.
— Динамическое сэмплирование: авторы предлагают с запасом генерировать ответы и выкидывать те, которые набрали одинаковую награду.
— Усреднение функционала ошибки по токенам, а не по запросам. Это придаёт больший вес длинным генерациям в общем функционале.
— Фильтрация слишком длинных ответов. Ответы, превысившие рекомендуемую длину получают небольшой штраф, а ответы вышедшие за максимальную длину — вообще не участвуют в оптимизации.

Кроме прочего, авторы модифицируют обучающий датасет: используют LLM, которая модифицирует запросы так, чтобы правильные ответы на них были целыми числами. Это упрощает парсинг ответов модели и их валидацию.

Самый классный, на мой взгляд, результат, — авторам DAPO удалось обойти SoTA DeepSeek-R1-Zero-Qwen-32B в решении задач олимпиадной математики. При этом они потратили 50% от мощностей, которые использовали для аналогичного обучения Qwen.

Разбор подготовил Павел Темирчев

Душный NLP
3 141 просмотров · 14 реакций Открыть в Telegram · Открыть пост на сайте
ICLR 2025: что нового в мультимодальном ранжировании

На Хабре вышла статья Алексея Спасёнова и Кирилла Никорова из Поиска Яндекса по картинкам и видео. Алексей и Кирилл побывали на конференции ICLR, которая прошла в апреле в Сингапуре, и привезли с собой не только впечатления, но и (возможно) загар, и (совершенно точно) подборку интересных статей. Полностью ознакомиться с ней вы можете на Хабре, а здесь расскажем о нескольких работах.

Multi-Field Adaptive Retrieval

Работа от авторов из Northeastern University, Augment Code и Microsoft посвящена улучшению поиска по структурированным данным с произвольным числом блоков с помощью подхода под названием Multi-Field Adaptive Retrieval (MFAR).

Авторы комбинируют близость лексикографическую (BM25) и семантическую — на основе векторных представлений. Для вычисления близости между запросом и документом используется скалярное произведение (dot product), а энкодеры дообучаются в контрастивном режиме.

Также применяется механизм внимания: модель учится определять значимость каждого блока документа относительно запроса. На этапе генерации кандидатов сначала выбираются топ-k документов стандартными методами ретривала, после чего проводится уточнение результатов с помощью MFAR.

Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

Авторы из Boston University предлагают подход к задаче Domain Generalization — улучшение обобщающей способности моделей без доступа к целевому домену.

Они улучшают качество поиска с использованием Approximate Nearest Neighbor (ANN) за счёт уточнённых эмбеддингов объектов. Для этого используется аугментация текстовых описаний классов: к каждому классу генерируется набор вариантов запросов, после чего вычисляются эмбеддинги этих текстов.

Центроиды изображений смещаются в сторону усреднённых позиций, рассчитанных относительно эмбеддингов аугментированных текстов. Полученные представления используются для дообучения CLIP — таким образом модель становится более устойчивой к вариативности запросов и доменных сдвигов.

TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

В этой статье авторы предлагают новую архитектуру для ранжирования видео по текстовому запросу. Temporal Token Merging (TempMe) — эффективная в вычислительном плане архитектура с небольшим количеством параметров. Основа архитектуры — text-video-CLIP-модель.
Выигрыш в вычислительном плане достигается благодаря так называемым блокам Intra- и Cross-clip Merging. В них происходят агрегации эмбеддингов похожих кадров и патчей. Тем самым от слоя к слою уменьшается не только пространственная размерность, но и временная.

Авторы получают ускорение в 1,8 раза и улучшение качества ранжирования видео на 4,4% (в терминах mAR@10), по сравнению с предыдущими вычислительно эффективными методами text-video retrieval. В данных использовались как очень короткие видео по 4–5 секунд (датасет LSMDC), так и довольно продолжительные — вплоть до 20 минут (датасет ActivityNet). Однако домен всех датасетов, конечно же, сильно смещён относительно стандартного поискового потока.

#YaICLR

Душный NLP
3 743 просмотров · 13 реакций Открыть в Telegram · Открыть пост на сайте
SRPO — альтернатива DPO

Сегодняшняя статья о Self-Improving Robust Preference Optimization (SRPO). Это алгоритм оффлайн-RLHF, подобный DPO, но более подходящий для off-policy датасета ранжирования. Кроме того, SRPO лучше переносится на OOD-задачи.

Основная идея метода заключается в состязательном обучении двух политик: генерирующей и улучшающей. Задача улучшающей политики — на основании запроса и имеющегося ответа создать улучшенную версию этого ответа; задача генерирующей — научиться создавать ответы, которые нельзя значительно улучшить.

Обе политики обучаются на парах предпочтений, полученных от людей. Решение состязательной задачи сводится к минимизации линейной комбинации из двух сонаправленных функций потерь. В работе показано, что оптимальное решение этой задачи не зависит от политики, из которой был собран датасет предпочтений. Благодаря этому SRPO оказывается более устойчивым к изменению в распределении данных.

Метод можно реализовать с помощью одной LLM, которая выступает и в качестве генератора, и в качестве «улучшатора». Обученную модель можно применять итеративно, каждый раз корректируя ответ, полученный на предыдущем шаге, чего не предполагают методы вроде DPO или IPO.

Даже без итераций, SRPO выигрывает у DPO и IPO: на сложных Arena-Hard-промптах метод показывает 56% win-rate. На задаче суммаризации Reddit TL;DR SRPO на 4-й итерации SRPO достигает максимального качества.

Разбор подготовил Алексей Зотов

Душный NLP
3 339 просмотров · 26 реакций Открыть в Telegram · Открыть пост на сайте
Scaling Laws for Precision

Scaling laws успешно применяются при проектировании LLM, позволяя определить оптимальное число параметров модели N и объём обучающих данных D (в токенах) для минимизации лосса L при фиксированных вычислительном бюджете C. Эта методология, например, использовалась при создании флагманской модели LLaMA 3. Сегодня разберём публикацию о чувствительном к точности scaling law.

Авторы статьи подчёркивают, что традиционные scaling laws предполагают фиксированную точность представления параметров модели P (например, FP16) как на этапе обучения, так и на инференсе. В свете развития аппаратной поддержки вычислений с пониженной точностью (например, FP4 в архитектуре NVIDIA Blackwell), исследование оптимального компромисса между P, N и D становится важной задачей. Поэтому авторы публикации решили проанализировать влияние квантизации после обучения (post-training quantization) модели на качество и модификации scaling laws с учётом точности параметров.

Авторы провели 465 экспериментов с моделями размером от 30M до 1,7B (N), обученными на 1,5–26B токенов (D), с использованием точности от 3 до 16 бит (P). В основе исследований — архитектура OLMo и датасет Dolma v1.7, а в качестве алгоритма квантизации — GPTQ. Основные выводы:

— Деградация качества после квантизации усиливается при росте соотношения D/(N⋅P) и сильном сжатии весов. Перетренированные (overtrainned) модели — с высоким D/(N⋅P) — демонстрируют наибольшую чувствительность к квантизации. В крайних случаях увеличение D приводит к ухудшению итогового качества после квантизации, то есть дополнительное обучение начинает вредить инференсу. Тут можно заметить противоречие, если мы захотим обучить модель с фиксированным числом параметров N: с одной стороны, уменьшение точности весов модели при обучении делает её менее чувствительной к пост-квантизации, а с другой — это увеличивает отношение D/(N⋅P), из-за чего качество будет деградировать. Однако эксперименты показали, что первый эффект перевешивает второй.

— В статье предложили модифицированную формулу для scaling laws с учётом post-train-квантизации, а также точности P для весов, активаций и KV-кэша.

— Авторы пришли к выводам, что оптимальная битность при совместной оптимизации N, D, P в их пайплайне составила 7–8 — независимо от бюджета C=N⋅D⋅P. Это говорит о том, что на практике обучение в FP16 может быть избыточным, в то время как погоня за слишком низкой битностью (ниже 4 бит) потребует непропорционального увеличения N (более чем в четыре раза) и сделает такие подходы неэффективными.

— Обнаруженная авторами зависимость показывает, что при фиксированном C уменьшение P приоритезирует рост N над увеличением D. Например, при переходе от FP16 к FP8 освободившиеся ресурсы в первую очередь стоит потратить на увеличение размера модели.

— В случае, если мы обучаем модель с фиксированным числом параметров N (например, когда обучаем семейство моделей на общем претрейн-датасете), оптимальная точность весов P для перетренерованной модели без post-train-квантизации растёт, при увеличении числа токенов в претрейне D.

Несмотря на интересные результаты, авторы отмечают, что у их работы есть ограничения, которые ещё необходимо исследовать. Так, они использовали единую архитектуру для моделей с различной точностью P; в расчётах полагали, что скорость вычислений линейно зависит от P, а это не всегда верно на практике. Также для оценки качества модели использовали только лосс без метрик в downstream-задачах.

Разбор подготовил Дмитрий Ульянов

Душный NLP
3 886 просмотров · 26 реакций Открыть в Telegram · Открыть пост на сайте
Параллельная генерация с Hogwild! Inference

Сегодня — статья инженеров Yandex Research, HSE и IST Austria. Речь в публикации идёт о Hogwild! Inference — движке параллельного инференса для LLM.

Авторы задались целью ускорить выполнение задачи одной моделью за счёт параллельной генерации. При этом инференс должен был оставаться интуитивно простым, а фреймворк — достаточно гибким, чтобы сделать эффективной коммуникацию между параллельными ветками генерации. Наконец, авторы стремились к тому, чтобы характер взаимодействия инстансов зависел в первую очередь от самой модели, а не от фреймворка параллельной генерации, то есть оставить принцип параллельной работы на откуп самим моделям.

Метод Hogwild! Inference предполагает использование нескольких экземпляров LLM — они называются «рабочими» (workers), — которые выполняют одну задачу параллельно, синхронизируясь через общий KV-кэш. Это позволяет им видеть и учитывать генерации друг друга в реальном времени. Идея в том, чтобы дать моделям возможность самим организовывать координацию без заранее заданных правил взаимодействия.

В этот общий KV-кэш каждый рабочий добавляет свои токены, которые затем дополняют общий контекст. Кэш организован как чат: завершённые абзацы reasoning каждого рабочего перемещаются в «историю», а текущие абзацы остаются в отдельном сегменте. При этом каждый рабочий видит текущую работу других — всё благодаря разделённым KV-блокам.

Чтобы избежать повторной обработки представлений на каждом шаге, авторы предлагают использовать свойства RoPE: для генерации нового токена каждым из рабочих блоки KV-кэша упорядочиваются по-разному для каждого рабочего (см. изображение). При этом сдвиг осуществляется не над всем блоком, а над query-токенами, что резко снижает вычислительные издержки. Таким образом, каждый рабочий может видеть новые токены других рабочих сразу после их генерации.

Система использует zero-shot prompting: рабочим предлагается обсуждать решение задачи, разделять работу между собой, не дублировать друг друга. Также авторы используют специальные интервенции в процесс генерации, чтобы сократить случаи, когда несколько рабочих совершают одну и ту же работу. Каждую N токенов одному из агентов подсовывается промпт вида «Делаю ли я лишнюю работу?» и предлагается ответить «да» или «нет». Эксперименты показывают, что такая вставка часто позволяет рабочему понять, что его работа уже сделана другим и можно двигаться дальше, либо изменить свою стратегию решения задачи.

Авторы оценивают Hogwild! Inference на задачах, требующих длительных рассуждений и предполагающих тривиального разбиения на независимые подзадачи: LIMO, LiveCodeBench, OlympiadBench, AIME. Эксперименты на разных моделях (Qwen3, QwQ, Deepseek R1, Phi4-R) показывают, что метод позволяет решать задачи за меньшее число последовательных шагов, чем обычная генерация. Например, QwQ-32B в LIMO (817 задач на математику) c использованием Hogwild! даёт прирост точности до 0,6 при 4000 токенах, в то время как бейзлайн — на уровне 0,4. Эксперименты также подтверждают масштабируемость: при двух рабочих генерация ускоряется в 1,8 раза, при четырёх — в 3,4.

Разбор подготовил Глеб Родионов

Душный NLP
3 272 просмотров · 43 реакций Открыть в Telegram · Открыть пост на сайте
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Сегодня разберём статью от группы исследователей из Стэнфордского университета про когнитивное поведение. Авторы выясняют, при каких условиях модель становится self-improving reasoner: то есть, может учиться находить правильное решение без специальной разметки.

Test-time compute scaling — довольно мощная парадигма для задач, которые требуют рассуждения. Для DeepSeek-R1-Zero было показано: обучаясь решать задачи по математике и программированию, модель самостоятельно учится генерировать цепочки рассуждений. В этой статье авторы применяют тот же принцип к моделям Qwen-2.5-3B и Llama-3.2-3B с одинаковым сетапом обучения (RL+GRPO) для задачи Countdown.

Countdown — это когда из нескольких чисел с помощью стандартных арифметических операций (сложение, вычитание, умножение и деление) нужно получить целевое число. Как видно из графиков, модель Qwen довольно быстро достигла неплохого качества, в то время как Llama сходится медленнее и работает хуже. Проанализировав результаты, авторы обнаружили четыре главных когнитивных паттерна для решения логических задач:

Verification. Проверка, верно ли логически выдвинутое рассуждение.
Backtracking. Отказ от бесперспективных подходов.
Subgoal setting. Разделение сложных задач на более простые подзадачи.
Backward chaining. Подход от конца к началу: попытка понять по ответу, какие действия подходят к нему.

Эти паттерны вполне соответствуют человеческой логике. Авторы предположили, что обучающая выборка Qwen содержит в том или ином виде четыре ключевых паттерна, а Llama — нет. Чтобы научить Llama вышеописанным паттернам, авторы сгенерировали мощной проприетарной моделью (Claude 3.5 Sonnet) небольшой датасет с этими паттернами.

Оказалось, что дообучение на небольшом количестве таких примеров приводит к существенному приросту качества работы Llama для задачи Countdown: оно сравнялось с Qwen.

Примечательно, что итоговое качество не снижают даже примеры с неправильными ответами в обучающей выборке. Это говорит о том, что демонстрация когнитивного поведения важнее правильных ответов.

Разбор подготовил Денис Кузнеделев

Душный NLP
3 685 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
DMPO — модификация DPO

Сегодняшняя статья — о Direct Multi-Turn Preference Optimization. Это модификация DPO, которая позволяет получить лучшие результаты. Но не всё так просто.

Традиционный DPO заточен на работу с парами «префикс и суффикс» — то есть запрос пользователя и ответ. Авторы статьи задались целью распространить его на длинные цепочки. Однако в публикации работают не диалогами, а с окружением из трёх датасетов: ALFWorld, WebShop и ScienceWorld.

Скажем, в ScienceWorld агенту даётся задание — например, выяснить, обладает ли металлическая вилка электропроводностью — и текстовое представление нескольких «комнат» с разными объектами. С ними можно выполнять некоторые действия, чтобы достигнуть поставленной цели. В ScienceWorld задачи чуть сложнее, чем, например, в ALFWorld, где может потребоваться, к примеру, просто убрать посуду в шкаф.

Авторы статьи отмечают, что при обучении на цепочках использование стандартной формулы для KL-дивергенции приводит к большой накопительной ошибке. Поэтому они обращаются к State-Action Occupancy Measure (SAOM). Суть этого метода заключается в модификации обычного RL-лосса (изображение 1), введении дисконта так, чтобы у более ранних шагов был больший вес.

Формула SAOM добавляется в формулу DPO вместо KL-дивергенции, после чего авторы добавляют нормализацию на длины траекторий и получают ещё одну формулу (изображение 2). Согласно ей, каждый следующий шаг в диалоге меньше влияет на лосс.

Такова основная идея статьи, но самое интересное — это эксперименты. Авторы проводили SFT-модели на датасетах, о которых сказано выше, а затем проводили тесты на других кусках этих же датасетов и определяли, успешно ли справилась модель.

Далее есть два сетапа. Первый — Noisy (RQ1) — включает все безуспешные траектории в качестве негативов. Как позитивные примеры используются не успехи модели, а экспертные траектории из датасетов. Для clean-сетапа (RQ2) отфильтровывают noisy-траектории (как именно, не сообщают) и выбирают высококачественные в качестве проигравших.

DMPO в RQ2 даёт весьма ощутимый прирост относительно SFT (изображение 3), а в RQ1 различия не столь ощутимы. Хотя метод авторов статьи всё ещё побеждает. При этом DMPO, по их словам, «не убивает» длину цепочек.

Разбор подготовил
Сергей Дуликов

Душный NLP
3 485 просмотров · 21 реакций Открыть в Telegram · Открыть пост на сайте
Как улучшили EAGLE-3

Сегодняшняя статья — о EAGLE-3. Это новая версия популярного метода спекулятивного декодинга. Расскажем, как её улучшили по сравнению с прошлыми итерациями.

Спекулятивный декодинг — это способ ускорения инференса, предполагающий использование черновой (draft) модели, которая предлагает варианты продолжения генераций. Основная модель проверяет эти варианты, выбирая один с помощью процедуры верификации. Качество генераций при этом не страдает, ведь окончательное решение о принятии тех или иных токенов лежит на основной модели.

Один из самых известных методов спекулятивного декодинга — Extrapolation Algorithm for Greater Language-model Efficiency (EAGLE). В его рамках модель принимает не только прошлые токены, но и их feature-вектора. Это позволяет увеличить точность угадывания токенов.

Обновлённая версия EAGLE — EAGLE-3 — призвана сделать угадывание ещё более точным. Для этого можно просто налить больше данных в обучение EAGLE-модели. Однако, как показала практика, такой подход работает не слишком хорошо. Авторы метода посчитали, что здесь мешает feature loss, на который учится EAGLE. Выход — избавиться от feature loss и учить только на KL-лосс между предсказаниями EAGLE-головы и основной модели.

Проверка этой гипотезы показала, что без feature loss точность угадывания первого токена действительно увеличивается при добавлении новых данных. Однако она падает для следующих токенов. Всё из-за того, что теряется способность предсказывать в глубину. Решение: во время обучения делать не одну, а сразу несколько итераций EAGLE-головы, осуществляя предсказание в глубину.

Авторы сделали ещё одно улучшение. В прошлых версиях метода в EAGLE-модель подавали хиддены с последнего слоя таргет-модели, а также эмбеддинги токенов, отсэмплированных из них. Исследователи предположили, что в хидденах недостаточно информации, чтобы эффективно предсказывать токены. Вероятно, больше данных содержится в хидденах с промежуточных трансформерных слоёв. В EAGLE-3 авторы конкатенируют хиддены с трёх decoder-слоёв — с третего от начала, третьего от конца и слоя в середине между ними — и уже их передают на вход EAGLE-модели.

Суммируя, авторы EAGLE-3:

— убрали feature loss;
— добавили несколько шагов на обучении и увеличили объём данных;
— решили отправлять в EAGLE-модель хиддены с нескольких слоёв.

По сравнению с инференсом без использования EAGLE, всё это позволило получить прирост в скорости в 6,5 раза — и без потери качества. Число токенов за одну итерацию увеличилось на 50% по сравнению с EAGLE-2: с 4,05 до 6,13.

Разбор подготовил Алексей Гликин

Душный NLP
3 869 просмотров · 21 реакций Открыть в Telegram · Открыть пост на сайте
Технический отчёт Command A

Компания Cohere выпустила технический отчёт своей опенсорс-модели Command A. Рассказываем главное, что мы из него узнали.

Command A — это dense-модель на 111 миллиардов параметров. Всего она поддерживает 23 языка, а на английском по качеству не уступает DeepSeek-V3. Создатели заявляют, что скорость инференса — до 156 токенов в секунду на всего одной H100 (вероятно, с квантизацией модели в тип пониженной точности). Это в 1,75 раза выше, чем у GPT-4o и в 2,4 раза выше, чем у DeepSeek-V3.

В архитектуре модели, помимо GQA и SwiGLU, применяли чередующиеся аттеншен-слои (Interleaved attention layers). Чередовали три блока со скользящим окном и RoPE и один фулл-аттеншен-блок без позиционных эмбеддингов (NoPE). Благодаря этому аттеншен становится быстрее и, вероятно, лучше работает с длинным контекстом. Похожая архитектура применяется в Llama 4.

Авторы использовали µP и µTransfer для настройки гиперпараметров — параметры подбирались на маленьких моделях, а затем без дополнительного обучения (zero-shot) переносились в большую. Также прибегали к Data Parallel, Fully Sharded Data Parallel, Sequence Parallel и Tensor Parallel.

Веса модели перед вычислениями преобразовывали в FP8. Чувствительные операции, такие как экспоненты, софтмакс, нормализация слоёв и выходные эмбеддинги, оставляли в FP32, а вычисления аттеншена выполняли в BF16. При обучении полностью в FP8 авторы не замечали нестабильности, но обнаруживали деградацию на бенчмарках. Чтобы справиться с ней, первые шаги обучали в BF16, а уже после этого переходили на FP8.

Обучение происходило с постепенным расширением контекста: первые 30 тысяч шагов с контекстным окном 8 тысяч токенов, далее — 32 тысячи токенов, потом — 128 тысяч и 256 тысяч. Многие данные для длинного контекста были синтетическими.

Посттрейн проходил в шесть стадий. На каждой обучали несколько независимых моделей, которые после этого сливались в одну с помощью техники мержинга. Авторы отмечают, что такой подход позволил работать над разными доменами (код, математика, безопасность и так далее) отдельным командам и использовать наиболее подходящий задаче набор RL-алгоритмов, наград и данных.

Instruct-модель. Обучали начальную Instruct-модель с помощью supervised learning на основе базовой модели.
SFT-экспертные модели. Обучали шесть SFT-экспертов (для кода, математики, длинного контекста и так далее) поверх чекпойнта Instruct-модели с использованием специализированных наборов данных, чтобы максимально повысить производительность в конкретных задачах.
SFT Soup-модель. Объединяли шесть экспертных моделей в одну soup-модель, чтобы получить единую агрегированную SFT-модель.
RL-экспертные модели. Обучали шесть RL-экспертов поверх чекпойнта SFT soup-модели.
RL Soup-модель. Объединяли шесть RL-экспертов в RL soup-модель, чтобы получить единую агрегированную RL-модель.
Polished-модель. Чередовали методы best-of-N, оффлайн- и онлайн-RL-алгоритмы.

Разбор подготовил Владислав Савинов

Душный NLP
4 121 просмотров · 43 реакций Открыть в Telegram · Открыть пост на сайте
Соскучились по постерам с ICLR? Их есть у нас!

Свежая подборка интересных статей, чтобы скрасить вечер понедельника.

Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition

Интересная статья о забывании фактов. Известно, что факты хранятся в FF, но авторы посмотрели на динамику распределения весов в виде векторов, чтобы понять, почему плохо усваиваются знания после самого претрейна. Оказывается, всё распределение лежит в маленьком проценте векторов, и они сильно портятся от дообучения.

Training Language Models to Self-Correct via Reinforcement Learning

Вместо промптинга, файнтюнинга и использования отдельной модели авторы пытаются встроить self-correction в модель. Существующие решения либо требуют отдельных моделей для верификации, либо используют более крупные модели-учителя, либо страдают от проблем «смещения распределения» (модель исправляет чужие ошибки, но не свои) и «схлопывание поведения» (модель делает одинаковые попытки без реальной коррекции).

Авторы предлагают двустадийное решение задачи, где вторая попытка пытается исправлять ошибки первой.

Детали успеха:

— на первом этапе создается хорошая инициализация для RL c принуждением первой попытки быть близкой к базовой модели (KL-регуляризация);

— on-policy RL;

— модифицированный реворд, сравнивающий прогресс между попытками.

Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment

Статья о совместном обученим RL+SFT+RM. Всё в онлайне. Реворд учится не только преференсам, но ещё и поощрять экспертные демонстрации из SFT-датасета.
Лоссы довольно понятным образом можно вывести

В цикле:

— шаг обучения RM;
— несколько шагов PPO.

Accelerating Transformer Inference and Training with 2:4 Activation Sparsity

Авторы придумали как использовать sparse kernel в тренировке. Заменяют SwiGLU на Squared ReLU (утверждается, что без потери качества), и замечают, что после этого во втором матричном умножении появляется много нулей в активациях. Используют 2:4 sparse kernels для того, чтобы ускорить это умножение (зануляя активации, которые ломают 2:4 картинку).

На backward из-за того, что матрица транспонируется, приходится использовать пару трюков:

— разбивать матрицу на две части — «очень плотные строки (5%)» и «разреженные строки (95%)» — и делать два отдельных гемма;
— чтобы бороться с явлением «соседние токены часто либо одновременно нули, либо одновременно не нули» шафлят токены перед FFN, а потом шалят обратно;
— используют row-wise-квантизацию;
— получают x1.3 ускорение на FFN-блоках.

В статье почему-то описывают только 1.5B-перплексию, но говорят, что на 7B и downstream-задачах вроде тоже работает неплохо.

Has My System Prompt Been Used? Large Language Model Prompt Membership Inference

Инженеры Amazon предлагают довольно простую процедуру расчёта стат.теста для проверки, использует ли LLM новые вводные из системного промпта. Тест основывается на средних значениях бертовых эмбеддингов того текста, который сгенерировала LLM. По словам авторов, для статистической значимости даже на незначительных изменениях достаточно прогнать около 300 примеров для каждого промпта.

*Компания Meta признана экстремистской организацией в России.

Интересные постеры увидели
Екатерина Редина, Константин Бабалян, Павел Темирчев, Степан Каргальцев, Кирилл Никоров

#YaICLR

Душный NLP
3 383 просмотров · 20 реакций Открыть в Telegram · Открыть пост на сайте
Что мы делали в тени на ICLR 2025

Конференция завершается. Почти все доклады прочитаны, почти все постеры отсмотрены, а участники и гости скоро вернутся домой. Домой вернётся и команда ML-инженеров Яндекса, которая последние дни рассказывала — и показывала, — что происходит на ICLR. Осталось совсем чуть-чуть, и самое время подвести итоги, собрав все наши материалы с мероприятия в одном посте.

— Первый день запомнился большой очередью на регистрацию, а также любопытными постерами о борьбе с эффектом «прайминга» и методе обучения реворд-модели.
— Второй день, в числе прочего, подарил нам статьи о системных промптах и подробный теоретический анализ SFT и DPO.
— Третий день принёс статьи о Q-Learning и добавке к софтмаксу.

И пусть конференция заканчивается, мы продолжаем работу. Впереди — разборы самых ярких статей и впечатления из первых уст. Оставайтесь с нами! А если вы хотите больше узнать о том, что происходило на ICLR 2025, подписывайтесь на наши каналы-побратимы (все об ML):

ML Underhood
Speech Info
Рекомендательная
CV Time

#YaICLR

Душный NLP
3 369 просмотров · 29 реакций Открыть в Telegram · Открыть пост на сайте
Свежая подборка постеров с ICLR 2025

Продолжаем рассказывать о самых ярких постерах конференции, которые сумели заметить.

Selective Attention Improves Transformer

Инженеры из Google придумали дешёвую добавку к софтмаксу в аттеншене, которая позволяет трансформеру легче забывать токены. Это стабильно улучшает итоговое качество, как перплексию, так и downstream tasks. Проверяли на размерах модели до 1В и контекстах до 2К. Прирост в качестве как будто бы не снижается с увеличением размера модели и контекста.

Говорят, что, поскольку модель теперь нативно выучивает более sparse-аттеншн, то можно выкидывать токены из kv-кэша по некоторому трешхолду, уменьшая потребление памяти или ускоряя инференс. Например, можно получить такую же перплексию, как у бейзлайна, но при kv-cache в восемь раз меньше. А если ещё и немного поменять лосс, чтобы заставить модель более активно выкидывать токены, то kv-cache можно сократить в 47 раз.

Scaling FP8 training to trillion-token LLMs

Тренируют Llama 7B в FP8 (матричные умножения, и форвард, и бэквард). После 200B токенов видят расхождение, которого прежде нет, и утверждают, что это из-за того, что ветки SwiGLU становятся скоррелированными, и появляются outlier при их перемножении

Чтобы решить эту проблему, предлагают дополнительно скейлить одну из веток (а после третьего линейного слоя возвращать обратно). Это стабилизирует обучение с минимальными потерями в скорости. Из дополнительных трюков — квантизируют моменты адама в FP8 (e4m3 для первого и e5m2 для второго), чтобы сэкономить память.

На маленьких моделях такого не наблюдали, но там использовали обычный GPT, без SwiGLU. Сейчас авторы экспериментируют с nvfp4/mxfp4, говорят, что там нужен претрейн и посттрейн в BF16 с вормапами.

ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement

Интересная статья о том, как модель сама себе итеративно генерирует цепочку рассуждений — сначала общими словами, потом более конкретно под задачу. Затем на эти финальные цепочки мы делаем SFT. Получается лучше star и с хорошей генерализуемостью.

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

Авторы решают одну проблему алгоритма Q-Learning для языковых моделей — не нужно обучать огромную голову (по q-значению на каждый токен) с нуля. Они берут дебедер и дообучают его на q-значения с помощью кросс-энтропийного лосса. Есть предположение, что в LLM из-за детерминированных переходов среды это теоретически корректно.

Strong Model Collapse

В статье утверждается, что синтетические данные ломают классические скейлинг лоу. Причём ломает уже сильно, если доля синтетики просто фиксирована относительно обычных данных в претрейне. Более качественная синтетика просто двигает вправо размер модели и количество данных, на котором произойдёт поломка.

Решение — итеративное обучение, с постепенным снижением доли синтетики в 0. Ну или не использовать её вовсе.

ThinK: Thinner Key Cache by Query-Driven Pruning

В отличие от других статей о сжатии kv-кэша, в этой авторы смотрят не на размерность seq_len, а делают в рантайме уменьшение размерности channel для Q/K-матриц проекций с помощью поиска аутлаеров. В аттеншоне именно такие аутлаеры важны — остальные 40% можно убирать.

Из-за того, что делают динамически для каждого префикса, на prefill, то FTT увеличивается примерно на 10% (реализуется, кстати, относительно просто). Но без потери качества ускоряется декодирование — как по занимаемой памяти, так и по латенси/фрупуту.

Более того, метод хорошо комбинируется с другими методами компрессии кэша по размерности seq_len и даёт ортогональное ускорение в 1,2 раза.

Интересные постеры увидели Степан Каргальцев, Павел Темирчев, Андрей Акшонов, Николай Скачков, Роман Горб

#YaICLR

Душный NLP
2 539 просмотров · 20 реакций Открыть в Telegram · Открыть пост на сайте
Ещё крутые постеры с ICLR 2025

Продолжаем рассказывать о любопытных постерах проходящей прямо сейчас конференции.

Scalable Influence and Fact Tracing for Large Language Model Pretraining

DeepMind предлагает новый метод дебага того, какие примеры влияют на ответы фактовых вопросов. Говорят, что лучше всех градиентных методов определяют именно влияние документа из трейна на генерацию. Ещё из интересного — показывают график, по которому видно, что модели небольшого размера очень часто опираются не на примеры, содержащие факт, а с ростом капасити разница падает.

Авторы отмечают, что их метод подходит даже для мультихопов и ризонингов, несмотря на один градиентный шаг. Ещё сказали, что общались с группой, которая писала статьи о динамики обучения фактам, и они работают в эту сторону. И добавили, что метод полезен для файнтюнов.

NetMoE: Accelerating MoE Training through Dynamic Sample Placement

Авторы предлагают хитрую оптимизацию тренировки Мixture-of-Agents. Во время dispatch + ffn они решают (с помощью аппроксимации integer linear programming), а не выгоднее ли оставить эксперта там, где он сейчас? Возможно, в этом случае combine будет быстрее, из-за использования не дорогих inter-node-пересылок, а дешёвых intra-node или даже in-device. В результате Получают ускорение в 1.67х для простого all-to-all, но ничего не мешает пробовать это же для более умных пересылок.

Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference

Авторы делают оптимизацию нулевого порядка для RL. Идейно похоже на evolution strategies, но «под капотом» тут другой оптимизатор. В статье также предлагают отказаться от RM и заменить её на людей или хотя бы на preference model. Мотивация, зачем так делать, осталась непрозрачной. Рискуем предположить, что это будет медленнее градиентных методов.

Learning from negative feedback, or positive feedback or both

Статья от DeepMind, в которой предлагают обучать на
a log(p(positive) - (1-a) log (negative) - b KL(p_ref(negative) || p(negative))

Таким образом, становятся не нужны контрастные пары — достаточно положительных и отрицательных примеров. У авторов результаты получаются сравнимыми с DPO или лучше.

Self-Improving Robust Preference Optimization

Статья от Сohere. Авторы замешали Nash preference learning в алгоритм вроде DPO/IPO. По формулам выглядит так, будто учат две конкурирующие модели: генератор и улучшатор ответов (на вход получает запрос и предыдущий ответ).
Но по факту это одна модель, просто улучшатору дают подводку вида «вот прошлый ответ, попробуй улучшить» Online не пробовали, но рассказали, что можно вытащить реворд из их формул.

Learning Dynamics of LLM Finetuning

Доклад с теоретическим анализом SFT и DPO, который обосновывает галлюцинации в первом и падение победителя во втором. Выводы: просадка победителя может быть связана с тем, что мы пытаемся уменьшать вероятности для проигравшего, когда они уже и так низкие.

Интересные постеры увидели Екатерина Редина, Степан Каргальцев, Павел Темирчев, Дмитрий Ульянов

#YaICLR

Душный NLP
2 600 просмотров · 25 реакций Открыть в Telegram · Открыть пост на сайте
Постеры второго дня ICLR 2025

Возвращаемся с полей конференции и несем новую порцию постеров.

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Статья о DPO в self-play-цикле. Есть обучаемая на лету llm-as-judge, которая здесь называется Refiner. Модель генерирует ответ на запрос, и если он неправильный, то исправляем его, стараясь сделать наименьшее число изменений. Исправляем с помощью Refiner и поиска по дереву. На таких парах учим DPO.

ParamΔ for Direct Mixing: Post-Train Large Language Model At Zero Cost

Авторы предлагают не учить посттрейны, а прибавлять к новому претрейну дельту. Или линейную комбинацию дельт. Получаются смеси доменно адаптированных моделей или просто дешёвый быстрый алайнмент нового претрейна (с несильным ухудшением качества).

Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization

В статье предлагают приделать к RM авторегрессионную голову и учить её на SFT. Логиты при этом предлагается использовать внутри RL-алгоритма — занижать реворды ответам с низким правдоподобием по мнению этой авторегрессионной головы. Таким образом, реворд не будет расти в OOD для RM-примерах, а мы будем меньше страдать от доменного сдвига.

On-the-fly Preference Alignment via Principle-Guided Decoding

Авторы рассказывают, как заставить модель исполнять системный промпт не подкладыванием его в промпт, а с помощью модификации процедуры инференса. Системный промпт здесь называют принципом.

Идея похожа на classier-free guidance:
— считаем вероятности всех токенов на шаге t с системным промптом и без него (два форварда);
— считаем реворд по формуле (логарифм соотношения вероятностей);
— находим оптимальное распределение для такого реворда по аналитической формуле;
— поскольку реворд тут жадный и распределение над токенами (а не над траекториями как в DPO) аналитическое решение явно считается.

На этом всё. Дальше просто семплируем из этого распределения токен для шага t и повторяем. Говорят, это лучше, чем положить системный промпт в подводку.

Интересные постеры увидели Павел Темирчев и Николай Скачков

#YaICLR

Душный NLP
6 256 просмотров · 20 реакций Открыть в Telegram · Открыть пост на сайте
Интересные постеры первого дня ICLR 2025

Конференция в самом разгаре — доклады и постеры сыпятся на нас как из рога изобилия. А мы выбираем самые любопытные и рассказываем вам.

Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective

Статья посвящена решению проблемы, при которой модель после DPO генерирует ответы длиннее, чем референсная модель. Это связано с тем, DPO отдаёт предпочтение последним токенам, а не первым. Чтобы исправить проблему, авторы предлагают добавить множитель \gamma \in (0, 1) в лосс. Лосс для токена в позиции t умножается на \gamma^t. Аналогия с классическим RL ясна, хотя нужно понимать, что это не discount factor, а просто что-то похожее по смыслу. Такая политика мало отличается от оптимальной, а задача выбора гаммы выпуклая (около 0,99 будет достаточно, но лучше подобрать для каждого случая отдельно).

Progressive Mixed-Precision Decoding for Efficient LLM Inference

Квантизация, отмечают авторы, хороший способ снизить требования LLM к вычислительным мощностям. Однако применение низкой точности (2-3 бита) ведёт к сильному ухудшению качества. Авторы предлагают новый фазо-ориентированный метод, который избирательно распределяет точность между различными фазами инференса и вводят технику, позволяющую постепенно снижать точность по мере углубления в сгенерированную последовательность.

По сути для каждого токена выбирается битность. У авторов есть обучаемый шедулер, который предсказывает, когда надо переключаться на меньшую битность. Он очень чувствителен к гиперпараметрам, датасету и обучению. В будущем его хотят интегрировать внутрь самой LLM. А саму квантизацию наследуют из статьи Any-precision LLM. В ней префикс веса нужной битности — это ключ в lookup-таблице весов, что позволяет не использовать дополнительную память под разные битности.

What is Wrong with Perplexity for Long-context Language Modeling?

Очень простая идея для длинного контекста — считать лосс в основном на key-токенах, где лосс, обусловленный на длинный контекст, сильно отличается от короткого. На long-бенче у авторов получилась значительная корреляция со скором по сравнению с обычной ppl, что немного смущает, и улучшения от такого тюна.

RRM: Robust Reward Model Training Mitigates Reward Hacking

Авторы заявляют, что современные реворд-модели не способны эффективно различать контекстуальные сигналы и нерелевантные артефакты при определении предпочтений. В статье предлагается обучать предпочтения, независимые от подобных артефактов, а также новая техника аугментации данных, специально разработанную для их устранения.

Авторы делают случайную перестановку датасета и расширяют его всеми возможными комбинациями i оригинальной тройки и sigma_i — тройки на позиции i после перестановки. Всего комбинаций 16 штук.

Победитель в полученных парах определяется так:

— если в паре один ответ на этот запрос, а второй от другого запроса, то побеждает всегда тот, который отвечает на «свой» запрос;
— если оба ответа от другого запроса, то это ничья.

Получается огромный датасет, в котором много тривиальных пар, где плохой ответ явно не от того запроса. Авторы фильтруют этот датасет с помощью предыдущей версии RM, оставляя только негативы и неуверенные.

How new data permeates LLM knowledge and how to dilute it

Авторы показывают, что при усвоении новой информации LLM проявляют эффект «прайминга»: изучение нового факта может привести к тому, что модель начнёт некорректно применять это знание в несвязанных контекстах. Чтобы это исправить, предлагают игнорировать самые большие градиенты — то есть не обновлять тот процент весов, который получил бы самый большой градиентный апдейт.

Интересные постеры увидели Павел Темирчев, Екатерина Редина, Роман Горб, Степан Каргалицев

#YaICLR
5 882 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
Нет, это не футуристическая оранжерея, а аэропорт Чанги в Сингапуре, где завтра стартует конференция ICLR 2025. Наша команда уже на месте и скоро начнёт рассказывать о том, что происходит на мероприятии. Будет интересно и солнечно!
3 080 просмотров · 64 реакций Открыть в Telegram · Открыть пост на сайте