ML Underhood — пост #27

Что везём на NeurIPS — часть 1

В декабре пройдёт конференция NeurIPS, где учёные из исследовательского подразделения Яндекса — Yandex Research — представят целых восемь статей. В двух постах расскажем, какие именно.

SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices

SpecExec — простой метод параллельного декодирования, оптимизированный для работы с более крупными драфтовыми моделями, что позволяет генерировать до 20 токенов за итерацию целевой модели. Он берёт наиболее вероятные продолжения токенов из черновой модели и создаёт кэш в форме дерева для целевой модели, которое затем проверяется за один проход. Метод особенно полезен для значительного ускорения генерации при использовании больших языковых моделей в режиме офлодинга, где показывает ускорение до 15–20x. Подробнее о SpecExec вы можете почитать в этом посте.

PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression

Статья о сжатии больших языковых моделей, таких как LLaMA 3 и Mistral. Авторы предлагают новый метод — PV-Tuning, который позволяет дообучать уже сжатые (квантованные) веса нейросети, чтобы лучше исправлять ошибки квантизации. Это особенно важно при экстремальном сжатии в 1–2 бита на параметр, когда обычные методы квантования полностью ломают модель. За счёт более эффективного (и теоретически обоснованного) дообучения дискретных квантованных весов PV-Tuning позволяет достичь оптимума по Парето, например, для моделей семейства LLaMA-2 при 2 битах на параметр — то есть, это первое 2-битное сжатие таких моделей, которое имеет смысл на практике. Подробнее о методе читайте в этом посте.

Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding

Sequoia — алгоритм спекулятивного декодирования, использующий оптимизированные статические асимметричные деревья для спекуляции. Значительно превосходит методы с симметричными деревьями, показывая ускорение в диапазоне 2–4х для Llama-подобных моделей и до 10x с использованием офлодинга.

Challenges of Generating Structurally Diverse Graphs

Статья о генерации структурно разнообразных графов. Авторы рассматривают и сравнивают несколько алгоритмов оптимизации разнообразия: подходы, основанные на стандартных моделях случайных графов, оптимизацию локальных графов, генетические алгоритмы и нейрогенеративные модели.

ML Underhood