Mamba-like архитектуры. Часть 2/2: Samba и Samba-ASR

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling


Samba комбинирует Mamba-блоки со sliding window attention из Longformer и MLP-блоками. Классический Samba-блок — это Mamba + MLP + SWA + MLP. За длинный контекст отвечают Mamba-блоки, а за краткосрочные зависимости — attention, который обрабатывает данные внутри окна.

Оказалось, что этот подход работает,обходя Llama 3 по бенчмаркам на reasoning, понимание языка и генерацию кода. Авторы также измерили perplexity на наборе данных SlimPajama, сравнив результаты с Llama 2, другими attention-based и Mamba-based моделями. По скорости обучения все примерно равны, но Samba и Mamba успешно работают с длинными контекстами, а у Llama 2 качество резко ухудшается уже на контексте в 32k токенов.

В другом эксперименте качество (perplexity) Samba 1.7B, Mamba 1.8B и Llama 3 1.6B замеряют на ProofPile и оказывается, что Samba и Mamba способны поддерживать контекст длиной до 1M без просадки по качеству, в то время как качество Llama 3 проседает уже на контексте длиной в несколько тысяч токенов.

Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models

Наконец, мы дошли до Samba-ASR. Сразу скажем, что она не имеет никакой связи с предыдущей моделью Samba, а основана на стандартных Mamba-блоках.

Модель состоит из аудиоэнкодера, собранного из Mamba-блоков, и декодера, который принимает эмбеддинги из энкодера через механизм Mamba-cross-connection. К ним добавляют learned positional эмбеддинги для токенов уже транскрибированного текста, всё объединяется, и предсказывается следующий текстовый токен.

Авторы заявляют, что это новая SOTA — они валидируются не на всех датасетах, но на LibriSpeech и GigaSpeech модель лидирует (в сравнении с CrisperWhisper, Canary и Parakeet). Однако модель не open-source — ну нас нет ни кода модели, ни кода обучения, поэтому сложно сказать что-то о достоверности результатов. Тем не менее не исключено, что это новый игрок на ASR-рынке, о котором мы ещё услышим.

Екатерина Козлова Специально для Speech Info