TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou

Сегодня разбираем статью от команды китайской платформы коротких видео Kuaishou.

За последние 3 года у 2% пользователей платформы накопилось от 100 тысяч до миллиона событий в истории. Несмотря на небольшую долю таких пользователей, они генерируют 60% трафика. В целом 95% трафика исходит от пользователей с более чем 10 тысячами событий, поэтому масштабирование моделей под длинные последовательности в Kuaishou критично.

Система обработки пользовательской истории в Kuaishou состоит из двух этапов. General Search Unit (GSU) отбирает наиболее релевантные события из всей истории. Затем Exact Search Unit (ESU) обрабатывает этот отфильтрованный список.

Первая версия TWIN могла работать только с 10 тысячами событий в истории — примерно 3–4 месяца активности пользователей. Этого оказалось недостаточно, и новая версия расширяет этот лимит.

Как происходит обработка истории

При офлайн-обработке размер истории пользователя уменьшают примерно в 10 раз. К каждому событию из истории привязан его Completion Ratio (=playing time / video duration) — на их основе события разбиваются на 5 групп, чтобы в каждой группе у видео были примерно одинаковые значения. Затем группы иерархически кластеризуются методом k-means, пока мощность кластеров не достигнет определенного значения. Кластеризацию делают на основе эмбеддингов от внутренней рексистемы Kuaishou.

При онлайн-обработке для каждого кандидата выбирают топ-100 релевантных ему кластеров из истории. Чтобы оценить релевантность, кластеры кодируют: numerical-фичи кластера — это усредненные numerical-фичи его айтемов; категориальные фичи берут от элемента, который ближе всего к центроиду.

Между кандидатом и каждым кластером считают нечто похожее на attention, но без софтмакса: просто скалярные произведения, к которым добавляют логарифм размера кластера, чтобы усилить значимость кластеров, более интересных пользователю. Дальше отбирают топ-100 кластеров по полученным скорам, после чего в ESU они проходят через трансформер с обычным attention’ом.

Исследователи проводили эксперименты на собственных логах, сравнивая разные методы отбора наиболее релевантных событий из истории. A/B-тесты показали значимый прирост метрик Watch Time и Diversity.

@RecSysChannel
Разбор подготовил Сергей Макеев