User-Creator Feature Polarization in Recommender Systems with Dual Influence

Сегодня разбираем необычную статью, содержащую много математики.

Авторы изучают две проблемы link prediction:

Filter bubbles — сегрегация в графах, когда модель обособляет кластеры друг от друга, вместо того чтобы предсказывать что-то принципиально новое. В терминах рекомендательных систем — insufficient recommendation diversity, проблема на стороне нейросети.

Polarization — пользователи разбиваются на кластеры и взаимодействуют только внутри них, не видя альтернативных мнений. В терминах рексистем — insufficient creation diversity, проблема на стороне поставщика контента.

Для описания рекомендательных систем авторы предлагают использовать упрощённую модель из двух матриц: пользователей и создателей контента. Каждый пользователь и каждый создатель в момент времени t описываются своим вектором. В каждый момент времени вектора спроецированы на единичную сферу.

Пользователю i рекомендуют создателя j, после чего эмбеддинг пользователя i обновляется в зависимости от влияния на него j-го создателя. Обновляется и эмбеддинг создателя: на основе эмбеддингов тех, кому его рекомендовали.

Авторы сформулировали гипотезу: если каждый создатель может быть рекомендован любому пользователю с неотрицательной вероятностью, то поляризация неизбежна.

Доказывали так: эмбеддинги пользователей и создателей меняются довольно плавно. Вероятность того, что каждого создателя порекомендуют каждому пользователю, больше 0. Тогда система схлопнется либо в 1 кластер (consensus), либо в 2 (bi-polarization).

При этом, если рекомендовать только top-k создателей, зануляя для остальных вероятности или relevance-скоры (скалярные произведения user на creator), можно избежать поляризации и забустить diversity, так как появятся нулевые вероятности.

С другой стороны, если модель оптимизирует какой-то лосс не только по релевантности, но и по разнообразию выдачи, избежать биполяризации не получится.

@RecSysChannel
Разбор подготовил Сергей Макеев