Сегодня разбираем необычную статью, содержащую много математики.
Авторы изучают две проблемы link prediction:
Filter bubbles — сегрегация в графах, когда модель обособляет кластеры друг от друга, вместо того чтобы предсказывать что-то принципиально новое. В терминах рекомендательных систем — insufficient recommendation diversity, проблема на стороне нейросети.
Polarization — пользователи разбиваются на кластеры и взаимодействуют только внутри них, не видя альтернативных мнений. В терминах рексистем — insufficient creation diversity, проблема на стороне поставщика контента.
Для описания рекомендательных систем авторы предлагают использовать упрощённую модель из двух матриц: пользователей и создателей контента. Каждый пользователь и каждый создатель в момент времени t описываются своим вектором. В каждый момент времени вектора спроецированы на единичную сферу.
Пользователю i рекомендуют создателя j, после чего эмбеддинг пользователя i обновляется в зависимости от влияния на него j-го создателя. Обновляется и эмбеддинг создателя: на основе эмбеддингов тех, кому его рекомендовали.
Авторы сформулировали гипотезу: если каждый создатель может быть рекомендован любому пользователю с неотрицательной вероятностью, то поляризация неизбежна.
Доказывали так: эмбеддинги пользователей и создателей меняются довольно плавно. Вероятность того, что каждого создателя порекомендуют каждому пользователю, больше 0. Тогда система схлопнется либо в 1 кластер (consensus), либо в 2 (bi-polarization).
При этом, если рекомендовать только top-k создателей, зануляя для остальных вероятности или relevance-скоры (скалярные произведения user на creator), можно избежать поляризации и забустить diversity, так как появятся нулевые вероятности.
С другой стороны, если модель оптимизирует какой-то лосс не только по релевантности, но и по разнообразию выдачи, избежать биполяризации не получится.
@RecSysChannel
Разбор подготовил