Обзор статьи Deep Neural Networks for YouTube Recommendations (RecSys Reading Group)

Описание к видео Обзор статьи Deep Neural Networks for YouTube Recommendations (RecSys Reading Group)

Доклад Илоны Ковалевой в рамках RecSys reading group.

📝 Название Статьи: Deep Neural Networks for YouTube Recommendations
👨‍💻 Авторы: Paul Covington, Jay Adams, Emre Sargin (Google)
🔗 Ссылка на статью: https://static.googleusercontent.com/...
Группа в telegram: https://t.me/ods_recommender_systems
Слайды: https://asash.github.io/pdf/reading_g...

Саммари статьи от докладчика:

Авторы рекомендательной системы для YouTube выделили три проблемы:
- Масштаб: существующие алгоритмы хорошо работают на небольших объемах данных но плохо масштабируются
- Новизна: ежесекундно на сайт загружаются большое количество видеоконтента, что людям нравится смотреть свежий контент. Система рекомендаций должна быть достаточно реактивной, чтобы моделировать только что загруженный контент, а также учитывать последние действия, предпринятые пользователем.
- Зашумленность: Данные о пользователях сильно разреженны, трудно получить истинные данные об удовлетворенности пользователей и вместо этого моделирутся шумные неявные сигналы обратной связи. Метаданные, связанные с контентом, плохо структурированы без четко определенной онтологии.
В качестве решения они предложили систему, состоящую из двух нейросетей — одну для генерации кандидатов и вторую для ранжирования.
Сеть для генерации кандидатов состоит из 4-х полносвязных слоев (2048 ReLU → 1024 ReLU → 512 ReLU → 256 ReLU ) и обучалась на векторах признаков видеоконтента, истории поиска, географического региона, типа устройства, демографических признаках пользователей, «давности» видеоконтента.
В системе для генерации кандидатов использовались негативное сэмплирование для обучения, генерация новых признаков (возведение в квадрат и квадратный корень нормированных числовых признаков). На этапе генерации предсказаний на инференсе использовался метод приближенного поиска соседей с использованием произведения векторов пользователей и фильмов.
Сеть для ранжирования состоит из 3-х полносвязных слоев (1024 ReLU → 512 ReLU → 256 ReLU) и также обучалась на признаках пользователей, эмбеддингах видеоконтента и др.— всего использовались около сотни признаков, но в статье они подробно не описаны. Для оценки модели на онлайн-тесте авторы разработали взвешенную по пользователю функцию потерь (weighted per user loss). Авторы экспериментировали с количеством слоев и разными наборами сгенерированных признаков, предложенная структура обеспечила нужные показатели скорости предсказаний и обучения и превзошла по точности использованные ранее подходы матричной факторизации.



📄 Abstract: YouTube represents one of the largest scale and most sophisticated industrial recommendation systems in existence. In this paper, we describe the system at a high level and focus on the dramatic performance improvements brought by deep learning. The paper is split according to the classic two-stage information retrieval dichotomy: first, we detail a deep candidate generation model and then describe a separate deep ranking model. We also provide practical lessons and insights derived from designing, iterating and maintaining a massive recommendation system with enormous userfacing impact
📆 Ссылка на календарь мероприятия группы https://calendar.google.com/calendar/...

Комментарии

Информация по комментариям в разработке