Доклад Василия Челпанова по модели SASRec в рамках Reading Group

Описание к видео Доклад Василия Челпанова по модели SASRec в рамках Reading Group

📝 Название статьи: Self-Attentive Sequential Recommendation
👨‍💻 Авторы: Wang-Cheng Kang, Julian McAuley (UC San Diego)
🔗 Ссылка на статью: https://arxiv.org/pdf/1808.09781.pdf

Саммари статьи:

Авторы статьи предлагают новый метод для прогнозирования последовательных рекомендаций на базе архитектуры трансформера.

На 2018 год в области последовательных рекомендательных систем преобладали несколько типов решений: марковские цепи и рекуррентные нейронные сети (RNN). Согласно авторам с помощью архитектуры трансформеров модель сможет объединить два достоинства этих подходов. А именно:
- выделять контекст из всех действий в прошлом (как рекуррентные сети);
- строить прогнозы на основе небольшого числа действий (как марковские цепи).

Для обучения необходим набор последовательностей, состоящий из идентификаторов объектов, с которыми взаимодействовал пользователь. Важно чтобы взаимодействия для каждого пользователя были упорядочены по времени. Далее для каждого объект генерируется обучаемый эмбеддинг фиксированной длинны. А на вход модели подается набор эмбеддингов, который описывает последовательный набор объектов фиксированной длинны. К входному набору эмбеддингу добавляется позиционный эмбеддинг, который позволяет учесть положение соответствующего элемента. На выходе ожидаем этот же набор объектов, но сдвинутый на один в будущее.

В архитектуре модели авторы используют слой self-attention’a, который позволяет улавливать сложные структуры в последовательности (по аналогии с задачей машинного перевода). Отдельно стоит отметить, что необходимо ограничить часть связей, чтобы избежать утечки информации из будущего. После слоя self-attention’a идет слой feed-forward, который необходимо для добавления нелинейности и учета взаимодействия между различными латентными измерениями. Описанные выше два слоя группируются для поиска более сложных переходов между объектами.

Для получения лучшего результата авторы статьи предлагают использовать:
- Residual Connection для решения проблемы затухания градиента и сохранения информацию о последних взаимодействиях с объектом;
- Layer Normalization для стабилизации и ускорения обучения нейронной сети;
- Dropout рассматривается как аналог ансамбля, который рассматривает огромное количество моделей, имеющих общие параметры.

Полученная архитектура схожа с декодером, который используется в моделях из семейства GPT. Декодер необходим для генерации последовательности слов на основе векторного представления входного текста, полученного от кодировщика. Подобная идея используется и в данной работе, но на примере рекомендательной системы.

В итоге авторы получили модель, которая превосходит существующие на тот момент методы на основе RNN и CNN. Более того, веса attention’ов позволяют изучать значимые паттерны, связанные с характеристиками объектов и их позицией в объектов. Для доказательства этого факта авторы использовали возможность интерпретируемости attention-блоков.

abstract (от авторов стати):

📄 Sequential dynamics are a key feature of many modern recommender systems, which seek to capture the ‘context’ of users’ activities on the basis of actions they have performed recently. To capture such patterns, two approaches have proliferated: Markov Chains (MCs) and Recurrent Neural Networks (RNNs). Markov Chains assume that a user’s next action can be predicted on the basis of just their last (or last few) actions, while RNNs in principle allow for longer-term semantics to be uncovered. Generally speaking, MC-based methods perform best in extremely sparse datasets, where model parsimony is critical, while RNNs perform better in denser datasets where higher model complexity is affordable. The goal of our work is to balance these two goals, by proposing a self-attention based sequential model (SASRec) that allows us to capture long-term semantics (like an RNN), but, using an attention mechanism, makes its predictions based on relatively few actions (like an MC). At each time step, SASRec seeks to identify which items are ‘relevant’ from a user’s action history, and use them to predict the next item. Extensive empirical studies show that our method outperforms various state-of-the-art sequential models (including MC/CNN/RNN-based approaches) on both sparse and dense datasets. Moreover, the model is an order of magnitude more efficient than comparable CNN/RNN-based models. Visualizations on attention weights also show how our model adaptively handles datasets with various density, and uncovers meaningful patterns in activity sequences.


📆 Ссылка на календарь мероприятия группы https://calendar.google.com/calendar/...

Ссылка на группу:
https://t.me/ods_recommender_systems

Ссылка на слайды
https://asash.github.io/pdf/reading_g...

Комментарии

Информация по комментариям в разработке