DRL Course 2023 | Лекция 6. Policy Gradient.On-Policy Algorithms

Описание к видео DRL Course 2023 | Лекция 6. Policy Gradient.On-Policy Algorithms

Курс Deep Reinforcement Learning 2023: https://ods.ai/tracks/drlcourse23
Сезон курсов :https://ods.ai/events/course_season_a...


В шестой лекции:

Рассматриваются MDP с бесконечным пространством действий
Обсуждается Policy Gradient теоремы
Выводятся алгоритмы Reinforce, A2C и PPO



Автор курса: Антон Плаксин, исследователь в группе Yandex.Research и доцент Уральского федерального университета.


Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest
Канал с вакансиями в telegram: https://t.me/odsjobs
Канал с апдейтами по курсам: https://t.me/odscourses
Как попасть в чат сообщества ODS Mattermost: https://ods.ai/tracks/mattermost

Комментарии

Информация по комментариям в разработке