#6.4 PPO/DPPO Proximal Policy Optimization (强化学习 Reinforcement Learning with tensorflow 教学)

Описание к видео #6.4 PPO/DPPO Proximal Policy Optimization (强化学习 Reinforcement Learning with tensorflow 教学)

根据 OpenAI 的官方博客, PPO 已经成为他们在强化学习上的默认算法. 如果一句话概括 PPO: OpenAI 提出的一种解决 Policy Gradient 不好确定 Learning rate (或者 Step size) 的问题. 因为如果 step size 过大, 学出来的 Policy 会一直乱动, 不会收敛, 但如果 Step Size 太小, 对于完成训练, 我们会等到绝望. PPO 利用 New Policy 和 Old Policy 的比例, 限制了 New Policy 的更新幅度, 让 Policy Gradient 对稍微大点的 Step size 不那么敏感.

详细的文字教程: https://morvanzhou.github.io/tutorial...
Code: https://github.com/MorvanZhou/Reinfor...
通过 "莫烦 Python" 支持我做出更好的视频: https://morvanzhou.github.io/support/
通过翻译,帮助其他语言的观看者:http://www.youtube.com/timedtext_cs_p...
莫烦 Python 更多有趣的教程: https://morvanzhou.github.io/tutorials/

Комментарии

Информация по комментариям в разработке