确定策略梯度 Deterministic Policy Gradient, DPG (连续控制 2/3)

Описание к видео 确定策略梯度 Deterministic Policy Gradient, DPG (连续控制 2/3)

这节课继续研究连续控制。这节课介绍 Deterministic Policy Gradient (DPG) 方法,它是一种 Actor-Critic 方法。策略网络 (actor) 输出确定性的动作,价值网络 (critic) 给动作打分 (记做 q)。用 DPG 更新策略网络,让分数 q 更高。用 TD 算法更新价值网络,让它的估计更接近真实价值。

连续控制:
1. 离散控制与连续控制:    • 离散控制与连续控制 (连续控制 1/3)  
2. 确定策略梯度:    • 确定策略梯度 Deterministic Policy Gradient,...  
3. 用随机策略做连续控制:    • 随机策略做连续控制 (连续控制 3/3)  

课件: https://github.com/wangshusen/DRL

Комментарии

Информация по комментариям в разработке