文章目录
- Policy gradient思想(REINFORCE算法)
- 优势函数
- PPO(Proximal Policy Optimization)
Policy gradient思想(REINFORCE算法)
下面我们来探讨一下Policy gradient策略,也就是REINFORCE算法。
在玩剪刀石头布这个简单的游戏中,我们可以有不同的策略。一种是完全随机地出,毫无规律;另一种是根据对手上一轮出的来决定自己这一轮出什么。但是,我们如何去判断哪种策略更好呢?
这就需要引入两个重要概念:“轨迹”和“轨迹的回报期望”。
轨迹可以表示为S0,a1,r1,S1,a2,r2,S2……它记录了游戏过程中的状态、行动和获得的回报。
而轨迹的回报期望则用公式来表示为:
J (