🎯 REINFORCE 策略梯度算法推导（完整）

1. 目标函数定义

我们希望最大化策略的期望回报：

$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right]$

其中：

$\tau = (s_0, a_0, s_1, a_1, ..., s_T, a_T)$ ：轨迹
$R(\tau) = \sum_{t=0}^T r_t$ ：轨迹总回报
$\pi_\theta(a_t | s_t)$ ：策略函数，如果是连续动作空间则是（概率密度函数值），离散动作空间则是是一个概率值（如 softmax 输出）。

2. 轨迹的概率

轨迹的概率分布为：

$P(\tau) = \rho(s_0) \cdot \prod_{t=0}^T \pi_\theta(a_t | s_t) \cdot P(s_{t+1} | s_t, a_t)$

其中：

$\rho(s_0)$ ：初始状态分布
$P(s_{t+1} | s_t, a_t)$ ：状态转移概率（与 $\theta$ 无关）, 就是选什么动作需要概率来描述，选了这个动作跳到什么状态，也是不确定的，也需要概率来描述。

3. 对目标函数求导

我们希望通过梯度上升更新策略参数 $\theta$ ：

$\nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right]$

问题：如何求这个梯度？由于 $\pi_\theta$ 依赖于 $\theta$ ，期望不能直接求导。

似然比技巧（likelihood ratio trick），推导如下：

$\nabla_\theta \mathbb{E}_{x \sim p_\theta(x)}[f(x)] = \nabla_\theta \int f(x) p_\theta(x) dx = \int f(x) \nabla_\theta p_\theta(x) dx$
这里之所以不对 $f (x)$ 求导，是因为在强化学习中这里的 $f (x)$ 是reward，是一个标量，与环境交互得到的。

利用链式法则：

$\nabla_\theta p_\theta(x) = p_\theta(x) \nabla_\theta \log p_\theta(x)$

代入得：

$\int f(x) p_\theta(x) \nabla_\theta \log p_\theta(x) dx = \mathbb{E}_{x \sim p_\theta(x)}[f(x) \nabla_\theta \log p_\theta(x)]$

4. 推导 log 概率项

注意：

$\log P(\tau) = \log \rho(s_0) + \sum_{t=0}^{T} \left[ \log \pi_\theta(a_t | s_t) + \log P(s_{t+1} | s_t, a_t) \right]$

由于 $\rho(s_0)$ 和 $P(s_{t+1} | s_t, a_t)$ 与 $\theta$ 无关：

$\nabla_\theta \log P(\tau) = \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t)$

5. 得到策略梯度表达式

代入得到最终梯度表达式：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot R(\tau) \right]$

6. 替换为每步折扣回报 ( G_t )

为了更准确地归因每步动作的影响，引入：

$G_t = \sum_{k=t}^{T} \gamma^{k-t} r_k$

改写为：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t \right]$

7. 引入 baseline 减少方差

减去一个与动作无关的 baseline $b(s_t)$ ：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot (G_t - b(s_t)) \right]$

常用 baseline：

$b(s_t) = V^\pi(s_t) \quad \Rightarrow \quad A_t = G_t - V(s_t)$

最终得到优势形式：

$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot A_t \right]$

✅ 常见策略梯度形式总结

名称	表达式
REINFORCE	$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t \| s_t) \cdot G_t \right]$
baseline形式	$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t \| s_t) \cdot (G_t - b(s_t)) \right]$
Advantage形式	$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t \| s_t) \cdot A_t \right]$

📌 附：连续动作高斯策略的梯度

假设策略为：

$\pi_\theta(a|s) = \mathcal{N}(\mu_\theta(s), \sigma^2)$
则：
$\log \pi_\theta(a|s) = -\frac{(a - \mu_\theta(s))^2}{2\sigma^2} + \text{const}$
对策略参数的梯度为：
$\nabla_\theta \log \pi_\theta(a|s) = \frac{(a - \mu_\theta(s))}{\sigma^2} \cdot \nabla_\theta \mu_\theta(s)$