ICLR 2025 Oral
code
具有样本效率的 online reinforcement learning (RL) 通常使用 replay buffer 存储经验,以便在更新价值函数时重复使用。然而,uniform replay 效率低下,因为某些类型的 transition 可能与学习更相关。
虽然对更有用的样本进行优先级排序是有帮助的,但这种策略也可能导致 overfitting,因为有用的样本可能更少见。在这项工作中,我们提出了一种 prioritized、参数化的 agent 记忆版本,使用 generative model 来捕获 online 经验。这种范式能够实现:(1)过去经验的 densification,新的生成受益于 generative model (条件diffusion)的泛化能力;(2)通过一系列“relevance functions”的 guidance,将这些生成推向 agent 获取历史中更有用的部分。文章指出基于intrinsic curiosity(内在好奇心)有利于生成近似分布。
一种衡量好奇心的函数是TD-error,但是赖于高质量的Q函数。因此,估计误差可能导致F提供较差的调节信号。此外,在线RL智能体倾向于将Q函数过度拟合到早期经验,这将导致在这两种选择下F的快速过度拟合。那么很自然地,可以考虑使用一些能够提高生成多样性的相关性函数来减少过拟合。为了实现这种多样性,我们将 (F) 建模为探索目标,鼓励参与那些“新颖性更高”且更少见的 transitions (Strehl & Littman, 2008)。此外,通过完全学习一个单独的函数,我们将相关性函数与 Q 函数解耦,从而降低过拟合的可能性。因此,方法转向先前关于内在动机的研究,以实现这些见解。具体来说,我们从内在好奇心模块 (Pathak et al., 2017) 中获得灵感来参数化 (F)。给定一个特征编码器 (h),我们学习一个前向动力学模型 (g),该模型在 (h) 的潜在空间中对环境转换函数 (P(s' \mid s, a)) 进行建模。然后,(F) 由这个前向动力学模型的误差给出:
F将作为条件与diffusion model结合实现多样化的数据合成。
实验结果:
采样效率上优势明显
对比PER以及基于好奇心的奖励在采样效率上的提升。同时,在基于像素与基于向量的任务中采样效率均有提高