ICLR 2025 Oral
code
具有样本效率的 online reinforcement learning (RL) 通常使用 replay buffer 存储经验，以便在更新价值函数时重复使用。然而，uniform replay 效率低下，因为某些类型的 transition 可能与学习更相关。
虽然对更有用的样本进行优先级排序是有帮助的，但这种策略也可能导致 overfitting，因为有用的样本可能更少见。在这项工作中，我们提出了一种 prioritized、参数化的 agent 记忆版本，使用 generative model 来捕获 online 经验。这种范式能够实现：（1）过去经验的 densification，新的生成受益于 generative model （条件diffusion）的泛化能力；（2）通过一系列“relevance functions”的 guidance，将这些生成推向 agent 获取历史中更有用的部分。文章指出基于intrinsic curiosity（内在好奇心）有利于生成近似分布。
在这里插入图片描述

一种衡量好奇心的函数是TD-error，但是赖于高质量的Q函数。因此，估计误差可能导致F提供较差的调节信号。此外，在线RL智能体倾向于将Q函数过度拟合到早期经验，这将导致在这两种选择下F的快速过度拟合。那么很自然地，可以考虑使用一些能够提高生成多样性的相关性函数来减少过拟合。为了实现这种多样性，我们将 (F) 建模为探索目标，鼓励参与那些“新颖性更高”且更少见的 transitions (Strehl & Littman, 2008)。此外，通过完全学习一个单独的函数，我们将相关性函数与 Q 函数解耦，从而降低过拟合的可能性。因此，方法转向先前关于内在动机的研究，以实现这些见解。具体来说，我们从内在好奇心模块 (Pathak et al., 2017) 中获得灵感来参数化 (F)。给定一个特征编码器 (h)，我们学习一个前向动力学模型 (g)，该模型在 (h) 的潜在空间中对环境转换函数 (P(s' \mid s, a)) 进行建模。然后，(F) 由这个前向动力学模型的误差给出：
在这里插入图片描述
F将作为条件与diffusion model结合实现多样化的数据合成。

实验结果：

采样效率上优势明显
在这里插入图片描述
对比PER以及基于好奇心的奖励在采样效率上的提升。同时，在基于像素与基于向量的任务中采样效率均有提高

实验结果：

相关文章

Linux -- 线程、锁

海外服务器的定义和作用都有哪些？

数据结构之优先级队列

【版本控制教程】如何使用Unreal Engine 5 + UE源代码控制（Perforce P4）

opensingleComDialog方法解析优化

css 实现1个像素在不同分辨率屏幕上画网格线

深度图聚类DGC—Paper Notes

获取YARN application 应用列表的几种方法

前端如何下载 ‘Content-Type‘: ‘application/octet-stream‘ 的文件

咨询顾问进阶——顾问公司战略咨询分析模板【附全文阅读】

宝塔服务器调优工具 1.1（Opcache优化）

React Native【详解】动画

如何轻松地将照片从 iPhone 传输到计算机

操作系统之内存管理(王道)

C++11 std::thread 多线程编程详解

设置vscode使用eslint

.NET 生态中主流的前后端生产级框架

Spring Cloud Alibaba整合Sentinel指南

Win10+PHPStudy 8.1完美运行CRMEB开源商城（附性能优化配置）

康谋方案 | ARXML 规则下 ECU 总线通讯与 ADTF 测试方案