一、Introduction

1.目前存在的问题:

(deep)Q-learning:在一些简单问题上表现不佳,可理解性差

基础的policy gradient算法:(如REINFORCE)鲁棒性差,需要大量数据

TRPO:复杂,在包含噪音(如dropout)或者权重共享机制的问题中不兼容

在扩展性、数据利用率以及鲁棒性上还有上升空间

二、背景知识:策略优化

1.策略梯度方法

策略梯度中常用的gradient estimator格式:

相对应的目标函数:

2.Trust Region方法(TRPO)

加入拉格朗日因子变成:

问题:很难选择一个确定的β在所有问题 甚至某一类问题上都表现的很好。

三、引入Clipped形式

1.限制过度乐观:

这个式子的形式很巧妙,使用clip来防止结果过于激进:如A>0时如果r超过1+E就进行截断处理,A<0时如果r小于1-E就进行阶段处理。

当新策略试图对旧策略已经做得不错(A_t > 0)的地方进行过于激进的改进(r_t >> 1),或者对旧策略做得不好(A_t < 0)的地方进行过于激进的避免(r_t << 1)时,PPO会踩刹车(裁剪),防止策略突然偏离太远导致崩溃。

2.允许必要的悲观修正

但是不会阻止悲观的结果:如果A>0且r<1-E则不进行截断处理,A<0时r>1+E时不进行截断处理。这是为了激励模型积极学习,下面是解释:

  • 情景一 (A_t>0, r_t<<1):r_t*A_t 是一个很小的正数(甚至可能变负),而 clip(r_t, 1-ε, 1+ε)*A_t ≈ (1-ε)*A_t 是一个较大的正数。所以 min 选择了很小的 r_t*A_t
  • 情景二 (A_t<0, r_t>>1):r_t*A_t 是一个很大的负数(因为负的A_t被放大了),而 clip(r_t, 1-ε, 1+ε)*A_t ≈ (1+ε)*A_t 是一个较小的负数(负的A_t被缩小了)。所以 min 选择了很大的负数 r_t*A_t
  • 目标函数的含义: PPO的目标是最大化这个 min(...) 函数的值。

  • 梯度更新的方向: 为了最大化目标函数:

    • 在情景一中,目标函数取了一个很小的值(甚至负值)。为了最大化它,优化器会强烈地推动策略参数 θ 朝着增加 r_t(θ)(即增加选择这个好动作的概率)的方向更新

    • 在情景二中,目标函数取了一个很大的负值。为了最大化它(即让这个负值变得不那么负),优化器会强烈地推动策略参数 θ 朝着减少 r_t(θ)(即减少选择这个坏动作的概率)的方向更新

  • “积极更新”的体现: 由于目标函数值在错误方向上非常差(很小或很负),优化器计算出的梯度(更新方向)的幅度会非常大。这导致参数 θ 会在这个方向上迈出相对较大的一步,迅速纠正这个错误。这就是“允许更积极地更新”的数学体现。

想象你在训练一个机器人走路(策略)。PPO的clip机制就像给机器人脚上装了带弹簧的限制器([1-ε, 1+ε])。

当机器人想迈出一个非常大的步子向前冲(乐观更新,可能跌倒)时,弹簧限制器会拉住它(裁剪),只允许它迈出安全的一步。

但当机器人不小心踩空,即将向后摔倒(严重错误,性能崩溃)时,弹簧限制器不会阻止它把脚快速收回来重新站稳(不裁剪,允许积极纠错)。如果这个时候限制器还强行拉住脚不让它收回来,机器人肯定会重重摔倒。PPO选择松开限制器,让机器人能迅速做出挽救动作

说白了就是允许严重的错误,而模型为了纠正这个错误会强烈推动策略参数的更新。

四、Adaptive KL Penalty Coefficient

论文中指出了一个替代或者补充方法,就是增加KL惩罚项,但是这个的表现明显比clip的糟糕。

五、算法完整过程

最终算法是要梯度上升下面这个式子来实现参数更新:

其中CLIP就是三中的式子,不再介绍。VF表示和target的损失函数,S表示熵奖励(为了提高模型中的探索性)。

这里解释一下VF:因为我在学习强化学习的时候感受到的强化学习和监督/无监督学习的主要区别就是解决的问题不同,监督/无监督学习主要是为了优化,是可以有固定的标签的,只是训练的时候给不给的问题(或者好不好获得),但强化学习是关于和环境交互学习策略的,是没有办法获得具体标签的,所以强化学习的目标是最大化state value而监督/无监督学习是最小化和target之间的loss函数。但是这里的VF感觉像是监督学习了。

答:虽然强化学习整理是“无监督” 的,但是在训练值函数的时候可以构造一个"伪标签"。也就是说这里的target不是环境直接给的target,而是我们基于经验计算的目标。

VF项的展开公式是,其中Vθ​(st​)是为了估计每个状态的价值而构建的值函数网络,训练时,我们用采样得到的经验去构造目标值 Vtarg​,再用 均方误差(MSE) 来回归这个目标值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/92887.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/92887.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/92887.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

零基础也能创作专属歌曲:文心一言+蘑兔AI协同教程

在AI技术飞速发展的今天&#xff0c;音乐创作已不再是专业音乐人的专属领域。通过文心一言与蘑兔AI的协同使用&#xff0c;即使没有音乐基础&#xff0c;也能轻松完成从歌词创作到作曲编曲的全流程。本文将详细拆解操作步骤&#xff0c;助你快速上手&#xff0c;实现音乐创作梦…

图论:搜索问题

提到图论中的搜索问题&#xff0c;首先想到的也就是DFS和BFS了&#xff0c;而提到这两种搜索&#xff0c;那么最典型的题目就是岛屿问题了&#xff0c;下面就练习几道相关的题目&#xff0c;为之后的更深奥的图论学习打下基础&#xff01; 孤岛的总面积 题目链接&#xff1a;…

AI驱动攻防升级,API安全走到关键档口

在数字化转型与AI技术快速发展的双重驱动下&#xff0c;API已成为企业业务与外部世界连接的神经中枢。然而&#xff0c;随着API的深度应用&#xff0c;针对API的攻击规模与复杂性也在持续升级。 API为何频频成为黑客重点盯防的突破口&#xff1f;企业常见的API防护手段是否还能…

网络基础DAY18-动态路由协议基础

动态路由协议基础知识回顾&#xff1a;1.什么是路由&#xff1f; 答&#xff1a;是三层设备转发IP报文的路径信息。 2.路由有哪些来源&#xff1f; 答&#xff1a;1.直连路由2.静态路由3.动态路由 3.有直连路由的条件&#xff1f; 答&#xff1a;1.二层和三层物理接口状态为UP …

axios统一封装规范管理

新建/api/ 1.新建统一处理文件/api/axios.ts import axios from "axios"const http axios.create({baseURL: import.meta.env.VITE_API_BASE_URL, // 从环境变量读取timeout: 10000, });// 请求拦截器&#xff08;如添加 Token&#xff09; http.interceptors.reque…

Java学习第七十四部分——Elasticsearch(ES)

目录 一、前言提要 二、核心特性 三、应用场景 四、主要优势 五、集成方式 六、基础操作 七、高级特性 八、概念类比——与关系型数据库 九、简单示例——实现存储与搜索 十、生态集成——基于Spring Data Elasticsearch 十一、性能优化建议 十二、总结归纳概述 一…

TDengine 转化函数 TO_UNIXTIMESTAMP 用户手册

TDengine TO_UNIXTIMESTAMP 函数用户使用手册 函数概述 TO_UNIXTIMESTAMP 是 TDengine 中的标量函数&#xff0c;用于将符合 ISO8601/RFC3339 标准的日期时间字符串转换为 Unix 时间戳。与 TO_TIMESTAMP 不同&#xff0c;该函数专门处理标准格式的时间字符串&#xff0c;无需指…

Java 中的排序算法详解

目录 一、冒泡排序&#xff08;Bubble Sort&#xff09; 原理​ 二、选择排序&#xff08;Selection Sort&#xff09; 原理​ 三、插入排序&#xff08;Insertion Sort&#xff09; 原理​ 四、快速排序&#xff08;Quick Sort&#xff09; 原理​ 五、归并排序&…

Gitee如何成为国内企业DevOps转型的首选平台?

Gitee如何成为国内企业DevOps转型的首选平台&#xff1f; 在数字化转型浪潮中&#xff0c;DevOps已成为提升企业研发效能的关键引擎。作为国内领先的代码托管与协作平台&#xff0c;Gitee凭借本土化优势与全流程支持能力&#xff0c;正成为越来越多企业DevOps实践的核心载体。本…

​Excel——SUMPRODUCT 函数

SUMPRODUCT 是 Excel 中最强大的函数之一&#xff0c;可以用于 ​多条件求和、加权计算、数组运算​ 等复杂场景。下面通过 ​基础语法 实用案例​ 彻底讲透它的用法&#xff01;​一、基础语法​SUMPRODUCT(数组1, [数组2], [数组3], ...)​功能​&#xff1a;将多个数组的对…

告别虚函数性能焦虑:深入剖析C++多态的现代设计模式

🚀 引言:当多态遇上性能瓶颈 我经常被问到这样一个问题:“既然virtual函数这么方便,为什么在一些高性能场景下,大家却避之不及?” 答案很简单:性能。 在我参与的多个HPC项目和游戏引擎开发中,virtual函数调用往往成为性能分析工具中最显眼的那个红点。一个看似无害…

k8s-MongoDB 副本集部署

前提准备一套 k8s 集群worker 节点上的 /nfs/data 目录挂载到磁盘一、NFS 高可用方案&#xff08;NFSkeepalivedSersync&#xff09;本方案 NFS 的高可用方案&#xff0c;应用服务器为 Client &#xff0c;两台文件服务器分别 Master 和 Slave&#xff0c;使用 keepalived 生成…

BI 系统数据看板全解析:让数据可视化驱动业务决策

BI 系统数据看板全解析&#xff1a;让数据可视化驱动业务决策在 BI 系统中&#xff0c;数据看板是连接原始数据与业务洞察的 “桥梁”。它将零散的业务指标转化为直观的可视化图表&#xff0c;让产品经理、运营人员等角色能快速把握业务动态。一个设计精良的数据看板&#xff0…

图机器学习(14)——社交网络分析

图机器学习&#xff08;14&#xff09;——社交网络分析0. 前言1. 数据集分析1.1 数据集介绍1.2 使用 networkx 加载数据集2. 网络拓扑和社区检测2.1 网络拓扑2.2 社区检测0. 前言 社交网站的崛起是近年来数字媒体领域最活跃的发展趋势之一&#xff0c;数字社交互动已经融入人…

深入解析Hadoop MapReduce中Reduce阶段排序的必要性

MapReduce概述与Reduce阶段简介MapReduce作为Hadoop生态系统的核心计算框架&#xff0c;其设计思想源自Google论文&#xff0c;通过"分而治之"的理念实现海量数据的并行处理。该模型将计算过程抽象为两个关键阶段&#xff1a;Map阶段负责数据分解和初步处理&#xff…

7月23日华为机考真题第二题-200分

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ bishipass.com 02. 图书馆资源分配系统 问题描述 A先生是一位图书馆管理员,负责管理图书采购和分配工作。图书馆收到了来自不同出版社的图书批次,同时有多位读者代表排队申请图书…

基于深度学习的图像分类:使用ResNet实现高效分类

最近研学过程中发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的…

JVM:工具

JVMjpsjstatjmapjhatjstackjconsolejvisualvmjps jps&#xff08; Java Virtual Machine Process Status Tool &#xff09;&#xff0c;是 JDK 中的一个命令行工具&#xff0c;用于列出当前正在运行的 JVM 实例的信息。其对于监控和管理运行在多个 JVM 上的 Java 应用程序特别…

Elasticsearch Circuit Breaker 全面解析与最佳实践

一、Circuit Breaker 简介 Elasticsearch 是基于 JVM 的搜索引擎&#xff0c;其内存管理十分重要。为了避免单个操作或查询耗费过多内存导致节点不可用&#xff0c;Elasticsearch 引入了 Circuit Breaker&#xff08;熔断器&#xff09;机制。当内存使用达到熔断器预设阈值时&a…

ARM-定时器-定时器函数封装配置

以TIMER7为例&#xff0c;对定时器函数进行封装注意事项&#xff1a;GD32中TIMER7是高级定时器&#xff0c;相关详细请参考上一篇文章。main.c//main.c#include "gd32f4xx.h" #include "systick.h" #include <stdio.h> #include "main.h" …