bicheng/2025/6/28 10:56:55/文章来源:https://blog.csdn.net/xiezhipu/article/details/148962352

文章目录

Policy gradient思想（REINFORCE算法）
优势函数
PPO（Proximal Policy Optimization）

Policy gradient思想（REINFORCE算法）

在这里插入图片描述

下面我们来探讨一下Policy gradient策略，也就是REINFORCE算法。

在玩剪刀石头布这个简单的游戏中，我们可以有不同的策略。一种是完全随机地出，毫无规律；另一种是根据对手上一轮出的来决定自己这一轮出什么。但是，我们如何去判断哪种策略更好呢？

这就需要引入两个重要概念：“轨迹”和“轨迹的回报期望”。

轨迹可以表示为S0，a1，r1，S1，a2，r2，S2……它记录了游戏过程中的状态、行动和获得的回报。

而轨迹的回报期望则用公式来表示为：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/86589.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/86589.shtml
英文地址，请注明出处：http://en.pswp.cn/bicheng/86589.shtml

如若内容造成侵权/违法违规/事实不符，请联系英文站点网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Oracle数据库文件变成32k故障恢复--惜分飞

Oracle数据库文件变成32k故障恢复--惜分飞

最近一个客户数据库重启系统之后,数据文件大小变为了32kb,我接手的不是第一现场(客户那边尝试了rman还原操作),查看alert日志,数据库最初报错 Wed Jun 18 13:09:23 2025 alter database open Block change tracking file is current. Read of datafile D:\APP\ADMINISTRATOR\OR…

阅读更多...

移动端 uniapp 写一个可自由拖拽的小键盘

移动端 uniapp 写一个可自由拖拽的小键盘

写之前要考虑： 键盘展开后，不能超过手机边缘在底部展开键盘，键盘应出现在展开按钮上方；以此类推重复点击展开按钮，关闭键盘效果： 代码如下，有些按键逻辑还需要优化 <template><vi…

阅读更多...

《二分枚举答案(配合数据结构)》题集

《二分枚举答案(配合数据结构)》题集

文章目录 1、模板题集2、课内题集3、课后题集1. 字符串哈希2. 并查集3. ST表 1、模板题集分巧克力 2、课内题集倒水冶炼金属连续子序列的个数 3、课后题集括号内的整数代表完整代码行数。 1. 字符串哈希你猜猜是啥题(60) 2. 并查集拯救萌萌(72) 3. ST表 GCD不小…

阅读更多...

PY32F030单片机，优势替代ST GD，主频48MHz，带LED数码管驱动

PY32F030单片机，优势替代ST GD，主频48MHz，带LED数码管驱动

PY32F030是一款高性能32位单片机，采用ARM Cortex-M0内核，工作频率高达48MHz，具备64KB Flash和8KB SRAM。它支持1.7V~5.5V宽电压范围，集成多路I2C、SPI、USART通讯外设，配备12位ADC、16位定时器和比较器，适用…

阅读更多...

Rockchip Uboot中修改固件探测的存储介质

Rockchip Uboot中修改固件探测的存储介质

Rockchip Uboot中修改固件探测的存储介质 Rockchip uboot中支持从 eMMC、SDcard、NAND 、SPI_NAND、SPI_NOR等存储介质引导固件。 uboot的spl启动的时候会默认呢都会去探测这些介质，这样会导致探测时间变长，在实际产品中可以根据产品需求进行个性化的配…

阅读更多...

动手学Python：从零开始构建一个“文字冒险游戏”

动手学Python：从零开始构建一个“文字冒险游戏”

动手学Python：从零开始构建一个“文字冒险游戏” 大家好，我是你的技术向导。今天，我们不聊高深的框架，也不谈复杂的算法，我们来做一点“复古”又极具趣味性的事情——用Python亲手打造一个属于自己的文字冒险游戏&…

阅读更多...

基于Kafka实现企业级大数据迁移的完整指南

基于Kafka实现企业级大数据迁移的完整指南

在大数据时代，数据迁移已成为企业数字化转型过程中的常见需求。本文将详细介绍如何利用Kafka构建高可靠、高性能的大数据迁移管道，涵盖从设计到实施的完整流程。一、为什么选择Kafka进行数据迁移？ Kafka作为分布式消息系统，具有…

阅读更多...

GEO引领品牌大模型种草：迈向Web3.0与元宇宙的认知新空间

GEO引领品牌大模型种草：迈向Web3.0与元宇宙的认知新空间

在数字技术的演进历程中，我们正经历着从Web2.0到Web3.0、从平面互联网到沉浸式元宇宙的范式转变。这一转变不仅重塑了数字空间的形态和交互方式，更深刻改变了品牌与用户的连接模式和价值创造逻辑。而在这个新兴的数字疆域中，生成式引擎优化&a…

阅读更多...

【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析

【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈机器学习与数据挖掘实战 ⌋ ⌋ ⌋ 机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联…

阅读更多...

83、高级特性-自定义starter细节

83、高级特性-自定义starter细节

83、高级特性-自定义starter细节自定义Spring Boot Starter可以将通用功能封装成可复用的模块，简化其他项目的配置和使用。以下是创建自定义Starter的详细步骤和关键细节： ### 1. 项目结构通常，自定义Starter包含两个模块： ####…

阅读更多...

专注推理查询（ARQs）：一种提升大型语言模型指令遵循度、决策准确性和防止幻觉的结构化方法

专注推理查询（ARQs）：一种提升大型语言模型指令遵循度、决策准确性和防止幻觉的结构化方法

大型语言模型（LLMs）在客户服务、自动化内容创作和数据检索方面变得至关重要。然而，它们的有效性常常因其在多次交互中无法始终如一地遵循详细指令而受到限制。在金融服务和客户支持系统等高风险环境中，严格遵循指南是必不可少的&a…

阅读更多...

华为云Flexus+DeepSeek征文 | DeepSeek驱动的医疗AI Agent：智能问诊系统开发完整指南

华为云Flexus+DeepSeek征文 | DeepSeek驱动的医疗AI Agent：智能问诊系统开发完整指南

华为云FlexusDeepSeek征文 | DeepSeek驱动的医疗AI Agent：智能问诊系统开发完整指南 🌟 嗨，我是IRpickstars！ 🌌 总有一行代码，能点亮万千星辰。 🔍 在技术的宇宙中，我愿做永不停歇…

阅读更多...

【大模型水印论文阅读2】前缀文本编码、均匀性约束

【大模型水印论文阅读2】前缀文本编码、均匀性约束

TOC 🌈你好呀！我是是Yu欸 🚀 感谢你的陪伴与支持~ 欢迎添加文末好友 🌌 在所有感兴趣的领域扩展知识，不定期掉落福利资讯(*^▽^*) 写在最前面版权声明：本文为原创，遵循 CC 4.0 BY-SA 协议。…

阅读更多...

破茧时刻，与光同行

破茧时刻，与光同行

凌晨五点的闹钟刺破薄雾，我摸黑打开台灯。摊开的数学错题本上，函数图像在暖黄的光晕里舒展，像等待破译的密码。这样的清晨已持续三百多个日夜，我知道，在无数个相似的时刻里，总有千万盏台灯在黑暗中次第亮起…

阅读更多...

Learning PostgresSQL读书笔记: 第8章 Triggers and Rules

Learning PostgresSQL读书笔记: 第8章 Triggers and Rules

本章将讨论以下内容： • 探索 PostgreSQL 中的规则 • 管理 PostgreSQL 中的触发器 • 事件触发器探索 PostgreSQL 中的规则文档中的这段话阐述了rule和trigger的区别： PostgreSQL 规则系统允许定义在数据库表中插入、更新或删除时执行的替代操作。粗…

阅读更多...

信创国产化替代中的开发语言选择分析

信创国产化替代中的开发语言选择分析

在信息技术应用创新(信创)国产化替代过程中，选择合适的开发语言至关重要。以下是适合信创环境的开发语言及其优势分析： 主流适合信创的编程语言 1. Java 优势：跨平台特性(JVM)、丰富的生态体系、企业级应用成熟信创适配：国内有…

阅读更多...

Android 中函数实现多个返回值的几种方式

Android 中函数实现多个返回值的几种方式

在编程中，函数通常只能返回一个值。但通过使用对象封装、Pair、Triple、数组、列表或 Bundle 方式，可以轻松地返回多个值。 1、对象封装方式创建数据类来封装需要返回的多个值。 data class Result(val code: Int, val message: String)fun getMultiV…

阅读更多...

Leetcode百题斩-DP

Leetcode百题斩-DP

又到了最好玩的dp了，各种玄学转移也算是其乐无穷。前段时间刚做的LCA正是这种题的小试牛刀，如果当时就把这个专题刷完了，或许我现在已经从西溪园区跑到云谷园区了。不过，恐怖如斯的dp专题居然只给了一道hard，基本也没…

阅读更多...

策略模式与工厂模式的黄金组合：从设计到实战

策略模式与工厂模式的黄金组合：从设计到实战

策略模式和工厂模式是软件开发中最常用的两种设计模式，当它们结合使用时，能产生11>2的效果。本文将通过实际案例，阐述这两种模式的协同应用，让代码架构更优雅、可维护性更强。一、为什么需要组合使用？ 单独使用的…

阅读更多...

SAP PP模块与MM模块作用详解

SAP PP模块与MM模块作用详解

SAP PP模块与MM模块作用详解一、PP模块（Production Planning）—— 生产计划与执行中枢核心作用：将销售需求转化为可执行的生产指令，管控从计划到完工的全过程。关键功能功能说明业务价值主数据管理维护BOM（物料…

阅读更多...

最新文章