文章目录

  • 前言
  • **一、 理论基础:什么是策略梯度?**
    • **1.1 基于价值 vs. 基于策略**
    • **1.2 策略梯度(Policy Gradient)**
    • **1.3 REINFORCE 算法:蒙特卡洛策略梯度**
    • **1.4 REINFORCE 算法流程**
  • **二、 PyTorch 代码实践**
    • **2.1 环境与辅助函数**
    • **2.2 核心算法实现**
    • **2.3 训练与结果**
  • **总结**


前言

欢迎来到“从代码学习深度强化学习”系列!在之前的文章中,我们可能已经接触了许多基于价值(Value-based)的强化学习算法,如 Q-learning 和 DQN。这些算法的核心思想是学习一个价值函数(如 Q-函数),然后根据这个函数间接地推导出一个最优策略。然而,在很多现实场景中,尤其是那些动作空间连续或者非常大的问题中,直接学习一个策略函数可能更为高效和直接。

今天,我们将深入探讨**策略梯度(Policy Gradient)**方法,这正是直接学习策略的算法家族的基石。我们将聚焦于该家族中最基础也最经典的算法之一:REINFORCE。通过本篇博客,您将不仅理解 REINFORCE 的核心理论,还将跟随我们一步步用 PyTorch 实现一个完整的 REINFORCE 智能体,并在经典的 CartPole 环境中进行训练和测试。

让我们一起从理论出发,最终落脚于代码,彻底掌握 REINFORCE 算法的精髓!

完整代码:下载链接

一、 理论基础:什么是策略梯度?

在深入代码之前,我们必须先理解 REINFORCE 算法背后的核心思想——策略梯度。

1.1 基于价值 vs. 基于策略

首先,让我们明确两类方法的根本区别:

  • 基于价值 (Value-based) 的方法:如 Q-learning、DQN 及其改进算法,它们学习的是价值函数。学习过程并不会显式地存在一个策略,而是根据学到的价值函数(例如,选择Q值最高的动作)来推导出一个策略。
  • 基于策略 (Policy-based) 的方法:这类方法不通过价值函数,而是直接学习一个目标策略。智能体会学习一个带参数的策略函数 π(a|s, θ),这个函数直接输出在某个状态 s 下采取各个动作 a 的概率。我们的目标就是找到最优的参数 θ,使得策略最优。

策略梯度方法正是基于策略的方法的基础。

1.2 策略梯度(Policy Gradient)

基于策略的方法首先需要将策略参数化。假设我们的目标策略 πθ 是一个随机性策略,并且处处可微,其中 θ 是对应的参数。我们可以用一个线性模型或者神经网络来构建这样一个策略函数建模,它输入某个状态,然后输出一个动作的概率分布。我们的目标是要寻找一个最优策略并最大化这个策略在环境中的期望回报。

我们将策略学习的目标函数定义为:

J ( θ ) = E s 0 [ V π θ ( s 0 ) ] J(\theta)=\mathbb{E}_{s_0}[V^{\pi_\theta}(s_0)] J(θ)=Es0[Vπθ(s0)]

其中, s 0 s_0 s0 表示初始状态,V 是状态价值函数,J(θ) 代表了在策略 π θ \pi_{\theta} πθ 下,从初始状态 s 0 s_0 s0开始所能获得的期望总回报。

现在有了目标函数,我们就可以将目标函数对策略参数 θ 求导,得到导数后就可以用梯度上升方法来最大化这个目标函数,从而得到最优策略。这个梯度就是我们常说的策略梯度,其具体形式如下(推导过程略):

∇ θ J ( θ ) ∝ ∑ s ∈ S ν π θ ( s ) ∑ a ∈ A Q π θ ( s , a ) ∇ θ π θ ( a ∣ s ) = ∑ s ∈ S ν π θ ( s ) ∑ a ∈ A π θ ( a ∣ s ) Q π θ ( s , a ) ∇ θ π θ ( a ∣ s ) π θ ( a ∣ s ) = E π θ [ Q π θ ( s , a ) ∇ θ log ⁡ π θ ( a ∣ s ) ] \begin{aligned}\nabla_\theta J(\theta)&\propto\sum_{s\in S}\nu^{\pi_\theta}(s)\sum_{a\in A}Q^{\pi_\theta}(s,a)\nabla_\theta\pi_\theta(a|s)\\&=\sum_{s\in S}\nu^{\pi_\theta}(s)\sum_{a\in A}\pi_\theta(a|s)Q^{\pi_\theta}(s,a)\frac{\nabla_\theta\pi_\theta(a|s)}{\pi_\theta(a|s)}\\&=\mathbb{E}_{\pi_\theta}[Q^{\pi_\theta}(s,a)\nabla_\theta\log\pi_\theta(a|s)]\end{aligned} θJ(θ)sSν

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/910254.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/910254.shtml
英文地址,请注明出处:http://en.pswp.cn/news/910254.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CRMEB 代码规范指南:ThinkPHP6+Uni-app 架构下的开发标准

二、代码规范 2.1 Vue .1.1 代码结构 <template><div id"my-component"><DemoComponent /></div> </template><script> import DemoComponent from ../components/DemoComponentexport default {name: MyComponent,component…

游戏技能编辑器开发完全指南系统架构设计之技能编辑器整体架构

技能编辑器整体架构 角色资源划分与管理 1. 角色资源结构 角色资源划分与管理 1. 角色资源结构 // 骨骼重定向示例 void RetargetAnimation(Animation& srcAnim, Skeleton& targetSkeleton) {for (int frame 0; frame < srcAnim.numFrames; frame) {for (Bone&a…

SD-WAN 不是“裸跑”:聊聊怎么把网络安全绑在智能网关上

SD-WAN 不是“裸跑”:聊聊怎么把网络安全绑在智能网关上 一、别被“软件定义”忽悠了:SD-WAN 到底安不安全? 这些年,“SD-WAN”这个词火得不行,听上去高大上,像“云原生网络”、“下一代 WAN 技术”、“运维降本神器”,厂商的 PPT 一个比一个能吹。 但咱搞运维的知道…

国产Linux银河麒麟操作系统上安装开源的视频录制和直播推流OBS Studio软件

一、OBS Studio 简介 OBS Studio (Open Broadcaster Software Studio) 是一款开源的视频录制和直播推流软件&#xff0c;具有以下特点&#xff1a; 跨平台支持&#xff1a;支持 Windows、macOS 和 Linux 系统功能全面&#xff1a; 支持多场景无缝切换提供丰富的音视频源管理内…

Thrift作为客户端流程(多路复用)

以下是一个 使用多路复用&#xff08;TMultiplexedProtocol&#xff09; 的 Thrift 客户端完整流程和关键函数&#xff08;以 Java 为例&#xff09;&#xff0c;适用于当服务端使用 TMultiplexedProcessor 注册了多个服务时&#xff0c;客户端可以区分并调用不同的服务。 ✅ 客…

实现PDF文件添加水印的功能

通过Java代码实现PDF文件添加水印的功能&#xff0c;主要依赖iText库&#xff08;用于PDF操作&#xff09;和OSS SDK&#xff08;可选&#xff0c;用于文件上传&#xff09;。以下是实现的核心步骤&#xff1a; 首先添加依赖 <!-- 添加 PDF 水印 --><dependency>…

Swoft2 框架精华教程:Swoft 的视图组件

概述 用模板对页面进行渲染&#xff0c;这是比较经典的一种设计方式了。主要目的是在服务器端进行页面渲染&#xff0c;以使客户端浏览器可以直接拿到页面 html 的代码&#xff0c;这样对搜索引擎对网站的收录比较友好。如果是前后端分离的形式&#xff0c;由于前后端交互是用…

[学习] 哈希码:原理、用途与实现详解(C代码示例)

哈希码&#xff1a;原理、用途与实现详解 博主在《在C语言中使用字典》一文中&#xff0c;使用哈希来实现键值对的快速检索&#xff0c;今天对哈希这一算法工具&#xff0c;进行一些深入的研究&#xff0c;争取能能做到知其然亦知其所以然。 文章目录 哈希码&#xff1a;原理、…

golang--channel的关键特性和行为

Go 语言 Channel 的核心特性与行为深度解析 Channel 是 Go 语言并发编程的核心组件&#xff0c;用于在不同 goroutine 之间进行通信和同步。以下是其关键特性和行为的全面分析&#xff1a; 一、基本特性 1. 类型安全通信管道 ch : make(chan int) // 只能传递整数2. 方向性…

HarmonyOS 5 鸿蒙多模态融合测试技术方案详解

以下是针对HarmonyOS 5多模态融合测试的技术方案详解&#xff0c;综合交互逻辑、容错机制及分布式验证等核心模块&#xff1a; ‌一、多模态交互核心逻辑验证‌ ‌事件融合机制‌ 通过kit.AbilityKit监听语音指令&#xff0c;结合ArkUI手势系统捕获屏幕坐标&#xff1a; import…

在AI普及的大环境下神经网络在新能源汽车热管理系统中的应用简介

一、神经网络的核心原理与结构 1. 生物启发与基础组成 神经网络&#xff08;Artificial Neural Network, ANN&#xff09;受生物神经元信息处理机制启发&#xff0c;由大量人工神经元互联构成计算模型。每个神经元接收输入信号&#xff08;如温度、流量等物理量&#xff09;&a…

​ CATIA V5与3DEXPERIENCE协同设计:引领无人机行业新纪元

在无人机行业蓬勃发展的今天&#xff0c;传统设计流程正面临前所未有的系统性挑战。更令人担忧的是&#xff0c;随着无人机应用场景的不断拓展&#xff0c;从农业植保到城市物流&#xff0c;从应急救援到军事侦察&#xff0c;对产品性能的要求日益严苛。传统设计方法已难以应对…

关于科技公司经营的一些想法

分析了一些我们公司的问题&#xff1a; 1&#xff0c;测试 重视测试&#xff0c;加大测试投入 2&#xff0c;人才 人才评判标准&#xff1a;结果论&#xff0c;主要根据该岗位问题的解决效率与质量评判。工作时长不重要 任人唯贤。尽可能录用能解决问题的人才&#xff0c;不…

校招生成长日记(一):初来乍到

提前来了几天&#xff0c;感受一下广东的生活。第一印象就是闷热&#xff01;后面尝了潮汕火锅&#xff0c;椰子鸡&#xff0c;荔枝&#xff0c;都很不错&#xff01;&#xff01;&#xff01;就是没有重口味的&#xff0c;好想念我的酸辣粉&#xff0c;麻辣烫啊......y走了瞬间…

【精选】移动端学习平台设计与开发 移动端平台开发(含资料阅读、时事新闻、时政答题与讨论功能) 基于移动端的专题教育平台设计与实现

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…

Protobuf 高级特性详解 —— 嵌套消息、Oneof 字段与自定义选项

在前几篇文章中&#xff0c;我们已经掌握了 Protocol Buffers&#xff08;Protobuf&#xff09;的基础语法、.proto 文件的结构、以及如何使用 Go 和 Java 进行数据的序列化与反序列化操作。本篇文章将深入探讨 Protobuf 的高级特性&#xff0c;包括&#xff1a; 嵌套消息&…

golang--数据类型与存储

在 Go 语言中&#xff0c;理解值类型&#xff08;value types&#xff09;和引用类型&#xff08;reference types&#xff09;的区别对于编写高效、正确的代码至关重要。以下是主要的区别点和需要注意的特殊情况&#xff1a; 一、值类型&#xff08;Value Types&#xff09; …

uniapp——轮播图、产品列表轮播、上一页、下一页、一屏三张图

案例展示 组件封装 <template><view><view class="showSwiperBox"><view class="topSwiper"><swiper class="swiper" :autoplay="autoplay" interval="5000" :previous-margin="margin&qu…

用Python实现安全封装EXE文件加密保护工具

一、概述 这个Python脚本实现了一个强大的EXE文件加密保护工具,它能够将任何Windows可执行文件封装到一个带密码保护的GUI程序中。核心功能包括: 使用AES-256加密算法保护原始EXE文件 创建美观的密码验证界面 支持自定义程序图标 自动处理PyInstaller打包过程 修复Tkinter在…

vue3监听属性watch和watchEffect的详解

文章目录 1. 前言2. 常规用法3. 监听对象和route变化4. 使用场景4.1 即时表单验证4.2 搜索联想功能4.3 数据变化联动处理 5. watchEffect详解5-1 基本概念5-2 核心用法基础示例&#xff1a;自动响应依赖变化处理异步副作用停止监听与清理副作用 5-3 高级场景应用监听多个响应式…