一句话总结

  • On-policy(同策略):边学边用,用当前策略生成的数据更新当前策略
    例子:演员自己演完一场戏后,根据观众反馈改进演技。

  • Off-policy(异策略):学用分离,用其他策略(如旧策略、专家数据)生成的数据更新当前策略
    例子:演员通过看别人的表演录像来学习,不用自己亲自演。


On-policy 算法

特点
  1. 数据来源:必须用当前策略(正在训练的模型)与环境交互产生的数据。

  2. 数据时效性:更新一次策略后,旧数据立即失效,必须重新采样。

  3. 优缺点

    • ✅ 更稳定,数据与策略一致。

    • ❌ 样本效率低(大量数据只能用于一次更新)。

典型算法
  • REINFORCE:蒙特卡洛策略梯度,纯靠当前策略的完整轨迹更新。

  • PPO(近端策略优化):通过裁剪机制限制更新幅度,但仍需当前策略的数据。

  • A2C(Advantage Actor-Critic):同步版本的Actor-Critic算法。

类比
  • 厨师亲自尝菜调整配方:每改一次配方,就必须重新做一桌菜来试味道。


Off-policy 算法

特点
  1. 数据来源:可以用历史数据、其他策略的数据(如专家示范、旧策略)

  2. 数据复用:同一批数据可多次用于训练,提高样本效率。

  3. 优缺点

    • ✅ 样本效率高,适合真实场景(如机器人训练)。

    • ❌ 需要处理策略差异(如重要性采样),可能不稳定。

典型算法
  • Q-Learning / DQN:通过Q表或神经网络学习最优动作价值,不依赖当前策略。

  • DDPG / SAC:Actor-Critic框架下,用经验回放池(Replay Buffer)复用数据。

  • TD3:双延迟DDPG,进一步优化稳定性。

类比
  • 厨师看别人的做菜视频学新技术:不用自己反复试错,直接借鉴他人经验。


关键区别对比

特征On-policyOff-policy
数据来源必须当前策略生成可用任意策略生成的数据
数据复用不能复用,每次更新后丢弃可复用(如经验回放池)
样本效率
稳定性高(数据一致)低(需处理策略差异)
典型算法PPO, A2C, REINFORCEDQN, DDPG, SAC

通俗例子

  1. On-policy

    • 你学自行车:必须自己骑(当前策略),摔了才能调整姿势,不能靠看别人骑车来改进。

  2. Off-policy

    • 你学做菜:看菜谱视频(他人策略数据),不用每看一次就自己做一遍。


如何选择?

  • 选On-policy:需要高稳定性(如AI对话模型微调)。

  • 选Off-policy:数据稀缺或交互成本高(如机器人控制)。

理解这两者的区别,就能明白为什么PPO适合ChatGPT训练(稳定优先),而DQN适合游戏AI(数据复用优先)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/88925.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/88925.shtml
英文地址,请注明出处:http://en.pswp.cn/web/88925.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CA-IS3082W 隔离485 收发器芯片可能存在硬件BUG

RT,这个RS485 隔离收发器芯片基本上不可用。本来要买CA-IS3082WX,不小心在某宝买到了没有X 的CA-IS3082W。立创上说没有X 的版本已经停产,连对应的数据手册都找不到,全换成WX 了。 这类半双工485 收发器芯片电路一般都直接把DE 和…

dockerfile 笔记

# 设置JAVA版本 FROM openjdk:20-ea-17-jdk MAINTAINER aaa # 指定存储卷, 任何向/tmp写入的信息都不会记录到容器存储层 VOLUME /tmp # 拷贝运行JAR包 ARG JAR_FILE COPY app.jar /app.jar RUN ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime RUN echo "Asia/…

高德开放平台携手阿里云,面向开发者推出地图服务产品MCP Server

高德开放平台携手阿里云,面向开发者推出地图服务产品MCP Server,通过技术能力与生态资源的深度协同,助力开发者高效构建标准化地图服务,加速智能化场景落地。 高德开放平台携手阿里云,面向开发者推出MCP Server技术融合…

【论文阅读】AdaptThink: Reasoning Models Can Learn When to Think

AdaptThink: Reasoning Models Can Learn When to Think3 Motivation3.1 理论基础3.2 NoThinking在简单问题中的优势3.3 动机总结4. AdaptThink4.1 约束优化目标数学建模基本定义原始优化问题惩罚项转换归一化处理策略梯度实现优势函数定义PPO风格损失函数4.2 重要性采样策略问…

Redis高可用集群一主从复制概述

一、环境概述在分布式集群系统中为了解决服务单点故障问题,通常会把数据复制出多个副本部署到不同的机器中,满足故障恢复和负载均衡等需求。Redis也是如此,它为我们提供了复制功能,实现了相同数据的多个Redis副本。复制功能是高可…

Java 树形结构、层级结构数据构建

目录前言一、树状结构数据库存储二、工具类三、测试四、自定义树节点返回类型(只保留部分字段)1. 新增 TreeNodeDTO 类2.修改TreeUtil 类3.测试4.输出前言 有时候,开发过程中我们会遇到一些树状层级结构。 比如,公司部门组织架构…

求解线性规划模型最优解

归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍 收藏⭐ 留言​📝 既然选择了远方,当不负青春…

达梦国产数据库安装

打开ISO 、文件点击运行接受选择安装路径数据初始化 新数据库要创建数据库实例 选择一般用途数据库位置 选择所以系统用户,设置初始密码创建示例库可以选可以不选查找最近添加文件登录

互斥锁与同步锁

1. 锁的本质:解决并发问题的基石在多线程/多进程环境中,临界区(Critical Section) 是访问共享资源的代码段。锁的核心目标是确保互斥访问——任意时刻仅有一个执行单元能进入临界区。// 典型临界区示例 pthread_mutex_lock(&m…

高密度PCB板生产厂商深度解析

在电子制造领域,高密度PCB(印制电路板)作为核心基础元件,其技术精度与生产稳定性直接影响终端产品性能。本文精选五家具备核心技术优势的国内厂商,通过实地调研与行业数据验证,为读者呈现真实可信的供应商选…

力扣 hot100 Day44

98. 验证二叉搜索树 给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下: 节点的左子树只包含 小于 当前节点的数。 节点的右子树只包含 大于 当前节点的数。 所有左子树和右子树自身必须也是二叉搜索树 //自…

【基础架构】——软件系统复杂度的来源(低成本、安全、规模)

目录 一、软件系统复杂度的来源之低成本二、软件系统复杂度的来源之安全2.1、功能安全2.2、架构安全2.3、规模2.3.1、功能越来越多,导致系统复杂度指数级上升2.3.2、数据越来越多,系统复杂度发生质变本文来源:极客时间vip课程笔记 一、软件系统复杂度的来源之低成本 当我们设…

机器学习 YOLOv5手绘电路图识别 手绘电路图自动转换为仿真软件(如LT Spice)可用的原理图,避免人工重绘

以下是对《手绘电路图识别》论文的核心解读,结合技术方案、实验数据和创新点进行结构化总结:研究目标 解决痛点:将手绘电路图自动转换为仿真软件(如LT Spice)可用的原理图,避免人工重绘。 关键挑战&#xf…

一般的非线性规划求解(非凸函数)

归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍 收藏⭐ 留言​📝 每一个裂缝都是为透出光而努力&#x…

CTFHub————Web{信息泄露[Git泄露(Stash、Index)]}

Web 信息泄露 Git泄露 Stash 首先,我们先读题,由题可知我们可以用BugScanTeam或GitHack完成该题那么我们先开题, 好吧,他问我们flag在哪里,我怎么知道fag在哪里。 先打开GitHack 使用 py GitHack.py http://challenge-…

缺乏实际里程碑管控项目进度,如何设定关键节点

要通过实际里程碑管控项目进度,核心措施包括:设定可量化的关键节点、明确交付标准与责任人、同步风险与资源计划、基于阶段目标拆解任务、建立节点验证与复盘机制。例如,设定可量化的关键节点能让团队清晰理解“何时完成了什么”并及时调整方…

XML E4X:深入解析与高效应用

XML E4X:深入解析与高效应用 引言 XML(可扩展标记语言)作为一种数据交换格式,广泛应用于互联网数据传输、配置文件、数据存储等领域。E4X 是一种扩展 XML 的编程接口,允许开发者以编程方式直接访问和处理 XML 数据。本文将深入探讨 XML E4X 的概念、特点、应用场景以及高…

uniapp---入门、基本配置了解

目录 uniapp 新建项目 uniapp全局配置 组件 1、内置组件 2、扩展 组件 uni-ui 3、第三方组件库 uview-ui 秋云-ucharts (插件市场 ) scss语法(了解) vue2语法(熟悉) uniapp 官方文档:uni-app官网 uni-app 是一个使用 Vue.js 开发所…

springboot 好处

思考1,快速启动,简化配置。自动配置,内置tomcat,无需部署war文件,快速创建独立应用2,提高开发效率,热部署3,微服务生态4,云原生,Docker K8sSpring Boot 的主要…

SSM框架学习——day1

SSM框架概述SSM框架是Java开发中常用的组合框架,由Spring、Spring MVC和MyBatis三个开源框架整合而成。主要用于构建企业级Web应用程序,具有轻量级、模块化、易扩展等特点。Spring框架作为核心,提供依赖注入(DI)和面向…