如果reward大多数情况下都是0,只有少数是很大的值。

这种情况下就是稀疏reward的问题。

比如你要教机械手臂拴螺丝,只有最后把螺丝栓进去才可以,其余机械手臂的位置都不可以。

额外的reward帮agent学习。reward shaping

射击游戏cs,这个游戏中,被射击扣分,射击到敌人加分,为了防止机器一直原地转圈圈不去攻击,所以活着给一个很小的负的reward。

可以设置一个接近目标的reward,比如机械手臂接近棍子,机械手臂从棍子上方接近棍子。reward shaping 需要你对问题理解很深刻。

例子:

让agent 玩马里奥,他的reward就是看到新的东西就可以过一些关卡。

=======================================================================

如果没有reward怎么办

或者是定义了reward但是机器可能有些不太对的逻辑

比如给机器人定义三个准则:机器人不能伤害人类,在满足第一条的情况下机器人必须听从人类,第三条在满足12的情况下机器人要保护自己。--》机器人得出结论要把人类监禁起来防止人类自杀

那么没有reward的时,怎么训练呢

imitation learning

找很多人类示范,t-hat(expert)作为示范

比如人类驾驶的记录作为示范。

比如机械手臂拿东西,可以人类操作机械手臂示范一次

这不就是监督学习吗?

但是人类和机器看到的有可能不一样,比如转弯的时候人类可以顺利的转弯,但是机器没转过去的画面机器没看到过。

还有就是人类的有些行为需要模仿有些可能不用模仿。甚至只是模仿人类也会限制机器的能力上限

Inverse Reinforcement Learning

用专家做示范,学习出reward funtion

基本原则是老师的行为是最好的,老师的行为可以得到最高的reward。

先初始化actor,和环境互动,得到trajectories.让老师与环境做互动,然后得到trajectories.然后这个reward function评估老师的要得到高分,评估actor的比较低。然后估算出reward function

如下图,可以把reward function看作是gan里的分辨模型,actor是生成模型。

往往操作一个机械手臂完成一个任务,可能需要写很长的程序,控制他的每个关节等。如果示范给他就可以学习示范动作。

现在还有更新的做法如下图,给机器一个画面,让机器做出画面中的行文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/88563.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/88563.shtml
英文地址,请注明出处:http://en.pswp.cn/web/88563.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

彩虹云商城全解源码系统|人工客服系统

核心升级亮点 人工客服系统:新增智能工单在线IM双模式多端同步:PCH5小程序APP四端数据实时互通支付升级:支持数字人民币收款安全加固:内置Web应用防火墙(WAF) 部署教程 ▶ B站视频教程 包含: 宝塔环境配置&#xf…

川翔云电脑:突破硬件极限,重构设计生产力范式

一、硬核配置:显存与算力的双重革命川翔云电脑提供从 RTX 2080 Ti 到 RTX 4090 Plus 的全系列 GPU 机型,其中旗舰级 4090 Plus 单卡配备48GB 超大显存,较传统 4090 显存翻倍,可流畅加载 1200 万面数的超复杂模型(如《黑…

深入解析 TCP 连接状态与进程挂起、恢复与关闭

文章目录深入解析 TCP 连接状态与进程挂起、恢复与关闭一、TCP 连接的各种状态1. **LISTEN**(监听)2. **SYN_SENT**(SYN 已发送)3. **SYN_RECEIVED**(SYN 已接收)4. **ESTABLISHED**(已建立&…

在mac m1基于llama.cpp运行deepseek

lama.cpp是一个高效的机器学习推理库,目标是在各种硬件上实现LLM推断,保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化,通过ARM NEON、Accelerate和Metal支持Apple芯片,使得在MAC M1处理器上…

多模态大语言模型arxiv论文略读(154)

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ➡️ 论文标题:Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ➡️ 论文作者:Zhen Zeng, Leijiang Gu, Xun Yang, Zhan…

Python PDF处理库深度对比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的关系与区别

Python PDF处理库深度对比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的关系与区别前言1. 库的基本介绍1.1 PyMuPDF (fitz)1.2 pypdfium21.3 pdfplumber1.4 pdfminer2. 关系图谱3. 核心区别对比3.1 性能对比3.2 功能对比4. 代码示例对比4.1 基本文本提取PyMuPDFpypd…

制作 ext4 文件系统

按以下步骤操作可以将一个文件夹制作成 Android 可用的 ext4 格式的 img 文件:方法 1:使用标准 Linux 工具(推荐) 步骤 1:安装必要工具 sudo apt update sudo apt install e2fsprogs android-sdk-libsparse-utils # 适…

Flink自定义函数

一、UDF 核心原理 Flink 自定义函数(UDF)是扩展 Table API/SQL 能力的核心机制,允许将自定义逻辑嵌入查询。其设计遵循以下原则: 1. 函数类型体系类型输入输出关系核心用途标量函数(ScalarFunction)0~N 个标…

【AI学习】大模型微调实践

参加了书生・浦语(InternLM)端侧小模型论文分类微调练习打榜赛 具体的实践教程在: https://aicarrier.feishu.cn/wiki/D7kZw9Nx4iMyDnkpL0Gc5giNn5g 折腾了十多天,各种尝试,AB榜单终于进入了前十都,累死 …

ElementUI:高效优雅的Vue.js组件库

Hi,我是布兰妮甜 !在当今快节奏的前端开发领域,选择一个功能强大、设计优雅且易于使用的UI组件库至关重要。ElementUI作为基于Vue.js的知名组件库,凭借其丰富的组件体系、一致的设计语言和出色的开发体验,已成为众多企…

Java Stream流介绍及使用指南

背景在Java 8之前,处理集合数据(如List, Set, Map)通常意味着编写冗长的、以操作为中心的代码:创建迭代器、使用for或while循环遍历元素、在循环体内进行条件判断和操作、收集结果。这种方式虽然有效,但不够简洁、可读…

JDK 1.7 vs JDK 1.8

JDK版本比较 Java平台的两次重大飞跃:JDK 7的稳定优化与JDK 8的革命性创新引言:Java的进化之路Java作为企业级开发的支柱语言,其版本更新直接影响着全球数百万开发者。JDK 1.7(2011年发布)和JDK 1.8(2014年…

张量与维度

3x4x5的张量: x torch.tensor([[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20]], [[21, 22, 23, 24, 25], …

智慧菜场系统(源码+文档+讲解+演示)

引言 在数字化浪潮的推动下,传统菜市场也在寻求创新与变革。智慧菜场系统作为一种新型的菜市场管理工具,通过数字化手段优化菜市场的全流程,提高运营效率,增强消费者体验,提升市场管理质量。本文将详细介绍智慧菜场系统…

【GESP】C++一级真题 luogu-B4355 [GESP202506 一级] 值日

GESP C一级,2025年6月真题,基础运算和循环语句,难度★☆☆☆☆。 题目题解详见:【GESP】C一级真题 luogu-B4355 [GESP202506 一级] 值日 | OneCoder 【GESP】C一级真题 luogu-B4355 [GESP202506 一级] 值日 | OneCoderGESP C一级…

【Linux应用】Ubuntu20.04 aarch64开发板一键安装ROS2(清华源)

【Linux应用】Ubuntu20.04 aarch64开发板一键安装ROS2(清华源) 文章目录相关资料更改UTF8执行更新一键安装ROS2验证配置环境变量附录:开发板快速上手:镜像烧录、串口shell、外设挂载、WiFi配置、SSH连接、文件交互(RAD…

【HDLBits习题 2】Circuit - Sequential Logic(4)More Circuits

1. Rule90&#xff08;Rule 90&#xff09;方法1&#xff1a;module top_module (output reg [511:0] q,input clk,input load,input [511:0] data ); integer i;always (posedge clk) beginif (load 1b1) beginq < data;end else beginfor (i0; i<$bits(q);…

基于mysqlfrm工具解析mysql数据结构文件frm表结构和数据库版本信息

这里使用Linux系统上操作。win上搞了下 python报错。所以在这里记录一下推荐大家使用linux系统操作。 安装mysql utilswget https://downloads.mysql.com/archives/get/p/30/file/mysql-utilities-1.6.5.tar.gztar -xf mysql-utilities-1.6.5.tar.gzcd mysql-utilities-1.6.5py…

【C++ 深入解析 C++ 模板中的「依赖类型」】

深入解析 C 模板中的「依赖类型」 依赖类型是 C 模板编程中的核心概念&#xff0c;特指那些依赖于模板参数的类型。迭代器是依赖类型的常见例子&#xff0c;但远不止于此。让我们全面解析这个重要概念&#xff1a; 依赖类型的本质定义 依赖类型是&#xff1a; 在模板中定义直接…

Telnet远程连接实验(Cisco)

Telnet远程连接实验&#xff08;Cisco&#xff09; 拓扑图一并实现DHCP服务、HTTP服务、FTP服务。 二层交换机配置&#xff1a; 交换机Switch0配置&#xff1a; vlan 10vlan 20int f0/1switchport mode accessswitchport access vlan 10int f0/2switchport mode accessswitchpo…