web/2025/7/13 4:04:55/文章来源:https://blog.csdn.net/weixin_41974053/article/details/149269674

如果reward大多数情况下都是0，只有少数是很大的值。

这种情况下就是稀疏reward的问题。

比如你要教机械手臂拴螺丝，只有最后把螺丝栓进去才可以，其余机械手臂的位置都不可以。

额外的reward帮agent学习。reward shaping

射击游戏cs,这个游戏中，被射击扣分，射击到敌人加分，为了防止机器一直原地转圈圈不去攻击，所以活着给一个很小的负的reward。

可以设置一个接近目标的reward，比如机械手臂接近棍子，机械手臂从棍子上方接近棍子。reward shaping 需要你对问题理解很深刻。

例子：

让agent 玩马里奥，他的reward就是看到新的东西就可以过一些关卡。

=======================================================================

如果没有reward怎么办

或者是定义了reward但是机器可能有些不太对的逻辑

比如给机器人定义三个准则：机器人不能伤害人类，在满足第一条的情况下机器人必须听从人类，第三条在满足12的情况下机器人要保护自己。--》机器人得出结论要把人类监禁起来防止人类自杀

那么没有reward的时，怎么训练呢

imitation learning

找很多人类示范，t-hat（expert）作为示范

比如人类驾驶的记录作为示范。

比如机械手臂拿东西，可以人类操作机械手臂示范一次

这不就是监督学习吗？

但是人类和机器看到的有可能不一样，比如转弯的时候人类可以顺利的转弯，但是机器没转过去的画面机器没看到过。

还有就是人类的有些行为需要模仿有些可能不用模仿。甚至只是模仿人类也会限制机器的能力上限

Inverse Reinforcement Learning

用专家做示范，学习出reward funtion

基本原则是老师的行为是最好的，老师的行为可以得到最高的reward。

先初始化actor,和环境互动，得到trajectories.让老师与环境做互动，然后得到trajectories.然后这个reward function评估老师的要得到高分，评估actor的比较低。然后估算出reward function

如下图，可以把reward function看作是gan里的分辨模型，actor是生成模型。

往往操作一个机械手臂完成一个任务，可能需要写很长的程序，控制他的每个关节等。如果示范给他就可以学习示范动作。

现在还有更新的做法如下图，给机器一个画面，让机器做出画面中的行文。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/web/88563.shtml
繁体地址，请注明出处：http://hk.pswp.cn/web/88563.shtml
英文地址，请注明出处：http://en.pswp.cn/web/88563.shtml

如若内容造成侵权/违法违规/事实不符，请联系英文站点网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

彩虹云商城全解源码系统｜人工客服系统

核心升级亮点人工客服系统：新增智能工单在线IM双模式多端同步：PCH5小程序APP四端数据实时互通支付升级：支持数字人民币收款安全加固：内置Web应用防火墙(WAF) 部署教程 ▶ B站视频教程包含： 宝塔环境配置&#xf…

阅读更多...

川翔云电脑：突破硬件极限，重构设计生产力范式

一、硬核配置：显存与算力的双重革命川翔云电脑提供从 RTX 2080 Ti 到 RTX 4090 Plus 的全系列 GPU 机型，其中旗舰级 4090 Plus 单卡配备48GB 超大显存，较传统 4090 显存翻倍，可流畅加载 1200 万面数的超复杂模型（如《黑…

阅读更多...

深入解析 TCP 连接状态与进程挂起、恢复与关闭

文章目录深入解析 TCP 连接状态与进程挂起、恢复与关闭一、TCP 连接的各种状态1. **LISTEN**（监听）2. **SYN_SENT**（SYN 已发送）3. **SYN_RECEIVED**（SYN 已接收）4. **ESTABLISHED**（已建立&…

阅读更多...

在mac m1基于llama.cpp运行deepseek

lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARM NEON、Accelerate和Metal支持Apple芯片，使得在MAC M1处理器上…

阅读更多...

多模态大语言模型arxiv论文略读（154）

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ➡️ 论文标题：Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ➡️ 论文作者：Zhen Zeng, Leijiang Gu, Xun Yang, Zhan…

阅读更多...

Python PDF处理库深度对比：PyMuPDF、pypdfium2、pdfplumber、pdfminer的关系与区别

Python PDF处理库深度对比：PyMuPDF、pypdfium2、pdfplumber、pdfminer的关系与区别

Python PDF处理库深度对比：PyMuPDF、pypdfium2、pdfplumber、pdfminer的关系与区别前言1. 库的基本介绍1.1 PyMuPDF (fitz)1.2 pypdfium21.3 pdfplumber1.4 pdfminer2. 关系图谱3. 核心区别对比3.1 性能对比3.2 功能对比4. 代码示例对比4.1 基本文本提取PyMuPDFpypd…

阅读更多...

制作 ext4 文件系统

按以下步骤操作可以将一个文件夹制作成 Android 可用的 ext4 格式的 img 文件：方法 1：使用标准 Linux 工具（推荐） 步骤 1：安装必要工具 sudo apt update sudo apt install e2fsprogs android-sdk-libsparse-utils # 适…

阅读更多...

Flink自定义函数

一、UDF 核心原理 Flink 自定义函数（UDF）是扩展 Table API/SQL 能力的核心机制，允许将自定义逻辑嵌入查询。其设计遵循以下原则： 1. 函数类型体系类型输入输出关系核心用途标量函数（ScalarFunction）0~N 个标…

阅读更多...

【AI学习】大模型微调实践

参加了书生・浦语（InternLM）端侧小模型论文分类微调练习打榜赛具体的实践教程在： https://aicarrier.feishu.cn/wiki/D7kZw9Nx4iMyDnkpL0Gc5giNn5g 折腾了十多天，各种尝试，AB榜单终于进入了前十都，累死 …

阅读更多...

ElementUI：高效优雅的Vue.js组件库

Hi，我是布兰妮甜 ！在当今快节奏的前端开发领域，选择一个功能强大、设计优雅且易于使用的UI组件库至关重要。ElementUI作为基于Vue.js的知名组件库，凭借其丰富的组件体系、一致的设计语言和出色的开发体验，已成为众多企…

阅读更多...

Java Stream流介绍及使用指南

背景在Java 8之前，处理集合数据（如List, Set, Map）通常意味着编写冗长的、以操作为中心的代码：创建迭代器、使用for或while循环遍历元素、在循环体内进行条件判断和操作、收集结果。这种方式虽然有效，但不够简洁、可读…

阅读更多...

JDK 1.7 vs JDK 1.8

JDK版本比较 Java平台的两次重大飞跃：JDK 7的稳定优化与JDK 8的革命性创新引言：Java的进化之路Java作为企业级开发的支柱语言，其版本更新直接影响着全球数百万开发者。JDK 1.7（2011年发布）和JDK 1.8（2014年…

阅读更多...

张量与维度

3x4x5的张量： x torch.tensor([[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20]], [[21, 22, 23, 24, 25], …

阅读更多...

智慧菜场系统（源码+文档+讲解+演示）

引言在数字化浪潮的推动下，传统菜市场也在寻求创新与变革。智慧菜场系统作为一种新型的菜市场管理工具，通过数字化手段优化菜市场的全流程，提高运营效率，增强消费者体验，提升市场管理质量。本文将详细介绍智慧菜场系统…

阅读更多...

【GESP】C++一级真题 luogu-B4355 [GESP202506 一级] 值日

【GESP】C++一级真题 luogu-B4355 [GESP202506 一级] 值日

GESP C一级，2025年6月真题，基础运算和循环语句，难度★☆☆☆☆。题目题解详见：【GESP】C一级真题 luogu-B4355 [GESP202506 一级] 值日 | OneCoder 【GESP】C一级真题 luogu-B4355 [GESP202506 一级] 值日 | OneCoderGESP C一级…

阅读更多...

【Linux应用】Ubuntu20.04 aarch64开发板一键安装ROS2（清华源）

【Linux应用】Ubuntu20.04 aarch64开发板一键安装ROS2（清华源）

【Linux应用】Ubuntu20.04 aarch64开发板一键安装ROS2（清华源） 文章目录相关资料更改UTF8执行更新一键安装ROS2验证配置环境变量附录：开发板快速上手：镜像烧录、串口shell、外设挂载、WiFi配置、SSH连接、文件交互（RAD…

阅读更多...

【HDLBits习题 2】Circuit - Sequential Logic（4）More Circuits

【HDLBits习题 2】Circuit - Sequential Logic（4）More Circuits

1. Rule90（Rule 90）方法1：module top_module (output reg [511:0] q,input clk,input load,input [511:0] data ); integer i;always (posedge clk) beginif (load 1b1) beginq < data;end else beginfor (i0; i<$bits(q);…

阅读更多...

基于mysqlfrm工具解析mysql数据结构文件frm表结构和数据库版本信息

这里使用Linux系统上操作。win上搞了下 python报错。所以在这里记录一下推荐大家使用linux系统操作。安装mysql utilswget https://downloads.mysql.com/archives/get/p/30/file/mysql-utilities-1.6.5.tar.gztar -xf mysql-utilities-1.6.5.tar.gzcd mysql-utilities-1.6.5py…

阅读更多...

【C++ 深入解析 C++ 模板中的「依赖类型」】

深入解析 C 模板中的「依赖类型」依赖类型是 C 模板编程中的核心概念，特指那些依赖于模板参数的类型。迭代器是依赖类型的常见例子，但远不止于此。让我们全面解析这个重要概念： 依赖类型的本质定义依赖类型是： 在模板中定义直接…

阅读更多...

Telnet远程连接实验（Cisco）

Telnet远程连接实验（Cisco） 拓扑图一并实现DHCP服务、HTTP服务、FTP服务。二层交换机配置： 交换机Switch0配置： vlan 10vlan 20int f0/1switchport mode accessswitchport access vlan 10int f0/2switchport mode accessswitchpo…

阅读更多...

最新文章