机器人操作仍然是机器人技术中最困难的挑战之一,其方法范围从基于经典模型的控制到现代模仿学习。尽管这些方法已经取得了实质性进展,但它们通常需要大量的手动设计,在性能方面存在困难,并且需要大规模数据收集。这些限制阻碍了它们在实际世界中的大规模部署,其中可靠性、速度和稳健性至关重要。强化学习 (RL) 提供了一种强大的替代方案,它使机器人能够通过交互自主获得复杂的作技能。然而,由于样品效率和安全性问题,在现实世界中充分发挥 RL 的潜力仍然具有挑战性。强化学习 (RL) 是一种很有前途的方法,可以自主获取复杂而灵巧的机器人技能。通过反复试验学习,原则上,有效的 RL 方法应该能够获得针对部署任务的特定物理特征量身定制的高度熟练技能。这可能会带来不仅超过手工设计控制器的性能,而且超越人类远程作的性能。然而,由于样本复杂性、假设(例如,准确的奖励函数)和优化稳定性等问题,在现实环境中实现这一承诺一直具有挑战性。RL 方法对于模拟训练和现有大型真实世界数据集的训练非常有效,目的是泛化 。它们还与手工设计的功能或表示一起使用,用于狭隘的定制任务。然而,开发通用的、基于视觉的方法仍然具有挑战性,这些方法可以在不同的现实世界任务中有效地学习物理复杂的技能,同时超越 IL 和手工设计控制器的熟练程度。我们相信,在这方面取得根本性进展可以释放新的机会,从而推动真正高性能的机器人纵政策的发展。这里开发了一种用于基于视觉的作的 RL 系统,可以获得广泛的精确和灵巧的机器人技能。系统名为人机交互样本高效机器人强化学习 (HIL-SERL),通过集成许多组件来解决前面提到的挑战,这些组件可以在现实世界中实现有效的基于视觉的 RL 策略。为了解决优化稳定性问题,使用了预训练的可视化主干网进行策略学习。为了处理样本复杂性问题,使用了一种基于具有先验数据的 RL (RLPD)的样本效率非策略 RL 算法,该算法结合了人工演示和校正。此外,还包括一个精心设计的低级控制器,以确保政策培训期间的安全。在这里插入图片描述
在训练期间,系统会向人工操作员询问潜在的更正,然后用于以非政策方式更新策略。研究发现,这种人机交互的纠正程序对于使策略能够从错误中吸取教训并提高绩效至关重要,特别是对于本文考虑的难以从头开始学习的具有挑战性的任务。如图 1 所示,系统解决的任务包括动态翻转平底锅中的对象;从塔上拿出叠叠乐块;在两只手臂之间交出物体;以及使用一个或两个机械臂组装复杂的设备,例如计算机主板、宜家搁板、汽车仪表板或正时皮带。这些任务在复杂错综复杂的动态、高维状态和动作空间、长视野或它们的组合方面提出了挑战。其中一些技能以前被认为无法直接在现实环境中使用 RL 进行训练,例如许多双臂作任务,或者几乎无法用当前的机器人方法克服,例如正时皮带组装或叠叠乐鞭打。此外,它们还需要不同类型的控制策略,例如用于精确作任务的反应性闭环控制或难以规定的精细开环行为,例如叠叠乐鞭打。然而,也许最出乎意料的发现是,系统可以训练 RL 策略,在现实世界中只有 1 小时到 2.5 小时的训练时间,在几乎所有任务上实现近乎完美的成功率和超人的周期时间,受制于初始放置的几厘米或程度变化。训练有素的 RL 策略大大优于在相同数量的人类数据上训练的 IL 方法,例如,相同数量的演示或纠正,平均成功率提高了 101%,周期时间缩短了 1.8×。这一结果很重要,因为它表明 RL 可以在实际培训时间内直接在现实世界中学习各种复杂的基于视觉的纵策略,这在以前被认为用早期方法是不可行的。此外,RL 的性能水平远远超过了 IL 和手工设计的控制器。图1.实验任务概述。本文考虑的任务子集,包括 (A) 从塔上取出叠叠乐块,(B) 翻转平底锅中的物体,以及组装复杂的设备,在这里插入图片描述
例如 (C) 正时皮带、(D) 仪表板、(E) 主板和 (F) 宜家搁板。为了评估系统的有效性,将其与几种最先进的 RL 方法进行了比较,并进行了消融研究以了解每个组件的贡献。结果表明,系统不仅优于相关基线,而且还强调令人印象深刻的实证结果归功于这些组件的精心整合。此外,还对实证结果进行了全面分析,提供了对基于 RL 的作有效性的见解。该分析探讨了学习的 RL 策略的训练动态,并进一步检查了 RL 策略作为获取不同类型控制策略的通用基于愿景的策略的灵活性。总之,通过适当的系统级设计选择,RL 可以有效地解决现实世界中各种灵巧而复杂的基于视觉的作任务。系统支持从图像输入进行双臂协调,并处理诸如鞭打叠叠乐块和组装正时皮带等任务,展示了这种方法在不同作场景中的灵活性。在实际培训的 1 到 2.5 小时内,该方法优于其他基线,将任务成功率提高了 2×,实现了近乎完美的成功率,平均执行速度提高了 1.8×。通过广泛的实验和分析结果表明,RL可以在实际训练时间内直接在现实世界中学习各种复杂的基于视觉的纵策略。我们希望这项工作能够激发新一代学习的机器人操作技术,有利于工业应用和研究进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/96560.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/96560.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/96560.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Dism++备份系统时报错[句柄无效]的解决方法

当使用Dism进行系统备份时遇到“[句柄无效]”的错误,这通常是由于某些文件或目录的句柄无法正确访问或已被占用所导致。以下是一种有效的解决方法:一、查看日志文件定位日志文件:首先,打开Dism软件所在的目录,并找到其…

华为/思科/H3C/锐捷操作系统操作指南

好的,这是一份针对 华为(VRP)、思科(IOS/IOS-XE)、H3C(Comware)和锐捷(Ruijie OS) 这四大主流网络设备厂商操作系统的对比操作指南。本指南将聚焦于它们的共性和特性,帮助你快速掌握多厂商设备的基本操作。 四大网络厂商操作系统综合操作指南 一、 核心概念与模式对…

一文读懂 DNS:从域名解析到百度访问全流程

目录 前言 一、什么是 DNS?—— 互联网的 “地址簿” 为什么需要 DNS? DNS 的核心参数 二、DNS 解析原理:递归与迭代的协作 1. 两种核心查询方式 2. 完整解析流程(以www.baidu.com为例) 缓存清理命令 三、DNS …

初试Docker Desktop工具

文章目录1. 概述2. 下载3. 安装4. 注册5. 登录6. 启动7. 容器8. 运行容器8.1 运行容器的镜像8.2 获取示例应用8.3 验证Dockerfile文件8.4 拉取Alpine精简镜像8.5 创建镜像8.6 运行容器8.7 查看前端9. 访问静态资源9.1 本地静态资源9.2 创建服务器脚本9.3 修改Dockerfile文件9.4…

百度披露Q2财报:营收327亿,AI新业务收入首超百亿

8月20日,百度发布2025年第二季度财报,显示季度总营收327亿元,百度核心营收263亿元,归属百度核心净利润74亿元,同比增长35%。受AI驱动,涵盖智能云在内的AI新业务收入增长强劲,首次超过100亿元&am…

【字母异位分组】

思路 核心思路:使用排序后的字符串作为键,将原始字符串分组 键的选择:对于每个字符串,将其排序后得到标准形式作为键分组存储:使用哈希表,键是排序后的字符串,值是对应的原始字符串列表结果构建…

高防cdn如何缓存网页静态资源

为什么需要优化网页静态资源的缓存? 网页静态资源包括图片、CSS、JavaScript等文件,它们通常体积大、访问频繁。在网页访问过程中,如果每次都从源服务器请求这些静态资源,会导致网络延迟和带宽消耗。而优化网页静态资源的缓存&am…

使用Pandas进行缺失值处理和异常值检测——实战指南

目录 一、缺失值处理 1.1 缺失值的识别 1.2 删除缺失值 1.3 填充缺失值 二、异常值检测 2.1 异常值的定义 2.2 常用检测方法 IQR(四分位数间距)法 Z-score(标准分数)法 三、实战案例:基因表达数据预处理 四…

B.30.01.1-Java并发编程及电商场景应用

摘要 本文深入探讨了Java并发编程的核心概念及其在电商系统中的实际应用。从基础并发机制到高级并发工具,结合电商业务场景中的典型问题,如高并发秒杀、库存管理、订单处理等,提供了实用的解决方案和最佳实践。 1. Java并发编程基础 1.1 并发…

怎样避免游戏检测到云手机?

以下是一些可能避免游戏检测到云手机的方法:云手机可能会因网络配置等因素出现一些异常网络行为,如网络延迟的规律性变化等,在使用云手机玩游戏时,尽量保持网络行为的稳定性和自然性,避免短时间内频繁切换网络连接&…

文件上传 --- uploadlabs靶场

目录 1 前端和js校验 抓包改包 2 . 2.1 .htaccess(伪静态) 2.2 %00截断 (php5.2) 2.3 user_init_ 2.4 3 图片码防御 4 竞争型漏洞 思路: 容易出现的问题: 1 前端和js校验 关闭JS的代码,上传PHP…

汉化版本 k6 dashboard

目前官方提供的 dashboard 只有英文版本,国内使用不方便,因此 fork 了下官方仓库,添加了汉化版本 https://github.com/kinghard7/xk6-dashboardhttps://github.com/kinghard7/xk6-dashboard安装 xk6 构建程序:go install go.k6.i…

视觉识别:ffmpeg-python、ultralytics.YOLO、OpenCV-Python、标准RTSP地址格式

视觉识别:ffmpeg-python、ultralytics.YOLO、OpenCV-Python、标准RTSP地址格式 ffmpeg-python 核心概念 常用过滤器(Filters) 高级操作 视频截帧转换图片示例 参考 ultralytics.YOLO(You Only Look Once) 1. 模型加载 2. 训练模型 (`train()`) 标准YAML格式示例 3. 预测 (…

浙江龙庭翔新型建筑材料有限公司全屋定制:畅享品质生活新境界!

在消费升级的时代浪潮中,浙江龙庭翔新型建筑材料有限公司以卓越的产品质量和创新的服务理念,重新定义全屋定制的内涵,为追求高品质生活的消费者打造理想家居。公司秉承"匠心质造,乐享生活"的核心价值观,将环…

鹰角网络基于阿里云 EMR Serverless StarRocks 的实时分析工程实践

一、客户背景与业务挑战 1.1 客户介绍 鹰角网络(HYPERGRYPH) 成立于2017年,总部位于上海,是中国知名游戏研发与发行公司,代表产品包括现象级手游《明日方舟》及《泡姆泡姆》《来自星辰》《终末地》等。公司依托阿里云…

LWIP的IP 协议栈

IP 协议栈 下面的分析把上文对 IPv4 概念的说明与 lwIP 中的具体实现代码对应起来,便于将理论与实现对照理解。分析覆盖:输入处理、路由与转发、输出与报文构建、分片/重组、校验和与各种配置点(hook、选项、统计等)。目录&#x…

高并发短信网关平台建设方案概述

本方案涵盖了架构设计、技术选型、核心功能、高可用保障以及实施路径,旨在构建一个能够应对千万级日吞吐量、稳定、安全、可扩展的现代短信网关平台。 高并发短信网关平台建设方案 一、 项目概述与目标 1.1 项目背景 为满足公司业务(如用户注册、登录、交易验证、营销通知…

阿里云服务-开启对象存储服务及获取AccessKey教程

(1)阿里云OSS简介 (2)打开阿里云网址:阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台 点击“立即开通” (2)开通成功后,充值任意金额 顶栏选择“费用”|“充值…

[特殊字符] 高可用高并发微服务架构设计:Nginx 与 API Gateway 的协同实践

一、Nginx 和 Gateway 的关系:是替代还是协作? 不是替代关系,而是协作关系。 1. Nginx 的角色(通常在最外层) 反向代理 & 负载均衡:将前端请求分发到多个后端服务或网关实例。 静态资源服务&#xf…

解码LLM量化:深入剖析最常见8位与4位核心算法

解码LLM量化:深入剖析8位与4位核心算法 大型语言模型(LLM)的性能日益强大,但其庞大的体积和高昂的计算成本构成了部署的主要障碍。模型量化,作为一种将高精度浮点权重(如16位)映射到低位宽整数&…