李升伟 编译

长期规划在机器人学领域可以从经典控制方法与大型语言模型在现实世界知识能力的结合中获益。

在20世纪80年代,机器人学和人工智能(AI)领域的专家提出了莫雷奇悖论,观察到人类看似简单的涉及移动和感知的任务,如开门或倒咖啡,对机器人来说是计算密集型的挑战。相比之下,人类认为认知上更复杂的任务,如下棋,对AI来说却容易得多。尽管几十年的发展,设计能够执行真实世界任务和环境的机器人仍然具有挑战性。在机器人物理能力的持续进步中,更好的传感器和执行器的可用性,以及基于数据驱动的方法来控制和预测行动结果,已经取得了进展。然而,现实任务通常涉及许多需要同时和依次执行的物理动作,这需要长期规划。

过去十年,深度学习迅速发展,并在机器人规划应用中展现出巨大的潜力。以安德鲁·巴托(Andrew Barto)和理查德·斯隆(Richard Sutton)为2024年图灵奖获奖者之一的强化学习,是AI学习和规划最成功的框架之一,并广泛应用于机器人学。2019年,OpenAI利用深度强化学习从头开始训练了一个机器人手,使其能够模拟操作魔方,并将学到的控制能力转移到实际的机器人手中。Hafner等人最近展示了在这个领域仍然有可能取得令人印象深刻的进展。仅使用视觉信息和复杂长时规划任务的稀疏奖励,在视频游戏中,他们开发了一种名为Dreamer的方法,该方法能够预测环境潜在行动的结果,而无需针对每个单独的游戏进行精细调整,范围从Atari游戏、机器人模拟到视频游戏Minecraft。

然而,将能力转移到现实世界的机器人学仍然是一个挑战。潜在的解决方案之一是利用基础模型,这些模型通过在不同来源的大量弱标签数据上预训练大型深度学习模型来构建。社区项目,如Open X-Embodiment倡议,收集了大量的真实世界机器人数据,旨在训练机器人视觉语言模型(VLMs,LLMs的扩展)。这种模型的一个早期版本,PaLM-SayCan,通过机器人收集的数据对LLM的强化学习组件进行微调,以增强对实际可行的工具和动作的预测,从而提高了生成运动计划的成功率。

受PaLM-SayCan模型启发的后续工作使用了如GPT-4这样的LLMs,展示了令人印象深刻的演示。然而,将机器人控制权交给LLM存在缺点,包括幻觉和潜在的安全风险。GPT-4等模型发送请求的速度和频率也有限。如果没有精心设计的提示和可用的数据,即使是强大的LLMs也可能陷入循环步骤或“过度思考”问题的陷阱。这种效应在Anthropic AI运行的一个实验中得到了展示,在这个实验中,一个LLM代理试图玩Pokemon,并同时表现出似乎令人印象深刻的推理能力,但同时也陷入了简单的障碍。

采取不同的途径,本文中提出了一种名为ELLMER的框架,由鲁阿迪·蒙-威廉斯等人开发,该框架将由LLM执行的高层规划与实际控制机器人分离。该方法使灵活和反应式的本体规划成为可能,将AI和传感器运动能力结合,以响应复杂甚至模糊的用户请求来控制机器人操作器。通过用户的自然语言请求和使用图像反馈,LLM生成基于示例的Python代码,这些示例包括对象识别和力反馈传感工具,以控制机器人下一步的动作。作为示例任务之一,研究人员告诉机器人他们感到疲倦,并要求它制作热饮并在盘子上装饰动物。查询故意不直接或清晰,但GPT-4推断任务是制作咖啡,并计划首先找到一个杯子。在演示中,机器人依次打开橱柜,找到杯子,放下杯子,加入速溶咖啡粉,并将水倒入杯子,而人类在此过程中已经移动了杯子。由于每一步生成的代码本身并不依赖于与LLM的进一步交互,它允许机器人响应视觉和力信息——例如,当人类轻推机器人时。当机器人需要对意外的新情况作出反应时,如人类发出进一步的命令,LLM可能可以再次被联系以适应变化的情况。

随着LLMs和VLMs的快速进步,过去几年见证了本体AI(embodied AI)的爆炸性兴趣。本体AI的有前景的下一步是终生学习,这对机器人来说尤为重要,如果它们打算在现实世界中长时间成功运行。结合LLMs、VLMs与传统方法可以构建出稳健的本体AI系统。

原文引用:Robot planning with LLMs. Nat Mach Intell 7, 521 (2025). https://doi.org/10.1038/s42256-025-01036-4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/82411.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/82411.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/82411.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机视觉】OpenCV实战项目: opencv-text-deskew:实时文本图像校正

opencv-text-deskew:基于OpenCV的实时文本图像校正 一、项目概述与技术背景1.1 核心功能与创新点1.2 技术指标对比1.3 技术演进路线 二、环境配置与算法原理2.1 硬件要求2.2 软件部署2.3 核心算法流程 三、核心算法解析3.1 文本区域定位3.2 角度检测优化3.3 仿射变换…

可视化图解算法33:判断是不是平衡二叉树

1. 题目 描述 输入一棵节点数为 n 的二叉树,判断该二叉树是否是平衡二叉树。 在这里,我们只需要考虑其平衡性,不需要考虑其是不是排序二叉树 平衡二叉树(Balanced Binary Tree),具有以下性质&#xff1…

【Linux网络】应用层自定义协议与序列化

应用层自定义协议与序列化 应用层 我们程序员写的一个个解决我们实际问题,满足我们日常需求的网络程序,都是在应用层. 协议是一种"约定".Socket的接口,在读写数据时,都是按"字符串"的方式来发送接收的.如果我们要传输一些"结构化的数据"怎么办…

MySQL + Elasticsearch:为什么要使用ES,使用场景与架构设计详解

MySQL Elasticsearch:为什么要使用ES,使用场景与架构设计详解 前言一、MySQL Elasticsearch的背景与需求1.1 为什么要使用Elasticsearch(ES)?1.2 为什么MySQL在某些场景下不足以满足需求?1.3 MySQL Elas…

PPL困惑度的计算

1. 公式 PPL(Perplexity)困惑度 是自然语言处理(NLP)中常用的评估语言模型(Language Model)性能的指标。PPL 用于衡量语言模型对语言序列的预测能力,数值越小,说明模型的预测能力越…

MegaCLI Raid管理工具

整理在CentOS 7.9和Ubuntu 24.04上,MegaCLI 工具的安装与常用命令。 1. 参考 下载和安装MegaCLI工具 MegaCli RAID管理工具 Megacli 批量磁盘巡检 ubuntu24.04 No such file libncursesw.so.5 dell服务器硬盘的状态变成外来(foreign)命…

HTML9:页面结构分析

页面结构分析 元素名描述header标题头部区域的内容(用于页面或页面中的一块区域)footer标记脚部区域的内容(用于整个页面或页面的一块区域)sectionWeb页面的一块独立区域article独立的文章内容aside相关的内容或应用(…

分布式处理架构

分布式处理架构是一种将计算任务分散到多台计算机或服务器上协同完成的系统设计方法。这种架构通过将工作负载分配到多个节点(可以是物理机、虚拟机或容器)来提高性能、可靠性和可扩展性。下面我将从多个角度详细解释这一概念: 分布式架构的…

算法每日一题 | 入门-分支结构-Apples Prologue/苹果和虫子

Apples Prologue/苹果和虫子 题目描述 小 B 喜欢吃苹果。她现在有 m m m(1 ≤ m ≤100)个苹果,吃完一个苹果需要花费 t t t(0 ≤ t≤ 100)分钟,吃完一个后立刻开始吃下一个。 现在时间过去了 s s s&a…

RT Thread Studio创建软件和硬件RTC工程

MCU型号:STM32F103RET6 一.配置软件模拟RTC 1.生成一个带串口输出的工程文件,新建RT-Thread项目工程文件。 2.查看电路图中的串口输出管脚,根据STMCubeMx软件可知此串口为USART1,选择芯片型号为STM32F103RET6,控制台…

STC32G12K128-旋转编码器-软件去抖

STC32G12K128-旋转编码器-软件去抖 简介代码 简介 EC11旋转编码器是一种可以连续旋转的器件A,B,C为旋转编码引脚,带按键的有D,E引脚。引脚功能: A:编码器A相;B:编码器B相;C:公共端-一般接到GN…

配置Jupyter Notebook环境及Token认证(Linux服务器)

配置Jupyter Notebook环境及Token认证(Linux服务器) 背景 在Ubuntu 18.04.6 LTS服务器(IP: 39.105.167.2)上,基于虚拟环境pytorch_env,通过Mac终端(SSH)配置Jupyter Notebook环境&…

从零开始学Flink:开启实时计算的魔法之旅

在凌晨三点的数据监控大屏前,某电商平台的技术负责人突然发现一个异常波动:支付成功率骤降15%。传统的数据仓库此时还在沉睡,而基于Flink搭建的实时风控系统早已捕捉到这个信号,自动触发预警机制。当运维团队赶到时,系…

基于k8s的Jenkins CI/CD平台部署实践(三):集成ArgoCD实现持续部署

基于k8s的Jenkins CI/CD平台部署实践(三):集成ArgoCD实现持续部署 文章目录 基于k8s的Jenkins CI/CD平台部署实践(三):集成ArgoCD实现持续部署一、Argocd简介二、安装Helm三、Helm安装ArgoCD实战1. 添加Arg…

[C++类和对象]类和对象的引入

面向过程和面向对象 C语言是面向过程的,关注的是过程,分析出求解问题的步骤,通过函数调用来逐步解决问题 C是基于面向对象的,关注的是对象,将一件事情分成不同的对象,靠对象之间完成交互 类的引入 C语言结构体中只能定义变量,在C中,结构体不仅仅可以定义变量,而且可以定义函…

AWS之存储服务

目录 一、传统存储术语 二、传统存储与云存储的关系 三、云存储之AWS 使用场景 文件存储 数据块存储 对象存储 EBS、EFS、S3对比 EBS块存储 S3对象存储 S3 使用案例 S3 存储类 EFS文件存储 一、传统存储术语 分类 接口/技术类型 应用场景特点 关系及区别 机械硬…

WPDRRC 模型:构建动态闭环的信息安全防御体系

WPDRRC 模型是一种信息安全整体架构设计模型,由预警(Warning)、保护(Protection)、检测(Detection)、反应(Reaction)、恢复(Recovery)和反击&…

Redis 数据类型详解(二):Hash 类型全解析

文章目录 一、什么是 Redis 的 Hash 类型?二、Hash为什么在有些时候比String好用三、常见命令1.HSET key field value2.HGET key field3.HMSET4.HMGET5.HGETALL6.HKEYS7.HVALS8.HINCRBY9.HSETNX 四、应用场景五、性能优势六、注意事项总结 提示:以下是本…

Go Modules 的基本使用

在 Go Modules 项目中,首次运行时下载依赖包的正确流程需要根据项目情况区分处理。以下是详细步骤和最佳实践: 一、首次初始化项目的标准流程 1.1 创建项目目录并初始化模块 mkdir myproject && cd myproject go mod init github…

RISC-V AIA SPEC学习(五)

第六章 Interrupts for Virtual Machines(VS Level) 核心内容 1.VS级别外部中断支持:​​ ​​客户中断文件(Guest Interrupt File)​​:虚拟机的每个vCPU拥有独立的IMSIC中断文件,允许直接接收设备MSI。​​vstopi CSR​​:类似stopei,用于虚拟机内部处理最高优先级中…