论文题目:From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons(从多模式大型语言模型到多面手具身代理:方法和教训)

会议:CVPR2025

摘要:我们研究了多模态大型语言模型(Multimodal Large Language Models, mllm)处理不同领域的能力,这些领域超出了这些模型通常训练的传统语言和视觉任务。具体来说,我们关注的是嵌入式AI、游戏、UI控制和计划等领域。为此,我们介绍了一个将mllm应用于通用具身代理(GEA)的过程。GEA是一个单一的统一模型,能够通过多体现动作标记器在这些不同的领域中扎根。GEA的训练方法是在大型具体化经验数据集上进行监督学习,并在交互式模拟器中进行在线强化学习。我们将探索开发这种模型所需的数据和算法选择。我们的研究结果揭示了使用跨领域数据和在线强化学习进行训练对于构建多面手智能体的重要性。与其他通用模型和特定于基准的方法相比,最终的GEA模型在不同基准上实现了对未见任务的强大泛化性能。


引言:AI智能体的新里程碑

想象一下,一个AI模型能够同时完成机器人抓取苹果、玩《太空入侵者》游戏、设置手机闹钟,以及规划复杂的家务任务。这听起来像科幻小说,但Apple和Georgia Tech的研究团队通过**Generalist Embodied Agent (GEA)**让这一愿景成为现实。

这项工作代表了embodied AI领域的重要突破,将多模态大语言模型的能力扩展到了前所未有的应用范围。

核心挑战:从语言理解到行动执行

现有方法的局限性

传统的embodied AI系统通常面临以下问题:

  1. 域特化严重:大多数系统只能在特定环境中工作,如只做机器人操控或只玩特定游戏
  2. 动作空间异构:不同任务需要完全不同的控制方式
    • 机器人:连续的关节角度控制
    • 游戏:离散的按键操作
    • UI控制:坐标点击和文本输入
  3. 数据稀缺性:专家演示数据有限,且缺乏错误恢复示例

GEA的解决方案

研究团队提出了一个统一的智能体架构,能够通过单个模型处理多样化的embodied任务。关键创新在于:

  • 设计了通用的动作表示方法
  • 建立了有效的跨域训练策略
  • 结合了监督学习和强化学习的优势

技术架构:构建通用智能体的三大支柱

1. 多体验动作分词器

核心问题:如何让一个语言模型理解和输出各种不同类型的动作?

解决方案:使用Residual VQ-VAE技术将所有动作统一编码为token序列

连续动作(机器人关节控制) → RVQ编码 → [k₁, k₂, ..., kₘ] → 语言模型token
离散动作("向左移动") → 文本分词 → ["move", "left"] → 语言模型token

这种设计让模型能够:

  • 统一处理机器人的7维关节控制和游戏的简单按键操作
  • 在推理时根据具体环境截取相应维度的动作
  • 保持动作表示的精度和效率

2. 两阶段训练策略

阶段一:监督微调(SFT)

  • 数据规模:220万条成功轨迹
  • 覆盖领域:机器人操控、导航、游戏、UI控制、规划
  • 目标:让模型学会基本的感知-动作映射

阶段二:在线强化学习

  • 算法:PPO + 持续SFT
  • 环境:Habitat Pick、语言重排列、Procgen游戏
  • 目标:提升鲁棒性和错误恢复能力

3. 跨域知识迁移

研究发现,不同域之间存在有益的知识迁移:

  • 机器人操控的空间推理能力可以帮助游戏任务
  • UI控制的精确定位技能可以提升机器人抓取性能
  • 导航任务的路径规划思维对复杂操控任务有帮助

实验结果:全面超越现有方法

操控任务表现

基准测试GEA性能最佳基线提升幅度
Meta-World94.7%87.0%+7.7%
CALVIN90.0%82.4%+7.6%
Habitat Pick82.5%81.0%+1.5%

视频游戏表现

  • Procgen: 44%专家水平(vs 25%基线)
  • Atari: 32.7%专家水平,超越通用基线Gato

其他域表现

  • UI控制: 57.3%成功率,超越GPT-4o+专用感知系统
  • 导航: 在BabyAI达到91.1%成功率
  • 规划: LangR任务达到50%成功率

关键发现:训练策略的重要启示

1. 在线RL的决定性作用

实验对比显示:

  • 仅SFT的GEA-Base:60.5%(Habitat Pick)
  • 加入在线RL的GEA:82.5%(+22%提升)

原因分析

  • SFT只学习成功案例,缺乏错误恢复能力
  • 在线RL能够探索更多样的状态空间
  • 交互式学习更符合embodied任务的特性

2. 跨域数据的协同效应

多域联合训练 vs 单域训练的对比:

  • 所有测试域都从多域训练中受益
  • 操控任务受益最大(丰富的操控数据相互增强)
  • 即使是看似无关的域也存在知识迁移

3. 基础模型的影响

  • 模型规模越大,embodied任务性能越好
  • 视觉编码器的预训练比语言模型更关键
  • 不同的基础MLLM(LLaVA-OneVision vs MM1.5)性能相近

技术细节:实现通用智能体的工程实践

训练效率优化

计算资源

  • 阶段一:8节点×8 H100 GPU,2天
  • 阶段二:8节点×8 H100 GPU,1天
  • 总计算量:约1亿步强化学习

内存优化

  • 使用LoRA微调减少内存占用
  • 约束解码确保动作有效性
  • PopArt归一化处理多环境奖励差异

数据处理管道

  1. 数据收集:多种来源的轨迹数据

    • 人类演示:CALVIN、AndroidControl
    • RL专家:Habitat、Procgen、Atari
    • 运动规划:Maniskill导航任务
  2. 数据格式统一

    • 观察:RGB图像序列
    • 指令:自然语言描述
    • 动作:统一token序列
  3. 质量控制:仅使用成功轨迹进行SFT训练

局限性与未来方向

当前局限

  1. 性能天花板:某些域(如Maniskill、AndroidControl)仍有较大改进空间
  2. 零样本能力有限:无法直接控制完全新的体验类型
  3. 计算成本较高:大规模多域训练需要大量资源

改进方向

  1. 扩展RL训练:将在线学习应用到更多域
  2. 增强泛化能力:研究更好的跨体验迁移方法
  3. 提升效率:开发更高效的训练和推理算法

影响与意义:迈向通用人工智能的重要一步

学术贡献

  1. 方法论突破:证明了跨域训练在embodied AI中的有效性
  2. 技术创新:多体验动作分词器为统一控制提供了新思路
  3. 实证发现:在线RL对embodied任务的重要性

应用前景

  1. 家用机器人:一个模型处理清洁、整理、烹饪等多种任务
  2. 智能助手:同时控制多种设备和应用程序
  3. 自动化系统:跨平台的统一控制解决方案

产业影响

  • 降低了开发多任务智能体的门槛
  • 为robotics即服务(RaaS)提供了技术基础
  • 推动了AI从理解到行动的paradigm shift

结语:通用智能体时代的序幕

GEA的成功表明,通过合适的架构设计和训练策略,我们可以构建真正的通用智能体。这不仅是技术上的突破,更代表了AI从"专才"向"通才"的重要转变。

虽然距离真正的通用人工智能还有距离,但GEA为我们展示了一个清晰的发展路径:

  • 统一的表示学习
  • 跨域的知识迁移
  • 交互式的能力获取

随着计算资源的增长和数据的丰富,我们有理由期待更加强大和通用的embodied AI系统。未来的智能体将不再局限于特定任务,而是能够像人类一样灵活地适应和学习新的环境与挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/98591.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/98591.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/98591.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Epiq Solutions】Matchstiq™ G20 和 Matchstiq™ G40 AI SDR

Matchstiq™ G20 和 Matchstiq™ G40 产品简介 Matchstiq™ G20 和 Matchstiq™ G40 是 Epiq Solutions 推出的 紧凑型、高性能软件定义无线电(SDR)平台,专为满足 严苛 SWaP-C(体积、重量、功耗受限)场景下的战术与移动…

基于Echarts+HTML5可视化数据大屏展示-旅游智慧中心

效果展示&#xff1a; 代码结构&#xff1a;主要代码实现 index.html布局 <!DOCTYPE html> <html lang"en" style"font-size: 97.5px;"> <head><meta http-equiv"Content-Type" content"text/html; charsetUTF-8"…

Docker 镜像的使用

1.镜像的基本信息[roothost1 ~]# docker images REPOSITORY TAG IMAGE ID CREATED SIZE ubuntu latest 802541663949 2 weeks ago 78.1MB hello-world latest 1b44b5a3e06a 4 weeks ago 10.1kB执行 docker images 命令时加上 --no…

网络编程;套接字;TCP通讯;UDP通讯;0909

思维导图TCP服务器端和客户端通讯服务器端 代码#include<myhead.h> #define SER_IP "192.168.109.12"//我的虚拟机的ip #define SER_PORT 8888 int main() {//1.创建一个用于连接的套接字文件描述符int sfd socket(AF_INET,SOCK_STREAM,0);if(sfd-1){perror(&…

贪心算法应用:柔性制造系统(FMS)刀具分配问题详解

Java中的贪心算法应用&#xff1a;柔性制造系统(FMS)刀具分配问题详解 1. 问题背景与定义 柔性制造系统(Flexible Manufacturing System, FMS)是现代智能制造中的关键组成部分&#xff0c;它能够灵活地适应不同产品的生产需求。在FMS中&#xff0c;刀具分配是一个核心优化问题&…

不止是DELETE:MySQL多表关联删除的JOIN语法实战详解

MySQL 的 ​​DELETE​​ 语句用于从数据库表中删除记录。这是一项非常强大且危险的操作&#xff0c;因为一旦执行&#xff0c;数据通常无法恢复。理解其语法和安全实践至关重要。以下是 MySQL 删除语句的详细指南。一、 核心语法&#xff1a;DELETE​​DELETE​​ 语句用于删除…

ubuntu 系統使用過程中黑屏問題分析

背景&#xff1a; 工欲善其事&#xff0c;必先利其器。作为程序员&#xff0c;想要得到更好的发展&#xff0c;遇到问题直接baidu, google 虽然可以得到一些参考或者答案&#xff0c;但是也会降低自己的思考能力&#xff0c;本文以ubuntu 使用过程中黑屏这一问题为背景&#x…

Redis(45)哨兵模式与集群模式有何区别?

Redis 提供了两种高可用性解决方案&#xff1a;哨兵模式和集群模式。它们各自有不同的特点和适用场景。以下是详细的对比和结合代码的示例&#xff1a; 哨兵模式&#xff08;Sentinel&#xff09; 特点高可用性&#xff1a; Sentinel 通过监控、通知、故障转移等功能&#xff0…

微信小程序如何进行分包处理?

目录 分包是什么&#xff1f; 为什么要分包&#xff1f; 分包前后结构对比 具体操作步骤 第 1 步&#xff1a;规划分包结构 第 2 步&#xff1a;修改 app.json 进行配置 第 3 步&#xff1a;创建分包目录并移动文件 第 4 步&#xff1a;处理组件和工具函数的引用 第 5…

Go语言极速入门与精要指南从零到精通的系统化学习路径

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 持续学习&#xff0c;不断…

git 切换仓库后清理分支缓存

我明白了&#xff0c;从您的截图可以看到远程仓库中有 feature/v1.4_20250903 分支&#xff0c;但本地 git branch -r 看不到&#xff0c;这是因为之前更换过仓库地址后需要重新获取远程仓库的所有信息。让我们执行以下步骤来解决这个问题&#xff1a; 首先执行 git fetch --al…

考研倒计时101天---路由选择协议

路由选择协议&#xff1a;RIP 与 OSPFRIP 协议&#xff08;基于距离向量算法&#xff09;RIP&#xff08;Routing Information Protocol&#xff09;是一种内部网关协议&#xff08;IGP&#xff09;&#xff0c;采用距离向量算法进行路由选择。其主要特点如下&#xff1a;工作机…

「类 vs 实例」对比 ,「类 - 原型 - 实例」的关系

坚持的本身就是意义 目录直观类比类 (Class) vs 实例 (Instance)对比表示例代码类 - 原型 - 实例关系图解释&#xff1a;类 (class Person)原型 (Person.prototype)实例 (new Person(...))总结&#xff1a;直观类比 类&#xff08;Class&#xff09; 图纸 / 模板实例&#xf…

第一课、Cocos Creator 3.8 安装与配置

介绍说明 本文主要介绍在windows系统中&#xff0c;安装开发Cocos使用的软件工具&#xff0c;主要包含&#xff1a;安装CocosDashboard控制面板、CocosCreator3.8编辑器和脚本编辑器 VS Code 。 一、Cocos Dashboard 的安装 说明&#xff1a;Cocos Dashboard 主要作用是能够同…

从航空FACE的一个落地方案漫谈汽车HPC软件架构的思维转变(2/3)FACE的“段”同Autosar的“层”概念区别探索

文章目录PART THREE&#xff1a;段和层的概念比较一、“段”更强调“功能闭环责任归属”&#xff0c;而非“单纯的层级堆叠”二、“段”规避“层”的“刚性依赖陷阱”&#xff0c;适配航空系统的“灵活组合需求”三、“段”贴合航空工业的“工程化语言习惯”&#xff0c;降低跨…

金融量化指标--6InformationRatio信息比率

InformationRatio信息比率计算公式添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09;一、信息比率&#xff08;IR&#xff09;是什么&#xff1f;核心概念&#xff1a;信息比率衡量的是投资组合经理相对于某个基准指数&#xff08;Benchmark&#xff09;&…

Java全栈开发面试实录:从基础到微服务的实战经验分享

Java全栈开发面试实录&#xff1a;从基础到微服务的实战经验分享 一、初识面试场景 我叫李明&#xff0c;28岁&#xff0c;毕业于复旦大学计算机科学与技术专业&#xff0c;硕士学历。在互联网行业已经有5年的工作经验&#xff0c;先后在两家中型互联网公司担任Java全栈开发工程…

【51单片机】【protues仿真】基于51单片机公交报站系统

目录 一、主要功能 二、使用步骤 三、硬件资源 四、软件设计 五、实验现象 一、主要功能 主要功能如下&#xff1a; 1、LCD12864显示时间、日期、公交车车站、温度等 2、按键设置时间&#xff0c;显示公交车信息 3、串口播报相应站点信息 4、按键控制上行、下行、手动播…

第1节-PostgreSQL入门-从表中查询数据

摘要&#xff1a;在本教程中,你将学习如何使用 PostgreSQL 的 SELECT 语句从表中检索数据。 SELECT 语句 要从表中查询数据,需使用 PostgreSQL 的 SELECT 语句。 以下是 SELECT 语句的基本语法: SELECT column1, column2, ... FROM table_name;在这种语法中: 首先,在 SELECT 关…

【C++进阶】---- map和set的使用

1.序列式容器和关联式容器 前⾯我们已经接触过STL中的部分容器如&#xff1a;string、vector、list、deque、array、forward_list等&#xff0c;这些容器统称为序列式容器&#xff0c;因为逻辑结构为线性序列的数据结构&#xff0c;两个位置存储的值之间⼀般没有紧密的关联关系…