25年6月来自上海交大、EvoMind Tech 和上海算法创新研究院(IAAR-Shanghai)的论文“EVO-0: Vision-Language-Action Model with Implicit Spatial Understanding”。

视觉-语言-动作 (VLA) 模型已成为一种有前途的框架,可使通用机器人能够在现实世界中感知、推理和行动。这些模型通常建立在预训练的视觉-语言模型 (VLM) 之上,由于大规模文本预训练,VLM 在语义理解方面表现出色。然而,VLM 通常缺乏精确的空间理解能力,因为它们主要针对 2D 图像-文本对进行调整,而没有 3D 监督。为了解决这一限制,最近的方法已经加入显式的 3D 输入,例如点云或深度图,但这需要额外的深度传感器或有缺陷的估计。相比之下,本文引入一个即插即用模块,该模块利用现成的视觉几何基础模型,将 3D 几何特征隐式注入 VLA 模型中。其设计五个需要精确空间理解能力的空间挑战性任务来验证方法的有效性。


EVO-0 是一种 VLA 架构,它探索一种以隐式方式增强 VLA 模型空间理解的替代策略。具体而言,利用视觉几何落地 transformer (VGGT) (Wang 2025) 强大的 3D 感知能力,该 transformer 在大规模 2D-3D 配对数据集上进行训练。这些 3D 特征可以通过使用 VGGT 从机器人数据的原始视频输入中获得,可用于补充 VLM,而无需依赖显式深度输入或估计。为此,设计一个轻量级融合模块,将 VGGT 中基于几何的特征与 VLM 中的视觉 tokens 相结合,使模型能够感知物体布局并更有效地推理空间关系。

初步知识

形式化地讲,在每个时间步 t,VLA 模型接收多视角视觉观测 {I_ti} 和语言指令 L,它们由 VLM 联合编码,生成上下文嵌入 z_t。然后,该嵌入与机器人特定状态 S_t(例如关节角度、夹持器状态或末端执行器位姿)连接,并传递给动作专家以生成低级控制命令 A_t。因此,整个流程定义一个条件分布 p(A_t | I_ti, L, S_t)。

与通常针对特定任务进行训练的标准模仿学习策略相比,VLA 框架提升语义基础、模态融合和泛化能力。这使得机器人不仅能够遵循多样化且抽象的语言指令,还能以最少的微调适应新任务和视觉场景。

与依赖精细调整的模块和传感器的传统 SLAM 或深度估计流程不同,视觉几何基础模型 (VGFM)(Leroy 2024;Wang 2024/2025;Li 2025c)是一类经过训练的视觉模型,用于从二维视觉输入重建三维结构信息。由于 VGFM 是在几何监督下训练的,因此它们能够从多视角单目输入中恢复细粒度的空间结构。这些模型为空间理解等下游任务提供了强大的结构先验,尤其是在缺乏显式三维传感器的情况下。

EVO-0 模型

近期基于 3D 的 VLA 模型,例如 PointVLA (Li 2025a) 和 SpatialVLA (Qu 2025),通常采用显式 3D 输入(例如点云或深度图)来增强空间理解。这些方法虽然有效,但通常需要额外的传感器和预处理,并且通常对摄像机视点的变化较为敏感。相比之下,VGGT 则提供一种隐引入空间感知的有前景的替代方案,得益于其多样化的训练数据和优雅的前馈架构。近期研究已成功将 VGGT 应用于 VLM 架构(Wu 2025)和 SLAM 系统(Maggio, 2025)),证明了基于几何的视觉 token 可以提升多模态学习和经典机器人感知中的空间理解能力。

基于这些发现,假设将 VGGT 中几何感知的视觉表征引入动作预测流程,可以丰富空间上下文,从而实现更精准、更泛化的策略学习,而无需显式的点云或深度输入。为了验证这一假设,基于 π0 (Black 2024)(一个最先进的开源 VLA 模型)构模型,并将 VGGT 中的几何-觉察特征融入其视觉嵌入流中。该架构如图所示。具体而言,用 VGGT 作为空间编码器,并从其最后一层提取 tokens。

请添加图片描述

为了将 VGGT 衍生的 token 特征集成到视觉语言流水线中,引入一个轻量级的融合器模块,该模块融合 Dosovitskiy (2020) 的 Vision Transformer 和 VGGT 编码器的嵌入。具体来说,该融合器由一个交叉注意层组成,其中二维视觉 token t_2D 用作查询,VGGT 衍生的 token t_3D 用作键和值。其中,M_2D 和 M_3D 分别表示来自 Vision Transformer 和 VGGT 编码器的 token 数量。

融合后的 token 随后被转发至 (PaliGemma Beyer 2024) 的视觉-语言模型,该模型会同时关注几何增强的视觉输入和语言 token,以预测动作。为了保持计算效率并最大程度地减少对预训练 VLM 主干网络的干扰,冻结核心 VLM 参数,并插入了轻量级低秩自适应 (LoRA) (2022) 层。在训练期间,仅对融合模块、LoRA 层和流匹配动作专家进行微调,从而以最小的开销实现有效的自适应。

下面详细描述了这五项任务,并附有下图所示的直观图:

  1. 将圆柱体置于目标中心。机器人需要将圆柱形物体精确地对准桌面上标记目标区域的中心。这项任务类似于射击:目标上有同心环,得分取决于圆柱体的中心落入哪个环。越靠近中心,得分越高。
  2. 钉孔插入。这项任务要求机器人将圆柱形钉子插入木板上三个紧密贴合的孔中的一个。这需要在三维空间中精确对准,因为微小的倾斜或偏移都可能导致任务失败。
  3. 抓取中间的瓶子。三个瓶子紧密地排成一排,机器人被指示抓取中间的瓶子。这个设置模拟了杂货店的场景,商品密集地摆放在货架上。成功的定义是拿起中间的瓶子,并且不碰到或撞倒相邻的瓶子。
  4. 能够拾取和放置。在这个任务中,机器人必须拾取一个标准罐子并将其放置在架子上的指定位置。放置的位置在不同的试验中会有所不同,包括位置和高度,这要求模型将空间理解推广到不同的配置。
  5. 透明物体拾取和放置。该任务设置与上一个任务类似,但涉及玻璃瓶等透明物体。这带来了额外的挑战,因为透明材料通常难以被 RGB 传感器捕捉,而且容易产生眩光,使其难以感知和定位。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88803.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88803.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88803.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文心大模型4.5开源测评:轻量化部署实践与多维度能力验证

前言:开源浪潮下的轻量化革命 2025年百度文心大模型4.5系列的开源,标志着国产大模型从“参数竞赛”转向“实用落地”的关键转折。当行业仍在追逐千亿参数模型时,文心4.5以0.3B轻量级模型撕开一条新赛道——单卡部署、低成本运维、中文场景高…

LeetCode 2401.最长优雅子数组

给你一个由 正 整数组成的数组 nums 。 如果 nums 的子数组中位于 不同 位置的每对元素按位 与(AND)运算的结果等于 0 ,则称该子数组为 优雅 子数组。 返回 最长 的优雅子数组的长度。 子数组 是数组中的一个 连续 部分。 注意:长…

中华心法问答系统的解读(1)

中华心法问答系统一、研究背景1. 研究意义2. 研究目的3. 信息检索技术二、主要研究内容三、相关技术介绍1. Flask框架技术2. BERT模型(1)基本概念(2)BERT解决的问题(3)BERT的核心结构a. 模型结构b. 预训练任…

Java 大视界 -- Java 大数据在智能安防视频监控系统中的视频摘要快速生成与检索优化(345)

Java 大视界 -- Java 大数据在智能安防视频监控系统中的视频摘要快速生成与检索优化(345)引言:正文:一、Java 构建的全场景视频处理系统(含校园 / 工厂 / 矿区适配)1.1 校园宿舍区夜间检索方案(…

信号量机制,互斥的避免自旋锁的实现方法(操作系统)

这次的比喻场景要升级了,因为它既能解决互斥问题,也能解决同步问题。我们用一个更综合的场景:一个拥有多辆共享单车的站点。共享单车 (资源):站点里有多辆共享单车,数量是有限的。你 (进程):想借一辆车去办…

零基础 “入坑” Java--- 十、继承

文章目录一、何为继承二、继承语法三、父类成员访问1.成员变量2.成员方法四、super关键字五、子类构造方法六、super和this辨析七、再谈初始化八、protected关键字九、继承方式十、final关键字十一、继承与组合根据我们学过的类的知识,我们来定义两个类:…

JS进阶-day1 作用域解构箭头函数

作用域全局作用域——>尽量少使用,避免变量污染局部作用域——>函数作用域、块级作用域作用域链——>底层变量查找机制(先在当前函数作用域查找,如果找不到,就沿着作用域链向上级作用域查找,直到全局作用域&a…

Arduino 无线通信实战:使用 RadioHead实现 315MHz 433M模块数据传输

本文将介绍如何使用 Arduino 和 RadioHead 库实现 315MHz(或 433MHz)ASK 无线通信。通过两个 Arduino 控制板,一个作为发射端,一个作为接收端,实现“按键控制 → 无线发送 → LED 控制”的基础通信功能,非常…

012_PDF处理与文档分析

PDF处理与文档分析 目录 PDF支持概述支持的功能文档限制上传方式分析能力应用场景最佳实践 PDF支持概述 核心能力 Claude现在可以直接处理PDF文档,提供全面的文档分析能力。这项功能支持: 文本内容分析:提取和理解PDF中的文本图像识别&…

系规备考论文:论IT服务知识管理

论IT服务知识管理 摘要 2022年7月,我公司中标某市化工厂网络视频监控管理系统综合平台运维服务项目,并任命我为系统规划与管理师。该项目组织结构为项目型,合同金额为115.5万元(含税),工期为1年。本运维服务项目的主要工作包括系统软件和网络设备的日常监控与维护,定期…

2025.7.12总结

最近又两三天没写总结了,如今必须要写一稿,毕竟事关赚钱认知的一次颠覆。在我原有的认知里,赚钱,就是通过出卖自己的劳动时间,精力,给他人提供价值输出。但是,赚钱,只能通过出卖体力…

把 DNA 当 PCIe:一条 365 nt 链实现 64 Gbps 片上光互连——基于链式 Förster 共振的分子级波分复用链路

作者 | Blossom.118 2025-07-13 关键词:DNA 光子学、FRET 波分复用、分子 PCIe、零能耗光链路、CMOS 兼容、开源版图 ---- 1. 为什么用 DNA 做光互连? • 带宽密度:硅光 1 m 波导最高 0.4 Tbps/mm;一条 2 nm 直径的 DNA 双链&am…

[论文阅读]Text Compression for Efficient Language Generation

Text Compression for Efficient Language Generation [2503.11426] Text Compression for Efficient Language Generation NAACL 2025 提出了“Generative Pretrained Thoughtformer”(GPTHF),这是一个分层 transformer 语言模型&#xf…

SwiftUI 7 新 WebView:金蛇出洞,网页江湖换新天

概述 崇祯年间,华山派武学虽盛,却在应对江湖新局时渐显颓势;如今 SwiftUI 江湖亦是如此 ——WWDC 25 之前,若要在 SwiftUI 中显示网页,开发者恰似袁承志初闯江湖,纵有一身本领,却苦无称手兵刃。…

LeetCode|Day9|976. 三角形的最大周长|Python刷题笔记

LeetCode|Day9|976. 三角形的最大周长|Python刷题笔记 🗓️ 本文属于【LeetCode 简单题百日计划】系列 👉 点击查看系列总目录 >> 📌 题目简介 题号:976. 三角形的最大周长 难度&#x…

华擎B150M Pro4S魔改bios上8代U

100、200系主板魔改bios在DIY领域当属于历史性事件,2018年左右兴起。虽然现在已经是2025年,魔改bios已经没有多大意义,但是跟着前辈的教程魔改一次,可以重温下当年DIY玩家的激情。 魔改教程在SMXDIY网站,写的非常详细&…

音视频学习(三十七):pts和dts

概念 PTS(Presentation Time Stamp)显示时间戳 表示:该帧应该在什么时间被显示/播放。主要用于:同步音频与视频,控制播放节奏。举例:视频帧 A 的 PTS 是 300ms,表示应在视频播放第 300 毫秒时显…

关于数据库的慢查询

1.数据库的慢查询慢查询是指执行时间超过预设阈值的数据库查询操作。它是数据库性能优化的一个重要指标和切入点。慢查询的主要特点执行时间长:超过了数据库系统设定的慢查询阈值(如MySQL默认是10秒)资源消耗大:可能占用大量CPU、…

【Rust日报】 Python 核心开发者对 Rust 的期望

半月刊:The Embedded Rustacean Issue #49亮点:📢 乐鑫 DevCon 2025 演讲嘉宾征集🦺 CISA 和 NSA 参与内存安全对话🔐 微软宣布 RIFT (Rust 恶意软件分析工具)💰️ Nordic 收购 Memf…

vue是什么

Vue简介Vue(Vue.js)是一个用于构建用户界面的渐进式JavaScript框架。它专注于视图层,易于集成到现有项目中,也可用于开发复杂的单页面应用(SPA)。Vue的核心特点是轻量、灵活和高效,通过数据绑定…