25年6月来自北航、北大和北京智源的论文“RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”。

空间参考是实体机器人与三维物理世界交互的基本能力。然而,即使有了强大的预训练视觉-语言模型 (VLM),近期方法仍然无法准确理解复杂的三维场景并动态推理指令-指示的交互位置。为此,RoboRefer,是一个具有 3D 感知能力的 VLM,它首先通过监督微调 (SFT) 集成一个解耦但专用的深度编码器,实现精确的空间理解。此外,RoboRefer 通过强化微调 (RFT) 推进广义多步空间推理,并使用针对空间参考任务定制的度量-敏感过程奖励函数。为了支持 SFT 和 RFT 训练,引入 RefSpatial,一个包含 2000 万个 QA 对(2 倍先验)的大规模数据集,涵盖 31 种空间关系(vs. 15 种先验),并支持复杂的推理过程(最多 5 个步骤)。此外,引入 RefSpatial-Bench,一个极具挑战性的基准测试,填补评估多步推理空间参考能力的空白。实验表明,经 SFT 训练的 RoboRefer 达到了最佳的空间理解水平,平均成功率高达 89.6%。经 RFT 训练的 RoboRefer 的表现远超所有其他基准测试,在 RefSpatial-Bench 上的平均准确率甚至比 Gemini-2.5-Pro 高出 17.4%。值得一提的是,RoboRefer 可以与各种控制策略集成,在复杂现实场景中跨各种机器人(例如 UR5、G1 类人机器人)执行长视界动态任务。

如图所示复杂环境中的空间参考:

请添加图片描述

视觉语言模型 (VLM) 进行空间理解。空间理解 [16–23] 侧重于以物体为中心的属性(例如位置、方向)和物体间关系(例如距离、方向),而空间推理 [24–35] 则基于此类信息进行更高层次的推理。VLM 的最新进展 [8–11,36–51] 通过两种范式增强了这两种能力:(1) 基于工具的方法 [7,14,52–56],将 VLM 与视觉基础模型 [57–65] 相结合,以提取和推理空间线索;(2) 数据驱动的方法,使用伪三维标注 [1,6]、真实三维数据集 [2,3] 或模拟数据 [4,66] 对 VLM 进行微调。然而,现有数据集缺乏对空间指涉任务至关重要的多步骤推理标注,并且仍然缺乏评估此类能力的基准。

机器人的VLM 参考。参考,也称为参考表达理解 (REC) [67–74],利用明确的描述来定位图像中特定的区域/点,并通过 VLM 取得了长足的进步 [75–80]。与处理模糊或多重参考的短语定位 [81–83] 和广义视觉落地[84–88] 不同,REC 专注于单一目标——这对于机器人技术至关重要,尤其是在需要精确识别物体和目标位置的拾取和放置任务中 [89–93]。二维 REC 依赖于物体属性(例如颜色)和图像平面定位(例如图像右上角),而现实世界中的机器人场景需要三维空间推理来进行定位(例如,“近” vs “远”)。尽管像 RoboPoint [5] 这样的成果 [94–96] 通过图像融入了基本的空间线索来满足此类期望,但它们往往难以应对复杂的环境和空间参考所需的指令。

VLM 的强化微调。强化微调 (RFT) [97–101] 是一种后训练策略,它通过反馈使模型与人类偏好或特定目标保持一致,是对 SFT [102, 103] 的补充,SFT 使用面向任务的数据来调整预训练模型。基于 LLM 的推理 [101, 104, 105] 的最新进展已将 VLM 中的 RL 转向视觉推理 [106–109]、落地 [110–112]、分割 [113] 和轨迹预测 [114]。然而,大多数方法仅依赖于二维感知,这限制了它们处理需要三维空间推理的空间指涉任务的能力。

问题表述

空间参考定义为:给定来自传感器的视觉输入 O(例如 RGB 或 RGB-D)和文本指令 L,预测图像空间中的单个二维点 (x, y) 以指定目标位置或目的地。该指令不仅编码单步空间属性,例如大小(例如大、小)、位置(例如相对位置或序数位置)、方向(例如正面)和空间关系(例如距离、方向),还需要多步空间推理。例如,“将物体放置在笔筒和键盘之间,与杯子的标志对齐”,由于多个空间约束的组合而变得更加复杂。

与基于区域的二维参考方法 [75, 80, 88] 不同,这种基于点的公式更适合机器人技术,并且更具泛化性。与二维框相比,点可以通过深度自然地映射到三维坐标,从而提供精确的空间锚点。通过利用预测点进行导航、抓取或放置,该方案支持多任务学习和执行。此外,它能够在遮挡场景下准确定位可见的物体部分,而二维边框通常包含不相关的物体。

RoboRefer:一种用于空间参考的 3D 感知推理 VLM

VLM 架构。如图所示,RoboRefer 使用独立的 RGB 和深度编码器提取特征,然后通过投影器将特征与 LLM 对齐,用于 VQA 或点预测。由于 3D 线索对于空间理解至关重要,因此仅基于 RGB 预训练的 2D VLM 缺乏准确的 3D 感知。近期方法 [1, 3, 14] 通过将深度视为类似图像的模态并共享 RGB 编码器来避免显式的 3D 表示,但这会导致模态干扰,降低预训练编码器的性能,并需要额外的 RGB 协同训练来补偿。

请添加图片描述

为了解决这个问题,提出一种简单而有效的方法:一个专用的深度编码器和投影器,由其对应的 RGB 编码器和投影器初始化。值得注意的是,在 RGB 和 RGB-D 联合训练期间,图像编码器不受深度输入的影响,而深度编码器则独立更新。这种设计不仅避免了模态干扰,并在无需进行大量纯 RGB 联合训练的情况下保持了通用的 VQA 性能,而且还通过增强对深度线索(例如距离、远近关系以及基于视角的尺寸变化)的感知来提升空间理解能力。

监督微调。采用 NVILA [37] 作为基础 VLM;然而,其仅限二维的预训练限制了空间理解。为了解决这个问题,提出一个两步 SFT。(1) 深度对齐。在上图中,首先训练一个深度投影器,利用 RefSpatial 的 RGB-D 注释,将新引入的深度空间与文本空间对齐。在此步骤中,仅更新深度投影器。(2) 空间理解增强。对 RefSpatial 上的所有参数进行了微调,包括单步细粒度注释和具有明确推理过程的多步推理数据,以及其他指令跟踪数据集 [74, 115, 116]。因此,该模型在 RGB 和 RGB-D 输入上进行联合优化,并分别更新图像和深度编码器。这一过程不仅通过新的深度模态增强单步空间理解,还通过显式推理过程增强基于数据的隐式多步推理,为后续的 RFT 阶段提供“冷启动”。因此,这个经 SFT 训练的模型在多步空间参考任务中表现出了更佳的能力。

强化微调。虽然 SFT 使用具有精确推理能力的数据,但它倾向于记忆答案,而不是泛化到新的空间约束。因此,利用来自 RefSpatial 的多步推理数据,使用组相对策略优化 (GRPO [101]) 设计后续的 RFT 阶段。为了引导 RFT 进行更准确的点预测,首先定义两个结果奖励函数(即只关心输出答案是否正确):(1) 结果格式奖励 (ROF),用于结构化推理和清晰度; (2)点 L1 奖励(RP),如果最终预测落在真实点附近的特定范围内,则得分为 1,否则为 0。为了提高中间推理精度,利用来自 RefSpatial 的关键步骤感知注释,并设计专门的指标-敏感过程奖励函数:(1)过程格式奖励(R_PF),强制执行格式“[感知类型] [目标对象]:”;(2)准确度奖励(R_Acc),适用于关键步骤感知注释中包含的步骤。对于每个相关步骤,根据感知类型使用特定指标来测量预测误差(例如,真实点和预测点之间位置的 L1 距离)。值得注意的是,这种设计是顺序不变的,并且不将推理轨迹限制在固定序列中。从当前策略(从 SFT 模型初始化)中采样 N 个响应 {a_1, …, a_N } 以鼓励探索。每个响应都会获得一个组合奖励 (r_i = R_OF (a_i) + R_P (a_i) + α R_PF (a_i) + α R_Acc(a_i)),其中 α 设为 0.25。对每个组内的奖励进行归一化,计算相对优势 (A_i = (r_i −mean({r_j}))/std({r_j})),然后使用相对优势更新策略,强化高质量响应并抑制次优响应。KL 散度正则化项通过将更新限制在参考策略附近来稳定更新。值得注意的是,SFT 初始化提供了强大的先验,能够快速适应输出格式,并利用从 SFT 学到的空间理解支持准确的分步空间推理。上图显示,经 RFT 训练的模型能够很好地推广到 4 步的空间参考等任务,逐步处理复杂的空间关系,并得出精确的点预测。

RefSpatial 数据集

概述

RefSpatial 是一个综合性的数据集,整合了来自 OpenImages [117] 的 2D 图像、来自 CA-1M [118] 的 3D 实体化视频以及来自 Infinigen [119] 的模拟场景(使用 Objaverse [120] 资源)(参见下图 (a))。

请添加图片描述

RefSpatial 的主要特点是:(1) 细粒度标注。先前的空间数据集 [2, 3] 通过将每个类别限制为每个场景的单个实例来简化目标引用,而 RefSpatial 包含同一类别的多个目标。此外,每个目标都带有分层标题标注——从宽泛的类别(例如“杯子”)到精确的空间指称(例如“左边第三个杯子”、“离摄像头最近的杯子”)——从而能够在杂乱的环境中实现明确的空间指称。(2) 多维性。除了基本的空间概念、关系、点坐标和点深度预测之外,该数据集还通过注释详细的推理过程(所有模拟数据)来支持多步骤空间推理,从而解决了现有数据集的局限性。(3)高质量。严格过滤数据以保持质量。保留 466k 个包含文本可引用、空间相关目标的 OpenImage(低于 1.7M);从 CA-1M 中采样 100k 个帧,其中包含文本可识别的 3D 边框(低于 2M);并手动检查和注释 3k 个带有语义方向标签的 Objaverse-LVIS 资产(低于 46k)。(4)大规模。数据集包含 2.5M 个样本和 20M 个 QA 对,涵盖定性 VQA、对象属性/关系的定量查询以及点坐标预测(上图 (b) 所示)。(5)丰富的多样性。 RefSpatial 涵盖室内和室外场景,涵盖常见的具身场景,并集成了 31 种不同的空间关系(见上图 ©),从而在 SFT 过程中促进精确的空间理解。(6)易于扩展。流程使用多种来源无缝扩展空间引用数据,包括 2D 图像、带边界框的 3D 视频和模拟资源。

数据配方

在上图中,展示了数据集配方,该配方逐步集成了 2D、3D 和模拟数据,使通用 VLM 能够适应空间引用任务,从而增强自下而上的空间理解和推理能力。(1)2D Web 图像旨在赋予模型核心空间概念和跨室内外场景的全面深度感知。为了缓解室内外场景之间的深度尺度和类别差异,利用大规模、多样化的 2D Web 图像数据集 OpenImage [117]。然而,直接提取 3D 感知的空间信息具有挑战性。受前人研究 [1, 35] 的启发,将二维图像转换为伪三维场景图。具体而言,在进行高质量滤波(从 1.7M 到 466K 幅图像)后,用 Qwen2.5-VL [11] 和一种用于生成分层区域字幕的启发式方法进一步增强数据,从而同时捕获粗略的标签和细粒度的空间参考,从而使方法区别于以往的方法。然后,通过目标检测/分割、深度估计和相机本征估计构建场景图,以目标字幕为节点,空间关系为边。最后,通过基于模板或 LLM 的方法生成问答对,并辅以从带注释的字幕中衍生的目标位置问答。(2)3D 嵌入视频希望为模型提供对室内场景的聚焦空间理解,并对空间关系和概念提供更细粒度的感知。因此,利用了标注丰富的 CA-1M [118]。经过细粒度过滤(从 2M 帧到 10 万帧),构建具有更加多样化空间关系的 3D 场景图,与 2D 方法相比,这得益于精确的 3D 边框。此外,生成自上而下的占用图,其中编码物体的位置、方向和度量距离(例如,“椅子右侧 10 厘米”),从而能够进行精确的空间参考放置。(3)模拟数据通过空间推理为模型提供了多步参考功能。虽然 2D 和 3D 数据支持单步空间理解,但它们对于通过推理进行多步空间参考的可扩展性较差。因此,利用程序化生成的场景布局 [119],使用手动验证的素材 [120](从 46k 到 3k),并带有语义方向注释 [7]。任务的设计旨在促进多步空间参考并生成相应的数据。假设生成的代码反映最佳推理,每一行都翻译成文本形式,中间结果填充成结构化格式(例如坐标、距离),产生带有推理注释的 QA 对。

训练细节

采用 NVILA [37] (2B/8B) 作为基础模型,并应用 SFT 算法得到 RoboRefer-SFT。由于计算限制,RFT 算法仅适用于 2B 模型,从而得到 RoboRefer-RFT。SFT 算法分为两个步骤:第一步仅使用 RefSpatial;第二步使用 RefSpatial、指令调优(大小为 RefSpatial QA 的二十分之一)[115, 116] 和参考数据集 [74] 进行训练。值得注意的是,在第二步中,RefSpatial 算法与 RGB 和 RGB-D 输入一起被复用,以强制图像编码器学习超越深度线索的空间理解能力。因此,该模型支持纯 RGB 和 RGB-D 推理,并可选择通过相对深度估计模型 [59] 进行深度推断。最后,RFT 阶段使用来自 RefSpatial 的多步推理数据进行训练。


RoboRefer 的实现细节如下。

架构

采用 NVILA [37] 作为基础模型,包含一个视觉编码器、一个 LLM 和一个多模态投影器。

视觉编码器。用与 NVILA [37] 的 siglip-so400m-patch14-448 [62] 相同的图像编码器,支持 448 × 448 分辨率,从而获得更丰富的视觉细节。该图像编码器并非简单地将图像调整到固定分辨率并生成相同数量的 tokens,而是以动态分辨率处理输入,通过更精细的块划分,从更高分辨率的图像中生成更多视觉 tokens。这实现了细粒度的视觉语言理解,这对于像点预测这样需要超越 VQA 的详细感知的任务至关重要。还集成一个专用的深度编码器,其结构与图像编码器镜像,并用其权重进行初始化。它将相对深度图编码为特殊图像,提供空间线索以增强 3D 理解。

大语言模型。采用 NVILA [37] 的 Qwen2 LLM 主干模型,该模型在监督训练过程中已使用大量数据进行全面微调。这赋予模型丰富的视觉知识,有助于后续的 3D 空间理解和推理任务。

多模态投影器。为了对齐多模态表征(例如,图像到语言,深度到语言),使用与 NVILA [37] 相同的线性连接器,其性能优于 Q-Former,从而使 LLM 能够专注于视觉理解并提升泛化能力。图像和深度嵌入使用独立的连接器,确保特定模态的处理,并避免跨模态干扰。

训练数据

重点介绍每个阶段使用的训练数据,包括每个数据集的样本数量和总数。

SFT 阶段。具体来说,在 SFT 阶段的第一步,即深度对齐,我用包含 2.5M 个样本的 RefSpatial (RGB-D) 数据集训练深度投影器,以对齐深度和语言空间。为了提高训练效率,对多轮对话进行切片(每个样本最多 15 轮),经过后处理后获得 3.4M 个样本用于训练模型。在第二步,即通过全参微调增强空间理解时,同时使用 RefSpatial (RGB) 和 RefSpatial (RGB-D) 数据集,切片后获得 6.8M 个样本。为了进一步提升指令跟随和参考能力加入了辅助数据集:965,000 个样本来自指令调优数据(LLaVA- 1.5 [116]、LRV [115]),321,000 个样本来自参考数据集(RefCOCO/+/g [74]),176,000 个样本来自 SAT [4] 基准训练集,以及 127,000 个样本来自 EmbSpatial [22] 基准训练集。这些新增数据集有助于弥合 RefSpatial 和基准样式查询之间的分布差距。切片后,此阶段使用的样本总数达到 8.5M。

RFT 阶段。在 RFT 阶段,用标注了详细推理过程(包括关键中间步骤和最终答案)的 RefSpatial 数据训练模型。为了确保训练效率和有效学习,用中等难度的样本(通常涉及三个推理步骤),最终形成一个包含 100,000 个样本的数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90548.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90548.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90548.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Unity】MiniGame编辑器小游戏(十)连连看【Link】

更新日期:2025年7月9日。 项目源码:获取项目源码 索引 连连看【Link】一、游戏最终效果二、玩法简介三、正式开始1.定义游戏窗口类2.规划游戏窗口、视口区域3.方块 Block①.定义方块类②.生成方块所有类型③.生成连连看棋盘④.绘制方块阵列4.连线 Line①.点击方块连线②.尝试…

Enable ADB Debugging Before Connect

If you don’t enable Developer Options and turn on USB Debugging before plugging in the cable, adb devices won’t detect the phone because the Android system doesn’t trust the connection yet. Here’s what you need to do step-by-step to fix this:✅ 1. Enab…

从互联网电脑迁移Dify到内网部署Dify方法记录

一、在互联网电脑上准备迁移文件1. 保存 Docker 镜像# 获取所有 Dify 相关镜像(根据实际容器名调整) docker ps --filter "namedify" --format "{{.Image}}" | sort -u > dify-images.list# 保存镜像为 .tar 文件 docker save $(…

【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔(一)

MatSwap: Light-aware material transfers in images介绍任务:输入一张拍摄图像、示例材质纹理图像(这里跟BRDF无关,通常我们讲到材质一般指的是SVBRDF,但是这里的材质指的只是纹理)、用户为拍摄图像指定的遮罩区域&am…

饿了么el-upload上传组件报错:TypeError: ***.upload.addEventListener is not a function

在本地上传没有报这个错误,部署到服务器后会报这个错误,一开始以为是服务器配置等什么原因,但是一想这个报错应该还是在前端,接口都还没请求,不可能到后台去,后面搜了好几个AI也没有找到想要的答案或解决方…

淘宝直播与开源链动2+1模式AI智能名片S2B2C商城小程序的融合发展研究

摘要:本文聚焦于淘宝直播这一以“网红”内容为主的社交电商平台,深入分析其特点与流量入口优势。同时,引入开源链动21模式AI智能名片S2B2C商城小程序这一新兴概念,探讨二者融合的可能性与潜在价值。通过分析融合过程中的技术、市场…

【macos用镜像站体验】Claude Code入门使用教程和常用命令

一、下载安装nodejs # macOS 用户安装nodejs brew update brew install node二、安装官方Claude Code # 安装 Claude Code npm install -g anthropic-ai/claude-code # 查看版本 claude --version三、正式使用(国内镜像站) 今天发现的一个镜像站&…

算法学习笔记:11.冒泡排序——从原理到实战,涵盖 LeetCode 与考研 408 例题

在排序算法的大家族中,冒泡排序是最基础也最经典的算法之一。它的核心思想简单易懂,通过重复地走访待排序序列,一次比较两个相邻的元素,若它们的顺序错误就把它们交换过来,直到没有需要交换的元素为止。虽然冒泡排序的…

Linux小白学习基础内容

记录第一天重新学习2025/7/10 15:467/10 17:02这里面一个命令带多个参数举例(多个参数之间用空格隔开)ls(命令) ~ / /etc/(参数) :这里就是同时查看主机的家目录,根目…

从零开始搭建深度学习大厦系列-2.卷积神经网络基础(5-9)

(1)本人挑战手写代码验证理论,获得一些AI工具无法提供的收获和思考,对于一些我无法回答的疑问请大家在评论区指教; (2)本系列文章有很多细节需要弄清楚,但是考虑到读者的吸收情况和文章篇幅限制,选择重点进行分享&…

【iOS设计模式】深入理解MVC架构 - 重构你的第一个App

目录 一、MVC模式概述 二、创建Model层 1. 新建Person模型类 2. 实现Person类 三、重构ViewController 1. 修改ViewController.h 2. 重构ViewController.m 四、MVC组件详解 1. Model(Person类) 2. View(Storyboard中的UI元素&#x…

前端项目集成lint-staged

lint-staged (lint-staged) 这个插件可以只针对进入git暂存区中的代码进行代码格式检查与修复,极大提升效率,避免扫描整个项目文件,代码风格控制 eslint prettier stylelint 看这两篇文章 前端项目vue3项目集成eslint9.x跟prettier 前端项…

李宏毅genai笔记:模型编辑

0 和post training的区别直接用post training的方法是有挑战的,因为通常训练资料只有一笔而且之后不管问什么问题,都有可能只是这个答案了1 模型编辑的评估方案 reliability——同样的问题,需要是目标答案generalization——问题(…

Oracle:union all和union区别

UNION ALL和UNION在Oracle中的主要区别体现在处理重复记录、性能及结果排序上:处理重复记录‌UNION‌:自动去除重复记录,确保最终结果唯一。‌UNION ALL‌:保留所有记录,包括完全重复的行。性能表现‌UNION‌&#xff…

[C#/.NET] 内网开发中如何使用 System.Text.Json 实现 JSON 解析(无需 NuGet)

在实际的企业开发环境中,尤其是内网隔离环境,开发人员经常面临无法使用 NuGet 安装外部包的问题。对于基于 .NET Framework 4.8 的应用,JSON 解析是一个常见的需求,但初始项目中往往未包含任何 JSON 处理相关的程序集。这时&#…

JVM(Java 虚拟机)的介绍

JVM原理JVM 核心架构与工作流程1. 类加载机制(Class Loading)2. 运行时数据区(Runtime Data Areas)堆(Heap)方法区(Method Area):元空间(Metaspace)公共区域虚…

Qt 信号槽的扩展知识

Qt 信号槽的扩展知识一、信号与槽的重载Qt信号与槽的重载问题注意事项示例场景二、一个信号连接多个槽1、直接连接多个槽2、使用lambda表达式连接3、连接顺序控制4、断开特定连接5、自动连接方式三、 多个信号连接一个槽基本连接语法使用QSignalMapper区分信号源(Qt…

链表算法之【合并两个有序链表】

目录 LeetCode-21题 LeetCode-21题 将两个升序链表合并成一个新的升序链表并返回 class Solution {public ListNode mergeTwoLists(ListNode list1, ListNode list2) {if (list1 null)return list2;if (list2 null)return list1;ListNode dummyHead new ListNode();ListN…

Linux - firewall 防火墙

🔥 什么是 firewalld?firewalld 是一个动态管理防火墙的守护进程(daemon),它提供了一个 D-Bus 接口来管理系统或用户的防火墙规则。与传统的静态 iptables 不同,firewalld 支持:区域&#xff08…

【GESP】C++二级真题 luogu-B4356 [GESP202506 二级] 数三角形

GESP C二级,2025年6月真题,多重循环,难度★✮☆☆☆。 题目题解详见:【GESP】C二级真题 luogu-B4356 [GESP202506 二级] 数三角形 | OneCoder 【GESP】C二级真题 luogu-B4356 [GESP202506 二级] 数三角形 | OneCoderGESP C二级&…