• 作者: Shuo Wang1,3^{1,3}1,3, Yongcai Wang1^{1}1, Wanting Li1^{1}1 , Xudong Cai1^{1}1, Yucheng Wang3^{3}3, Maiyue Chen3^{3}3, Kaihui Wang3^{3}3, Zhizhong Su3^{3}3, Deying Li1^{1}1, Zhaoxin Fan2^{2}2
  • 单位:1^{1}1中国人民大学,2^{2}2北京微芯区块链与边缘计算研究院,3^{3}3地平线机器人
  • 论文标题:Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation
  • 论文链接:https://arxiv.org/pdf/2505.11886
  • 项目主页:https://horizonrobotics.github.io/robot_lab/aux-think/
  • 代码链接:https://github.com/HorizonRobotics/robo_orchard_lab/tree/master/projects/aux_think

主要贡献

  • 首次系统地比较了视觉语言导航(VLN)任务中不同推理策略的性能,揭示了推理时间推理崩塌(Inference-time Reasoning Collapse,IRC)问题,即在推理时引入显式推理会降低导航性能。
  • 提出了Aux-Think框架,该框架在训练时使用思维链(Chain-of-Thought,CoT)作为辅助监督信号,而在推理时直接预测动作,避免了推理错误对导航性能的影响,实现了在数据效率和成功率之间的最佳权衡。
  • 发布了R2R-CoT-320k数据集,这是首个针对VLN任务的思维链标注数据集,包含超过32万条多样化的推理轨迹,为研究推理在VLN中的作用提供了丰富资源。

研究背景

  • 视觉语言导航(VLN)是让机器人能够理解自然语言指令并在复杂真实环境中导航的关键任务。近年来,基于大型预训练模型(LLMs)和视觉语言模型(VLMs)的研究取得了显著进展,提高了模型的泛化能力和指令对齐能力。
  • 然而,推理策略在导航任务中的作用尚未得到充分研究,尽管思维链(CoT)在静态任务(如视觉问答)中取得了成功,但其在VLN中的应用仍面临挑战。

方法

问题设定

论文研究了连续环境中的单目视觉语言导航(VLN-CE),目标是让智能体根据自然语言指令在逼真的室内环境中导航。该任务强调对未见环境的泛化能力,并支持正向和反向导航,全面测试空间推理和语言理解能力。在每个时间步,智能体接收以下输入:

  • 自然语言指令(通常是一段短文本,指定导航目标);
  • 当前视角的RGB图像;
  • 历史观测(从所有历史帧中均匀采样的8帧,始终包括第一帧)。
    智能体需要选择一个动作(例如前进、左转/右转特定角度或停止),目标是生成尽可能准确和高效的动作序列,直到到达目标位置。

R2R-CoT-320k 数据集构建

论文发布了R2R-CoT-320k数据集,首个针对VLN任务的思维链(CoT)标注数据集。该数据集基于R2R-CE基准构建,使用Habitat模拟器重建导航轨迹。

  • 每个样本包含当前视角、历史视觉上下文、对应指令和真实动作。使用Qwen-2.5-VL-72B模型为每个导航样本生成详细的CoT标注。
  • CoT标注的格式为带有<think><answer>标签的推理轨迹,以符合近期推理模型的标准。

系统性研究推理策略对VLN的影响

本文系统地研究了三种推理策略对VLN的影响:

  • No-Think(无思考):智能体直接根据当前观测和指令预测下一个动作,不进行中间推理。
  • Pre-Think(先思考):智能体首先根据指令和当前观测生成显式推理轨迹,然后基于推理结果预测动作。
  • Post-Think(后思考):智能体首先预测动作,然后生成解释决策的推理轨迹。

通过实验发现,Pre-Think和Post-Think策略的表现显著低于No-Think策略,这表明在动态环境中,推理时间推理(CoT)是不可靠的。本文将这种现象称为“推理时间推理崩塌”(IRC)。此外,文章还发现,在训练时适度降低CoT部分的损失权重可以略微提升性能,这表明在训练时对推理的重视程度是一个关键因素。

Aux-Think:推理感知协同训练策略

为了解决CoT训练对VLN的挑战,提出了Aux-Think框架。该框架在训练时仅使用CoT作为辅助监督信号,而在推理时直接预测动作,避免了推理错误对导航性能的影响。具体来说,Aux-Think框架包括以下三个任务:

  • 基于CoT的推理:训练模型根据指令、当前观测和历史观测生成CoT轨迹,以加强语言、视觉和动作之间的联系。
  • 基于指令的推理:训练模型根据一系列视觉观测重构对应的指令,提供额外的语义监督。
  • 递推水平动作规划:作为主要任务,模型根据指令、当前观测和导航历史预测接下来的n个动作,鼓励短期预测并保持对新观测的反应能力。

在训练过程中,通过改变提示(prompt)在不同任务之间切换。最终的损失函数是上述三个任务损失的总和。在推理时,仅激活动作预测部分,模型直接预测接下来的n个动作并执行第一个动作,确保快速、反应式的导航,避免推理开销。

实验结果

实验设置

  • 在VLN-CE基准(R2R-CE和RxR-CE)上进行评估,遵循标准的VLN-CE设置。所有方法都在R2R的val-unseen分割和RxR的val-unseen分割上进行评估。
  • 评估指标包括导航成功率(SR)、路径长度加权成功率(SPL)、导航误差等。

实现细节

  • 使用NVILA-lite 8B作为基础预训练模型,该模型包括一个视觉编码器(SigLIP)、一个投影器和一个语言模型(Qwen 2)。
  • 通过监督微调从NVILA-lite的第二阶段开始训练VLN模型,总共训练了一个epoch(约60小时),学习率为1e-5。
  • 动作空间设计为四个类别:前进、左转、右转和停止,其中前进动作包括25cm、50cm和75cm的步长,转向动作的旋转角度为15°、30°和45°。

在VLN-CE基准上的比较

  • 在R2R-CE数据集的val-unseen分割上,Aux-Think在不使用额外数据时取得了46.0%的成功率,在使用1600K额外数据时取得了54.8%的成功率,均优于其他基于大型模型的方法。

  • 在RxR-CE数据集的val-unseen分割上,Aux-Think在成功率上超过了Uni-NaVid和NaVILA,同时使用的训练数据更少(1920K vs. 5900K和3100K)。
  • 这些结果表明,Aux-Think在有限数据下通过多级推理监督信号实现了更好的泛化能力。

不同推理策略的比较

本文在R2R-CE数据集上比较了不同推理策略的性能。

  • 结果表明,Pre-Think和Post-Think策略的成功率显著低于No-Think策略。
  • Pre-Think策略由于动作预测依赖于生成的CoT,因此低质量或学习不佳的CoT会直接影响动作的准确性。
  • Post-Think策略虽然在一定程度上缓解了这个问题,但次优的CoT表示仍然会降低整体性能。
  • 相比之下,Aux-Think通过将CoT和动作学习解耦,并将CoT知识隐式地内化到特征中,从而避免了推理错误对导航性能的影响。

消融研究

不同辅助任务和递推水平动作规划的影响

  • 引入CoT推理可以显著提升模型性能。
  • 进一步添加非CoT推理可以进一步增强性能。
  • 完整的模型(包含递推水平动作规划)在SPL和SR等指标上取得了最佳结果,表明长期规划与隐式推理相结合可以产生最稳健的行为。
递推水平动作规划中步数的影响

  • 当预测步数为3时,模型取得了最佳性能。增加预测步数会导致性能下降,这可能是由于单目观测的感知范围有限,缺乏额外的全局知识,使得长水平预测更具挑战性,可能导致模型生成次优或坍塌的导航策略。

结论与未来工作

  • 结论
    • 通过系统研究VLN中的推理策略,发现了推理时间推理崩塌问题,并提出了Aux-Think框架来解决这一问题。
    • 该框架通过在训练时使用CoT作为辅助监督信号,在推理时直接预测动作,实现了在数据效率和导航性能之间的良好平衡。R2R-CoT-320k数据集的发布也为相关研究提供了重要资源。
  • 未来工作
    • 目前的研究在受控的、广泛采用的设置下评估了Aux-Think的数据效率,未来可以扩展到更大的导航数据集,并引入更丰富的输入(如深度、全景、定位等)。
    • 此外,本文尚未找到一种有效的方法通过强化学习同时提高CoT和动作质量,未来可以探索使用轻量级VLMs(如SmolVLM2)进行更可扩展的策略学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92780.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92780.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/92780.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

01. maven的下载与配置

1.maven的下载与初步配置a.下载并配置仓库地址下载maven压缩包&#xff0c;并解压&#xff0c;解压后应有如下几个文件点击conf&#xff0c;打开settings.xml&#xff08;我用的VScode打开的&#xff09;&#xff0c;我们需要声明一下内部仓库的地址&#xff0c;以及私服的一些…

1701. 请输出所有的3位对称数

问题描述请输出所有的 33 位对称数&#xff0c;对称数指的是一个整数 nn 正过来和倒过来是一样的&#xff0c;比如&#xff1a;101、121、282…101、121、282…请从小到大输出符合条件的3位对称数&#xff0c;每行 11 个。输入无。输出从小到大按题意输出符合条件的数&#xff…

C++算法·排序

排序的定义 这个不用说吧 就是根据某个条件对一个数列进行有序的操作 例如要求从小到大排序、从大到小排序等等 排序的分类 比较排序(Comparison(Comparison(Comparison Sorts)Sorts)Sorts) 特点&#xff1a;通过元素间的比较决定顺序 时间复杂度下限&#xff1a;O(nO(nO(n…

微服务项目中的注册中心——Nacos配置

从零开始&#xff1a;Nacos服务注册与配置中心实战教程 Nacos&#xff08;Dynamic Naming and Configuration Service&#xff09;是阿里巴巴开源的服务发现、配置管理工具&#xff0c;集注册中心与配置中心于一体&#xff0c;广泛应用于微服务架构。本文将从环境搭建到实战配…

日期格式化成英文月,必須指定語言環境

如果不指定Locale.ENGLISH 在有些JDK下 輸出6月 INV USD 314,791.77,DUE 25-07 [PAID USD 503,389.56 ON 2025-07-16]Mar INV USD 52,042.00,DUE 25-07 [PAID USD 52,042.00 ON 2025-08-11]所以必…

【6】Transformers快速入门:Transformer 的注意力层 是啥?

一句话看懂注意力层作用&#xff1a;让 AI 像人一样 “抓重点” &#xff08;比如读“猫追老鼠”&#xff0c;自动聚焦 “追” 这个动作&#xff0c;忽略无关词&#xff09;1. 为什么需要注意力&#xff1f; 问题场景&#xff08;翻译例子&#xff09;&#xff1a; 英文&#x…

集合,完整扩展

目录 前言&#xff1a; 一、List接口 1.1 ArrayList 1.2 LinkedList 1.3 Vector 二、Set接口 2.1 HashSet 2.2 TreeSet 2.3 LinkedHashSet 三、应用选择 前言&#xff1a; 本篇文章重点梳理 List 接口和 Set 接口的核心内容&#xff0c;结合代码案例帮大家吃透它们的…

【doris基础与进阶】3-Doris安装与部署

安装前的准备 在windows系统上通过vmwareubuntu 22.04的方式进行安装&#xff0c;由于资源有限&#xff0c;在同1台机器上同时安装fe和be&#xff08;broker本次不安装&#xff0c;极简化安装&#xff09;&#xff0c;安装版本为2.1.10&#xff0c;2.x版本架构不会有大的变化&a…

关于数据结构6-哈希表和5种排序算法

哈希表1哈希算法将数据通过哈希算法映射成一个键值&#xff0c;存取都在同一个位置实现数据的高效存储和查找&#xff0c;将时间复杂度尽可能降低至O(1)2哈希碰撞多个数据通过哈希算法得到的键值相同&#xff0c;成为产生哈希碰撞3哈希表&#xff1a;构建哈希表存放0-100之间的…

AWT与Swing深度对比:架构差异、迁移实战与性能优化

全面对比分析Java AWT与Swing GUI框架的架构差异、性能表现和适用场景&#xff0c;提供完整的AWT到Swing迁移实战指南&#xff0c;包含15代码示例、性能测试数据、最佳实践建议&#xff0c;助你做出明智的技术选型和实现平滑迁移。 Java AWT, Swing, GUI框架对比, 代码迁移, 性…

git仓库检测工具

介绍 Gitleaks 是一款用于检测git 仓库、文件以及任何你想通过 git 传递的信息(例如密码、API 密钥和令牌)的工具stdin。如果你想了解更多关于检测引擎工作原理的信息,请查看这篇博客:正则表达式(几乎)就是你所需要的一切。 ➜ ~/code(master) gitleaks git -v○│╲│…

【4】Transformers快速入门:自然语言模型 vs 统计语言模型

一句话关系总结 统计语言模型 自然语言模型的“数学基础” &#xff08;就像加减乘除是数学的基础&#xff0c;统计模型是AI学说话的基础工具&#xff09;区别对比表&#xff08;小白版&#xff09;维度统计语言模型自然语言模型本质用数学公式算句子概率用神经网络模仿人脑理…

[激光原理与应用-252]:理论 - 几何光学 - 传统透镜焦距固定,但近年出现的可变形透镜(如液态透镜、弹性膜透镜)可通过改变自身形状动态调整焦距。

一、液态透镜&#xff1a;电润湿效应驱动曲率变化基本结构液态透镜由两种互不相溶的液体&#xff08;如导电水溶液与绝缘硅油&#xff09;封装在透明圆筒形容器中构成。容器壁经疏水处理&#xff0c;使水溶液呈圆顶型聚集在中心&#xff0c;与硅油形成凸状曲面。工作原理电润湿…

wordpress数据库导入时的#1044错误

在wordpress网站数据库文件.sql导入到数据库时&#xff0c;发生错误&#xff0c;错误提示如下&#xff1a;#1044 – Access denied for user ‘wodepress_com’’localhost’ to database ‘wodepress’。 这个错误表明用户wodepress_com没有权限访问数据库wodepress。以下是解…

微服务ETCD服务注册和发现

1.什么是注册中心 注册中心主要有三种角色&#xff1a; 服务提供者&#xff08;RPC Server&#xff09;&#xff1a;在启动时&#xff0c;向 Registry 注册自身服务&#xff0c;并向 Registry 定期发送心跳汇报存活状态。 服务消费者&#xff08;RPC Client&#xff09;&…

计算机网络---默认网关(Default Gateway)

一、默认网关的定义 默认网关&#xff08;Default Gateway&#xff09;是一个网络设备&#xff08;通常是路由器、防火墙或三层交换机&#xff09;的IP地址&#xff0c;它是本地网络中的设备访问其他网络&#xff08;如外网、其他子网&#xff09;时&#xff0c;数据报文的“第…

OpenBMC中libgpio架构与驱动交互全解析:从硬件映射到应用控制

1. libgpio概述与核心定位 libgpio作为OpenBMC中GPIO管理的核心库&#xff0c;扮演着连接硬件驱动与上层应用的桥梁角色。它通过标准化的接口抽象了不同硬件平台的GPIO操作细节&#xff0c;使得电源控制、传感器监控等关键功能能够以统一的方式访问GPIO资源。 1.1 libgpio在Ope…

开放原子开源生态大会:麒麟信安加入openEuler社区AI联合工作组,聚焦操作系统开源实践与行业赋能

7月23日&#xff0c;由开放原子开源基金会主办的2025开放原子开源生态大会在京开幕&#xff0c;大会以“开源赋能产业&#xff0c;生态共筑未来”为主题。工业和信息化部副部长熊继军、北京市人民政府副秘书长许心超出席大会并致辞。作为开放原子开源基金会黄金捐赠人和开源重要…

Lyapunov与SAC算法的数学结构对比:从二次漂移到TD损失

一、李雅普诺夫优化中二次漂移函数的推导 李雅普诺夫优化的核心是通过设计 “李雅普诺夫函数” 和 “漂移项”&#xff0c;保证系统状态收敛到稳定点。以下以线性时不变系统为例&#xff08;非线性系统推导逻辑类似&#xff0c;仅动力学方程更复杂&#xff09;&#xff0c;推导…

WireShark:非常好用的网络抓包工具

文章目录一、写在前面二、安装三、使用1、入门使用&#xff08;1&#xff09;打开软件&#xff08;2&#xff09;右键网卡&#xff0c;Start Capture(开始捕获)2、界面详细介绍3、过滤器设置一、写在前面 Wireshark是使用最广泛的一款「开源抓包软件」&#xff0c;常用来检测网…