• 作者: I-Tak Ieong, Hao Tang

  • 单位:同济大学计算机学院,北京大学计算机学院

  • 论文标题: Multimodal Perception for Goal-oriented Navigation: A Survey

  • 论文链接:https://arxiv.org/pdf/2504.15643

主要贡献

  • 基于推理域的分类:首次将目标导向导航方法按照推理域进行分类,涵盖了多种任务范式。这种分类方法揭示了不同任务之间的共性和差异,为理解导航方法提供了统一的框架。

  • 计算模式的识别:识别了超越特定导航任务的共同计算模式,为具身推理的基本原理提供了见解。这些模式包括显式地图构建、隐式表示学习、图结构推理等。

  • 推理域的优势和局限性比较:系统地比较了不同推理域在各种导航场景中的优势和局限性。例如,显式地图方法在路径规划中表现优异,但计算成本较高;而隐式表示方法则在计算效率上更具优势,但在复杂环境中的泛化能力可能受限。

  • 多模态集成趋势:突出了多模态感知的集成挑战和机遇,特别是视觉、语言和音频处理的融合,以增强导航能力。文章讨论了如何通过多模态融合来提高导航的鲁棒性和适应性。

研究背景

  • 目标导向导航是自主系统中的一个基本挑战,要求智能体能够在复杂环境中导航以到达指定目标。

  • 过去十年中,导航技术从简单的几何路径规划发展到复杂的多模态推理,整合了视觉、语言和音频信息。

  • 随着领域的发展,成功的导航方法越来越多地将低级感知与高级语义理解相结合,通过不同的计算框架实现。

基础概念

历史发展

  • 导航任务的历史发展:从简单的点目标导航(PointNav)到更复杂的多模态导航范式,导航任务的复杂性不断增加。例如,ObjectNav要求智能体找到特定对象,ImageNav要求智能体导航到与给定图像匹配的位置,AudioGoalNav要求智能体导航到声音源。

  • 任务形式化定义:导航任务被形式化为一个决策过程,智能体需要在未知环境中通过一系列动作到达指定目标。数学框架适用于所有导航模态,包括环境(E)、状态空间(S)、观测空间(O)、动作空间(A)和目标空间(G)。

导航数据集

  • 数据集规模和覆盖范围:Habitat-Matterport 3D (HM3D) 数据集是最大的集合,包含1000个建筑规模的重建,覆盖112.5k平方米的可导航区域。其他数据集如Gibson和Matterport3D在规模和复杂性上有所不同。

  • 导航复杂性和场景杂乱程度:Matterport3D的导航复杂性最高,而RoboTHOR和ScanNet等房间规模的数据集则相对简单。

  • 视觉保真度和重建质量:HM3D在视觉保真度上表现最佳,而ScanNet在重建缺陷方面表现最差。

评估指标

  • 成功率(SR):智能体成功到达目标的百分比。

  • 路径长度加权成功率(SPL):结合成功率和路径效率的指标。

  • 距离相关指标:如目标距离(DTG)和导航误差(NE)。

  • 多目标导航指标:如进度(PR)和路径长度加权进度(PPL)。

  • 音频导航特定指标:如声音导航效率(SNE)和动态SPL(DSPL)。

点目标导航

任务描述

  • 任务描述:智能体需要根据相对坐标导航到目标位置,没有环境布局的先验知识。主要挑战是使用以自我为中心的感官输入(主要是视觉数据,如RGBD、GPS/指南针)来确定智能体的位置,估计距离并规划路径。

潜在地图推理域

  • 方法:构建和维护环境的显式表示,如占用网格或语义地图,以支持路径规划。例如,ANM通过神经SLAM构建地图,LSP-UNet通过U-Net架构估计前沿属性,UPEN通过集成学习生成不确定性地图。

  • 关键方法
    • ANM:通过神经SLAM模块构建地图,结合全局策略进行探索,局部策略进行短期动作执行。

    • LSP-UNet:使用U-Net架构估计前沿属性,通过Bellman方程进行路径规划。

    • UPEN:通过集成学习生成不确定性地图,引导智能体探索信息丰富的区域。

隐式表示学习推理域

  • 方法:不构建显式地图,而是通过神经网络参数隐式编码空间理解。例如,DD-PPO通过分布式训练提高可扩展性,IMN-RPG结合自我监督的视觉里程计和强化学习,无需显式映射。

  • 关键方法
    • DD-PPO:通过分布式训练提高可扩展性,解决了高维输入的收敛问题。

    • IMN-RPG:结合自我监督的视觉里程计和强化学习,无需显式映射,通过自我运动预测维持智能体的中心位置估计。

目标对象导航

任务描述

  • 任务描述:智能体需要在未知环境中找到并导航到特定对象。与PointNav不同,ObjectNav需要语义理解,智能体必须根据语义线索推断对象的位置。

模块化方法

  • 方法:将ObjectNav任务分解为不同的模块,如映射、策略和路径规划。例如,Sem-EXP构建语义地图,PEANUT预测目标概率,L2M主动学习预测语义地图。

  • 关键方法
    • Sem-EXP:通过不同iable投影构建语义地图,使用Mask R-CNN进行目标检测,结合目标导向的语义策略进行长期导航规划。

    • PEANUT:使用PSPNet生成语义分割掩码,投影到顶视图地图上,预测目标概率。

端到端方法

  • 方法:直接从原始感官输入学习导航策略,无需显式中间表示。例如,VTNet利用空间感知描述符,DRL方法结合卷积层与LSTM进行序列处理。

  • 关键方法
    • VTNet:利用空间感知描述符,结合DETR进行目标检测,通过预训练方案将视觉特征与导航信号关联。

    • DRL:结合卷积层与LSTM进行序列处理,通过PAAC算法进行训练。

零样本方法

  • 方法:利用预训练的视觉语言模型实现零样本泛化,如EmbCLIP、ZSEL等。这些方法通过统一的嵌入空间建立视觉观察和语言描述之间的语义联系。

  • 关键方法
    • EmbCLIP:使用冻结的CLIP ResNet-50嵌入,通过GRU进行有效的动作预测。

    • ZSEL:引入模块化迁移学习框架,结合视图对齐优化和任务增强技术,建立联合目标嵌入空间。

图像目标导航

任务描述

  • 任务描述:智能体需要根据参考图像导航到目标位置,需要视觉推理能力来建立当前观察和目标图像之间的对应关系。

潜在地图推理域

  • 方法:构建显式环境表示以支持目标匹配和路径规划。例如,MANav通过自监督状态嵌入网络增强导航,Mod-IIN结合前沿探索和目标实例再识别。

  • 关键方法
    • MANav:通过自监督状态嵌入网络和情节记忆机制增强导航。

    • Mod-IIN:结合前沿探索和目标实例再识别,使用SuperPoint和SuperGlue进行目标匹配。

隐式表示推理域

  • 方法:不依赖显式地图,通过神经网络参数隐式编码环境理解。例如,EmerNav通过估计观察和目标图像之间的匹配特征来直接导航。

  • 关键方法
    • EmerNav:通过估计观察和目标图像之间的匹配特征来直接导航。

    • SLING:结合神经关键点描述符和透视-n-点算法,动态调整探索和利用策略。

图推理域

  • 方法:将环境表示为关系结构,通过图遍历算法进行规划。例如,TSGM实现了一个双记忆系统,包括一个拓扑图和语义特征。

  • 关键方法
    • TSGM:实现了一个双记忆系统,包括一个拓扑图和语义特征,通过层次化决策过程进行规划。

扩散模型推理域

  • 方法:使用扩散模型生成导航策略,如NOMAD,它通过目标掩码进行条件推理,生成探索和目标导向行为的统一策略。

  • 关键方法
    • NOMAD:通过目标掩码进行条件推理,生成探索和目标导向行为的统一策略。

音频目标导航

任务描述

  • 任务描述:智能体需要根据声音源导航到目标位置,需要整合空间音频处理、视觉感知和路径规划。

潜在地图推理域

  • 方法:构建显式空间-声学表示以指导导航。例如,VAR结合视觉感知映射和声音定位,AV-WaN构建空间音频强度图。

  • 关键方法
    • VAR:结合视觉感知映射和声音定位,通过STFT频谱图处理声音信号。

    • AV-WaN:构建空间音频强度图,结合几何表示进行路径规划。

隐式表示学习推理域

  • 方法:不构建显式地图,而是通过神经网络参数编码空间-声学理解。例如,SAVi处理静态声源导航,ORAN处理动态声源导航。

  • 关键方法
    • SAVi:处理静态声源导航,通过Transformer架构处理视觉和双耳音频输入。

    • ORAN:处理动态声源导航,通过深度几何地图和双耳音频输入进行路径规划。

嵌入式推理域

  • 方法:利用预训练的视觉和音频模型建立语义连接。例如,AVLMaps通过自然语言理解扩展音频-视觉导航。

  • 关键方法
    • AVLMaps:通过自然语言理解扩展音频-视觉导航,结合视觉、音频和语言模态。

语言推理域

  • 方法:利用大型语言模型增强音频-视觉导航,如RILA,它通过语言模型进行环境推理。

  • 关键方法
    • RILA:通过语言模型进行环境推理,结合视觉和音频输入进行路径规划。

讨论

跨任务见解

  • 潜在地图适应性:潜在地图方法在不同导航任务中表现出不同的复杂性和信息内容。例如,在PointNav中,地图主要编码几何信息;在ObjectNav中,地图整合了语义对象标签和概率分布。

  • 隐式表示的专门化:隐式表示方法在不同任务中表现出专门化,但共享核心架构元素。例如,在PointNav中,重点是视觉里程计和姿态估计;在ObjectNav中,重点是对象关系建模。

  • 图的语义变化:图方法在不同任务中表现出不同的节点语义和关系结构。例如,在ObjectNav中,图通常表示对象-场景关系;在ImageNav中,图表示视觉上不同的位置。

  • 语言集成策略:语言推理域在不同导航范式中表现出不同的集成深度。例如,在ObjectNav中,语言模型用于推理对象关系和空间布局;在AudioGoalNav中,语言模型用于推理声音源的语义属性。

  • 嵌入平衡和适应性:嵌入式方法在不同任务中表现出不同的预训练知识和任务特定适应性平衡。例如,在ObjectNav中,直接利用CLIP的语义知识;在AudioGoalNav中,需要仔细整合AudioCLIP嵌入与空间推理。

  • 扩散模型的环境合成:扩散模型在需要语义预测未观察区域的任务中表现出特别的潜力。例如,在ObjectNav中,扩散模型用于生成未观察区域的语义地图。

当前挑战

  • 模拟到现实的转移:模拟环境与现实世界之间存在显著差异,尤其是在物理动态、传感器噪声特性和声学属性方面。虽然有一些方法开始解决声学模拟到现实的差距,但全面的解决方案仍然难以捉摸。

  • 多模态表示和集成:虽然在多模态集成方面取得了显著进展,但最优融合策略仍然是一个开放性问题。当前的方法通常优先考虑一种感官模态,而其他模态则起到辅助作用。例如,在AudioGoalNav中,音频通常提供方向线索,而视觉数据主要用于障碍物避免。

未来工作

  • 人机交互:结合自动化泛化和战略性人类互动,开发能够识别自身局限性并请求帮助的系统。例如,通过人类指导提供补充支持,结合语言机制进行通信、潜在地图进行空间表示和扩散模型进行环境补全。

  • 多模态表示学习:开发真正平衡集成的多模态表示学习方法,通过共享标记化方法和跨模态注意力机制动态加权模态。例如,开发专门针对具身导航任务的多模态基础模型,建立统一的环境理解框架。

结论

  • 本文通过推理域的视角,对多模态导航方法进行了全面分析,揭示了具身智能体如何感知、推理和导航复杂环境。

  • 随着自主系统向现实世界部署的推进,有效整合多种感官模态已成为关键能力。

  • 尽管取得了显著进展,但在多模态表示融合、模拟到现实的转移和计算效率方面仍面临重要挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/911666.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/911666.shtml
英文地址,请注明出处:http://en.pswp.cn/news/911666.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年CCF先进音频技术竞赛

由中国计算机学会主办、CCF语音对话与听觉专委会承办、语音之家协办、华为终端有限公司赞助的CCF先进音频技术大赛正式启动。大赛旨在推动国内高等院校及科研院所在音频技术领域的专业人才培养,支持学生科技创新,选拔优秀人才。 赛事官网:ht…

手撕线程池

线程池的目的: 1.复用线程,减少频繁创建和销毁的开销 创建和销毁线程是昂贵的系统操作,涉及内核调度、内存分配; 使用线程池预先创建一批线程,在多个任务间循环复用,避免资源浪费,提高性能。 …

3DTiles三维模型

1. 3DTiles 介绍​ 2016 年,Cesium 团队借鉴传统 2DGIS 的地图规范:WMTS,借鉴图形学中的层次细节模型,打造出大规模的三维数据标准:3d-Tiles,中文译名:三维瓦片。 它在模型上利用了 gltf 渲染…

Golang Kratos 系列:业务分层的若干思考(一)

在使用 Kratos 框架开发云服务的过程中,渐渐理解和感受到“领域层”这个概念和抽象的强大之处,它可以将业务和存储细节解耦、将业务和开发初期频繁变更的API结构,让Mock单元测试变得更加容易、对细节的变化更鲁棒。让业务代码摆脱技术细节依赖…

深度优化OSS上传性能:多线程分片上传 vs 断点续传实战对比

1 卸载开头 对象存储服务(OSS)已成为现代应用架构的核心组件,但随着业务规模扩大,文件上传性能问题日益凸显。本文将深入探讨两种核心优化技术:多线程分片上传和断点续传,通过理论分析、代码实现和性能测试…

doris_工作使用整理

文章目录 前言一、doris整体情况二、doris的存储过程情况1.分类2. 同步物化视图3. 异步物化视图三,分区相关1.分区建的过多前言 提示:doris使用版本3.x 提示:以下是本篇文章正文内容,下面案例可供参考 一、doris整体情况 细节放大 二、doris的存储过程情况 1.分类 按…

左神算法之单辅助栈排序算法

目录 1. 题目2. 解释3. 思路4. 代码5. 总结 1. 题目 请编写一个程序,对一个栈里的整型数据,按升序进行排序(即排序前栈里的数据是无序的,排序后最大元素位于栈顶)。要求最多只能使用一个额外的栈存放临时数据&#xf…

使用Trae编辑器与MCP协议构建高德地图定制化服务

目录 一、使用Trae编辑器配置高德MCP Server 1.1 Trae介绍 1.2 从mcp.so中获取配置高德地图mcp server配置信息 1.3 高德地图开发者配置 1.4 添加Filesystem 到Trae 1.5 使用结果展示 1.6 MCP常见命令行工具和包管理说明 1.7 Function Call工具和MCP技术对比 二、本地…

【LLaMA-Factory 实战系列】三、命令行篇 - YAML 配置与高效微调 Qwen2.5-VL

【LLaMA-Factory 实战系列】三、命令行篇 - YAML 配置与高效微调 Qwen2.5-VL 1. 引言2. 为什么从 WebUI 转向命令行?3. 准备工作(回顾)4. 核心:创建并理解训练配置文件4.1 选择并复制基础模板4.2 逐一解析与修改配置文件4.3 参数详…

推荐:ToB销售B2B销售大客户营销大客户销售培训师培训讲师唐兴通讲销售技巧数字化销售销AI销售如何有效获取客户与业绩

站在AI浪潮之巅,重塑销售之魂 在AI时代,普通销售人员(TOB、TOC)除了传统的销售动作之外,还能做什么?怎么做? 这是《AI销冠》这本书想探讨的核心问题。 特别喜欢编辑老师总结的: 读者…

爬取小红书相关数据导入到excel

本期我们来进行实战,爬取小红书的相关数据导入到excel中,后续可进行些数据分析,今后或者已经在运营小红书的小伙伴应该比较喜欢这些数据。今天我们的主角是DrissionPage,相对于之前介绍的selenium省去了很多的配置,直接安装了就能使用。 DrissionPage 是一个基于 python …

c++面试题每日一学记录- C++对象模型与内存对齐深度原理详解

一、C++对象模型核心原理 1. 对象内存布局基础原理 设计哲学: 零开销原则:不为未使用的特性付出代价(如无虚函数则无vptr)兼容性:C结构体在C++中保持相同内存布局多态支持:通过虚函数表实现运行时动态绑定内存布局实现机制: 编译器处理步骤: 成员排列:严格按声明顺序…

Kafka 监控与调优实战指南(二)

五、Kafka 性能问题剖析 5.1 消息丢失 消息丢失是 Kafka 使用过程中较为严重的问题,可能由多种原因导致。在生产者端,如果配置不当,比如将acks参数设置为0,生产者发送消息后不会等待 Kafka broker 的确认,就继续发送…

Linux下SVN报错:Unable to connect to a repository at URL ‘svn://XXX‘

一、问题描述 Linux下通过SVN执行提交(commit)操作时报错:Unable to connect to a repository at URL svn://XXX: 二、解决方法 导致该问题的一个可能原因是远程仓库的URL发生变化了,即svn服务器的ip变更了。这时可…

Modbus 扫描 从站号、波特率

下载链接:https://pan.quark.cn/s/533ceb8e397d 下载链接: https://pan.baidu.com/s/1PQHn-MwfzrWgF2UrXQDoGg 提取码: 1111

Docker 容器通信与数据持久化

目录 简介 一、Docker 容器通信 1. Docker 网络模式 2. Bridge 模式 3. Host 模式 4. Container 模式 5. Overlay 模式 6. 端口映射:容器与外部的桥梁 7. 容器互联:从 --link 到自定义网络 二、Docker 数据持久化 1. 数据卷:Docke…

【教学类-89-08】20250624新年篇05——元宵节灯笼2CM黏贴边(倒置和正立数字 )

背景需求: 【教学类-89-06】20250220新年篇05——元宵节灯笼2CM黏贴边(3边形到50边形,一页1图、2图、4图,适合不同水平,适合不同阶段)-CSDN博客文章浏览阅读1.6k次,点赞35次,收藏27…

【DB2】SQL0104N An unexpected token “OCTETS“ was found following “……

db2创建表时报标题的错误,建表语句如下 db2 "CREATE TABLE YS.TEST_1(ID VARCHAR(64 OCTETS))"去掉octets就好了 经过测试,在9.7版本报错,在10.5.11没问题,怀疑版本差异导致 在官网查找资料,应该是10.5才…

暴雨以信创委员会成员单位身份参与南京专题活动

6月19日,中国电子工业标准化技术协会信息技术应用创新工作委员会(简称信创工委会)联合南京市工业和信息化局共同举办的“智启未来:AI赋能信息技术应用创新办公新势力”专题活动在南京成功举办。南京市工业和信息化局副局长代吉上、…

基于keepalived、vip实现高可用nginx (centos)

基于keepalived、vip实现高可用nginx (centos) 1、安装keepalived yum install keepalived2、选同一局域网空置ip作vip 我这里测试是: 主:192.168.163.134 副:192.168.163.135 vip:192.168.163.1403、ke…