摘要

近年来由于端到端自动驾驶极大简化了原有传统自动驾驶模块化的流程,吸引了来自工业界和学术界的广泛关注。然而,现有的端到端智驾算法通常采用单一传感器,使其在处理复杂多样和具有挑战性的驾驶场景中受到了限制。而多传感器融合可以很好的解决这一类问题,来自摄像头、激光雷达和雷达等不同传感器的互补信息相互集成,增强了感知的可靠性,并为学习稳健的驾驶策略提供了更丰富的输入。

©️【深蓝AI】编译

论文标题:Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving

论文作者:Shuai Liu, Quanmin Liang, Zefeng Li, Boyang Li, Kai Huang

论文链接:https://arxiv.org/pdf/2506.00034

原文链接:中山大学GaussianFusion:首个将高斯表示引入端到端自动驾驶多传感器融合的新框架

1、介绍

现有的多传感器融合方法可以分成如图1(a)和(b)的两种类型。(a)采用的是扁平化融合方法,通常将传感器特征通过注意力机制压缩到共享的潜在空间。这类方法具备很好的灵活性,并且不依赖传感器的几何校准。但由于缺乏明确的三维空间表示,限制了它们的可解释性,使其在需要精确空间推理的场景中效果不佳。

(b)采用的是将多模态特征投射到一个通用的BEV坐标系中,利用几何先验来对齐来自不同传感器的数据。这种融合方式有助于结构化的空间理解,并提升下游感知任务的性能。但由于BEV表征的密集特性,基于BEV融合的方法会产生较大的计算和内存开销。

图1:不同传感器融合策略示意图

近年来,3D高斯因其物理可解释性和固有的稀疏性,在三维场景的表示和重建领域备受关注。然而,在这种背景下应用高斯表示会带来一些挑战。首先,由于现有的端到端驾驶数据集缺乏细粒度的三维场景标注,因此难以有效地监督高斯参数。其次,现有方法主要侧重于三维场景表示,其在运动规划任务中的适用性尚未得到充分探索。第三,高效利用高斯表示进行精确的轨迹生成需要精心的架构设计。

针对上述提到的相关问题,本文提出了一个基于高斯的多传感器融合的算法框架,用于实现端到端的自动驾驶,称之为GaussianFusion。在NAVSIM和Bench2Drive数据集上的实验结果表明,本文提出的算法模型均实现了最佳的性能。

本文创新点:

● 本文提出首个将高斯表示引入端到端自动驾驶的多传感器融合领域,并提出了一种针对以规划为中心的任务的双分支融合流程;

● 本文设计了一个专门适用于高斯表示的级联规划头,它通过分层高斯查询迭代地细化轨迹;

● 本文在开环NAVSIM和闭环Bench2Drive数据集上的广泛评估证明了 GaussianFusion 的卓越性能和鲁棒性。

2、算法模型与实现细节

本文提出的GaussianFusion算法模型的整体框架如图2所示。可以看出,GaussianFusion包括Gaussian initialization、Gaussian encoder以及Gaussian decoder三个模块。

图2:GaussianFusion算法模型的整体网络结构图 

Gaussian Initialization

本文考虑到自动驾驶汽车主要在平面上运行,二维高斯足以模拟交通场景。具体来说,本文随机初始化了一组2D高斯集合。每个高斯函数都具有物理属性和隐藏特征。其中物理属性包括均值、尺度、旋转角度以及语义结果。隐藏特征包括显示和隐式的特征。 

Gaussian Encoder

为了学习有意义的高斯表示,本文首先利用两个独立的主干网络从图像和激光雷达点云中提取多尺度特征。然后,这些特征被用于迭代细化高斯的物理属性和隐藏特征。每次迭代都包含一个点交叉注意力模块、图像交叉注意力模块、高斯自注意力模块和一个细化模块。

点交叉注意力模块

该模块用于从点特征中提取信息。对于每一个高斯,本文生成了一组查询点,查询集包含固定点和可学习点:固定查询基于其协方差矩阵分布在每个高斯分布周围,而可学习查询则被限制在高斯分布的内部。给定多尺度的点特征,应用可变形注意力来聚合这些特征的信息,并更新高斯的显式特征。
$f^{exp} = \sum^{n_q}_{i=1}\textrm{DeAttn}(f^{exp}, \cal{Q}\mathrm{[i]},\cal{M}^p\mathrm{)}$

对于隐式特征,本文使用交叉注意力与最后一个尺度点特征建立交互。
$f^{imp}=\mathrm{CrossAttn}(f^{imp}, \mathrm{M}^p_{n_s})$

图像交叉注意力

为了整合来自多视角图像的视觉信息,本文采用了图像交叉注意力模块。与点交叉注意力模块类似,图像交叉注意模块为每个高斯函数生成固定和可学习的查询点。然而,这些查询还额外加入了高度信息,以便投影到图像平面。具体而言,给定多尺度的图像特征,高斯的显式和隐式特征计算如下。
$\mathrm{f}^{exp} = \sum^{n_q \times n_p}_{i = 1} \mathrm{DeAttn}(\mathrm{f}^{exp}, \cal{Q}_{3d}\mathrm{[i]}, \cal{M}^I\mathrm{)}$
$f^{imp} = \mathrm{CrossAttn}(f^{imp}, \mathrm{M}^I_{n_s})$

高斯精修模块

在聚合了多模态特征的信息后,本文采用了两个独立的自注意力层来构建所有高斯之间的交互,一个用于显式特征,另一个用于隐式特征。
$\begin{aligned} \{\mathbf{f}_1^{exp\prime},\ldots,\mathbf{f}_P^{exp\prime}\} & =\mathrm{SelfAttn}(\{\mathbf{f}_1^{exp},\ldots,\mathbf{f}_P^{exp}\},\{\mathbf{e}_1,\ldots,\mathbf{e}_P\}), \\ \{\mathbf{f}_1^{imp\prime},\ldots,\mathbf{f}_P^{imp\prime}\} & =\mathrm{SelfAttn}(\{\mathbf{f}_1^{imp},\ldots,\mathbf{f}_P^{imp}\},\{\mathbf{e}_1,\ldots,\mathbf{e}_P\}), \\ \{\mathbf{e}_1,\ldots,\mathbf{e}_P\} & =\mathrm{PosEmbed}(\{\mathbf{m}_1,\ldots,\mathbf{m}_P\}), \end{aligned}$
然后,本文采用多层感知机,根据据高斯分布的显式特征,对物理属性进行细化:
$\mathbf{G}^{\prime}=\{\mathbf{m}^{\prime}+\mathbf{m},\mathbf{s}^{\prime},\mathbf{r}^{\prime},\mathbf{c}^{\prime},\mathbf{f}^{exp\prime},\mathbf{f}^{imp\prime}\},\quad(\mathbf{m}^{\prime},\mathbf{s}^{\prime},\mathbf{r}^{\prime},\mathbf{c}^{\prime})=\mathrm{MLP}(\mathbf{f}^{exp\prime}).$

Gaussian Decoder

为了有效地调节二维高斯分布,本文设计了一个高斯解码器,它包含两个部分:地图构建和级联规划。地图构建模块显式地重建交通场景,级联规划模块以级联的方式生成轨迹预测,其中每个后续输出都基于前一个输出进行细化。
具体而言,在级联规划任务中,采用基于锚点的规划策略,根据数据集中观察到的轨迹分布构建锚点轨迹词汇表,然后基于Gaussian Encoder模块输出的高斯结果,以级联的形式对锚点轨迹进行修正。

3、实验


本文在NAVSIM和Bench2Drive数据集上进行了实验验证,相关的实验结果分别如图3和图4所示。
 

图3:各类算法模型在NAVISM上的实验结果

图4:各类算法模型在Bench2Drive上的实验结果

通过在开环和闭环数据集上的实验结果对比可以看出,本文提出的GaussianFusion算法模型均实现了最佳的表现结果,实现了SOTA的表现性能。其中,GaussianFusion算法模型在NAVSIM数据集上实现了85.0的EPDMS,在Bench2Drive数据集上实现了79.4的DS指标。

此外,本文还进行了消融实验来验证提出各个模块的有效性,如图5所示。

图5:消融实验结果汇总

通过消融实验结果可以看出,本文提出的各个模块均实现了稳定涨点,联合使用实现了最佳的性能表现。

为了更加直观的展示GaussianFusion算法模型的表现,本文也对相应的实验结果进行了可视化,如图6所示。

图6:预测结果和真值可视化结果

可视化结果也表明了高斯表示的优势,它提供了一种比传统密集BEV特征图更紧凑、适应性更强的替代方案。

结论

本文提出了一种基于高斯分布的多传感器融合框架GaussianFusion,用于端到端自动驾驶。在NAVSIM和Bench2Drive基准测试集上的实验表明,GaussianFusion能够显著提升规划性能,并且效率极高。这些结果凸显了高斯表示在端到端自动驾驶系统中实现高效且可解释的传感器融合的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/909166.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/909166.shtml
英文地址,请注明出处:http://en.pswp.cn/news/909166.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《哈希算法》题集

1、模板题集 满足差值的数字对 2、课内题集 字符统计 字符串统计 优质数对 3、课后题集 2006 Equations k倍区间 可结合的元素对 满足差值的数字对 异常频率 神秘数对 费里的语言 连连看 本题集为作者(英雄哪里出来)在抖音的独家课程《英雄C入门到精…

Cordova移动应用对云端服务器数据库的跨域访问

Cordova移动应用对云端服务器数据库的跨域访问 当基于类似 Cordova这样的跨平台开发框架进行移动应用的跨平台开发时,往往需要访问部署在公网云端服务器上的数据库,这时就涉及到了跨域数据访问的问题。 文章目录 Cordova移动应用对云端服务器数据库的跨…

mysql知识点3--创建和使用数据库

mysql知识点3–创建数据库 创建数据库 在MySQL中创建数据库使用CREATE DATABASE语句。语法如下: CREATE DATABASE database_name;其中database_name为自定义的数据库名称。例如创建名为test_db的数据库: CREATE DATABASE test_db;可以添加字符集和排…

林业资源多元监测技术守护绿水青山

在云南高黎贡山的密林中,无人机群正以毫米级精度扫描古树年轮;福建武夷山保护区,卫星遥感数据实时追踪着珍稀动植物的栖息地变化;海南热带雨林里,AI算法正从亿万条数据中预测下一场山火的风险……这些科幻场景&#xf…

一阶/二阶Nomoto模型(野本模型)为何“看不到”船速对回转角速度/角加速度的影响?

提问 图中的公式反映的是舵角和力矩之间的关系, 其中可以看到力矩(可以理解为角加速度)以及相应导致的回转角速度和当前的舵速(主要由船速贡献)有关,那么为什么一阶Nomoto模型(一阶野本&#xf…

深入剖析 C++ 默认函数:拷贝构造与赋值运算符重载

目录 1. 简单认识C 类的默认函数 1.1 默认构造函数 1.2 析构函数 1.3 拷贝构造函数 2. 拷贝构造函数的深入理解 拷贝构造的特点: 实际运用 3. 赋值运算符重载的深入理解 3.1.运算符重载 3.2样例 1.比较运算符重载 2.算术运算符重载 3.自增和自减运算符重载 4.输…

板凳-------Mysql cookbook学习 (十--3)

5.16 用短语来进行fulltext查询 mysql> select count(*) from kjv where match(vtext) against(God); ---------- | count(*) | ---------- | 0 | ---------- 1 row in set (0.00 sec)mysql> select count(*) from kjv where match(vtext) against(sin); -------…

python爬虫ip封禁应对办法

目录 一、背景现象 二、准备工作 三、代码实现 一、背景现象 最近在做爬虫项目时,爬取的网站,如果发送请求太频繁的话,对方网站会先是响应缓慢,最后是封禁一段时间。一直是拒绝连接,导致程序无法正常预期的爬取数据…

【AIGC】Qwen3-Embedding:Embedding与Rerank模型新标杆

Qwen3-Embedding:Embedding与Rerank模型新标杆 一、引言二、技术架构与核心创新1. 模型结构与训练策略(1)多阶段训练流程(2)高效推理设计(3)多语言与长上下文支持 2. 与经典模型的性能对比 三、…

算法竞赛阶段二-数据结构(32)数据结构简单介绍

数据结构的基本概念 数据结构是计算机存储、组织数据的方式,旨在高效地访问和修改数据。它是算法设计的基础,直接影响程序的性能。数据结构可分为线性结构和非线性结构两大类。 线性数据结构 线性结构中,数据元素按顺序排列,每…

Windows桌面图标修复

新建文本文件,粘入以下代码,保存为.bat文件,管理员运行这个文件 duecho off taskkill /f /im explorer.exe CD /d %userprofile%\AppData\Local DEL IconCache.db /a start explorer.exe echo 执行完成上面代码作用是删除桌面图标缓存库&…

13.react与next.js的特性和原理

🟡 一句话总结 React 专注于构建组件,而 Next.js 是基于 React 的全栈框架,提供了页面路由、服务端渲染和全栈能力,让你能快速开发现代 Web 应用。 React focuses on building UI components, while Next.js is a full-stack fra…

全栈监控系统架构

全栈监控系统架构 可观测性从数据层面可分为三类: 指标度量(Metrics):记录系统的总体运行状态。事件日志(Logs):记录系统运行期间发生的离散事件。链路追踪(Tracing):记录一个请求接入到结束的处理过程,主要用于排查…

云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项

引言 为认真落实工信部《工业和信息化部办公厅关于印发信息通信网络运行安全管理年实施方案的通知》,2025年5月30日中国信息通信研究院于浙江杭州举办了“云服务运行安全高质量发展交流会”,推动正向引导,巩固云服务安全专项治理成果。会上&a…

刀客doc:WPP走下神坛

一、至暗时刻? 6月11日,快消巨头玛氏公司宣布其价值17 亿美元,在全球70个市场的广告业务交给阳狮集团,这其中包括M&Ms、士力架、宝路等知名品牌。 此前,玛氏公司一直是WPP的大客户。早在今年3月,WPP就…

进行性核上性麻痹饮食攻略:营养安全双护航

进行性核上性麻痹是一种罕见的神经系统退行性疾病,主要影响患者的运动、平衡和吞咽功能。除了医学干预,科学的饮食管理也能在一定程度上减轻症状,提高生活质量。 由于患者常出现吞咽困难,食物质地的选择尤为重要。应避免干硬、大块…

阿里云可观测 2025 年 5 月产品动态

本月可观测热文回顾 文章一览: StoreView SQL,让数据分析不受地域限制 不懂 PromQL?AI 智能体帮你玩转大规模指标数据分析 DeepWiki LoongCollector:AI 重塑开源代码理解 从 o11y 2.0 说起,大数据 Pipeline 的「…

React 基础状态管理方案

1. useState useState 是 React 提供的最基本的 Hook,用于在函数组件中添加状态管理。它返回一个状态变量和一个更新状态的函数。 1.1. 使用场景 适合管理简单的状态。 适合管理组件内部的局部状态。 1.2. 示例代码 import React, { useState } from react;function Cou…

VScode中如何创建项目分支

在 VS Code 中为前端项目创建自己的分支是一个常见的开发实践,以下是详细步骤: 前提条件 已安装 Git已安装 VS Code已有前端项目或克隆了远程仓库 创建分支步骤 1. 打开项目 在 VS Code 中打开你的前端项目文件夹。 2. 初始化 Git 仓库&#xff08…

Flutter 导航与路由管理:Navigator 的深入解析与实践

在移动应用开发中,页面导航是用户体验的核心组成部分。Flutter 提供了强大而灵活的导航系统,主要通过 Navigator 组件来实现。本文将全面介绍 Flutter 中 Navigator 的使用方法,涵盖基础导航操作、进阶技巧以及最佳实践。 一、Flutter 导航系…