1. ​简介

论文提出了FSHNet(Fully Sparse Hybrid Network),一种用于3D物体检测的全稀疏混合网络。FSHNet旨在解决现有稀疏3D检测器的两大核心问题:长距离交互能力弱和网络优化困难。稀疏检测器(如VoxelNeXt和SAFDNet)虽能高效处理点云数据(仅操作非空体素),但在长距离检测任务中表现不足。FSHNet通过结合稀疏卷积的高效性和注意力机制的长距离交互能力,实现了在多个基准数据集(Waymo、nuScenes、Argoverse2)上的SOTA性能。主要创新包括SlotFormer块、动态稀疏标签分配策略和稀疏上采样模块。


2. ​核心问题与动机

稀疏3D检测器仅从非空体素提取特征,导致两个关键挑战:

  • 长距离交互弱(Long-range interaction weakness)​​:稀疏体素间的交互依赖于卷积核的局部范围,当体素距离超出核尺寸时(例如,两个遥远体素无法通过中间空体素桥接),特征提取能力受限。这削弱了全局场景感知,尤其影响大型物体(如车辆)的检测。
  • 中心特征缺失(Center feature missing)​​:物体中心区域常为空体素(尤其在大物体中),但中心特征对对象检测至关重要(如作为代理)。缺失中心特征阻碍网络优化,导致训练不稳定和性能下降。

图1直观比较了稀疏与稠密检测器的体素交互差异:在稀疏检测器中,遥远体素无交互;在稠密检测器中,空体素充当“桥梁”,实现扩散交互。

传统解决方案(如增大卷积核)会增加计算开销,而基于Transformer的方法(如DSVT)受限于窗口尺寸。FSHNet通过混合架构解决这些问题。 

3. ​FSHNet方法细节

FSHNet的整体框架如图2所示,包括输入处理、稀疏卷积编码器、SlotFormer块、稀疏上采样模块和动态稀疏头。框架以点云为输入,转换为稀疏体素后,通过多阶段处理生成预测。

 

3.1 ​SlotFormer块(解决长距离交互问题)​
  • 核心思想​:SlotFormer取代传统窗口分区,使用“槽位分区”(slot partition)。每个槽沿X或Y轴覆盖整个场景(无限边长),提供更大的感受野(全局范围)。相比窗口分区(如DSVT),槽位分区能处理更长的距离交互。
  • 机制​:体素按槽索引分组(Eq.1),采用线性注意力(linear attention)而非自注意力,计算复杂度从O(N²)降至O(N)。具体步骤:

    • 体素分组:基于坐标计算槽索引(d_i^x 和 d_i^y)。
    • 线性注意力:生成查询(Q)、键(K)、值(V)矩阵(Eq.2),计算KV矩阵(Eq.3),并通过归一化输出新特征(Eq.4)。最后,通过前馈网络更新特征(Eq.5)。

  • 优势​:SlotFormer与现有稀疏编码器(如SAFDNet)结合,实现高效全局交互。在FSHNet中,多层SlotFormer交替槽方向(X/Y轴),增强全局连接。
3.2 ​稀疏上采样模块(增强细粒度细节)​
  • 问题​:稀疏编码器下采样导致小物体细节丢失(如行人)。
  • 机制​:输入体素坐标加倍(Eq.6),创建更细粒度的体素网格。随后应用稀疏卷积层(核尺寸3,步幅1)扩散特征(Eq.7),恢复下采样中丢失的细节。

  • 优势​:保留小物体的细粒度信息,提升检测精度。实验表明,该模块对行人等小物体效果显著(见表7对比)。

 

3.3 ​动态稀疏标签分配(优化网络训练)​
  • 问题​:现有方法(如中心最近分配)仅选最近体素作为正样本,忽略高质量候选,导致优化不足。
  • 策略​:为每个标注框中心,动态选择候选体素。如图3所示,计算候选体素(n个最近体素)的选择成本(Eq.8),基于分类和回归损失(IoU加权)选择top-k正样本(Eq.9)。成本计算包括预测框与真实框的IoU。

 

  • 损失函数​:回归使用旋转加权IoU损失;分类使用焦点损失(focal loss),正样本权重为1,负样本权重基于IoU设置。
  • 优势​:提供更多高质量正样本,缓解中心缺失问题,优化网络训练。消融实验显示,候选数n=5时效果最佳(见表8)。

4. ​实验验证

FSHNet在三大数据集评估,使用FSHNet_light(基于VoxelNeXt)和FSHNet_base(基于SAFDNet)变体。关键结果:

4.1 ​Waymo数据集
  • 验证集​(表1):FSHNet_base在LEVEL 2 mAP/mAPH上达77.1/74.9,优于SOTA方法(如ScatterFormer的75.7/73.8)。在车辆和行人类别提升显著(如车辆AP 82.2 vs. SAFDNet的80.6)。
  • 测试集​(表2):FSHNet_base的LEVEL 2 mAP/mAPH为77.4/75.2,刷新SOTA记录。SlotFormer对大型物体(车辆)效果突出。
4.2 ​nuScenes数据集
  • 验证集​(表3):FSHNet_base在NDS和mAP上达71.7和68.1,超越TransFusion-L和SAFDNet。训练仅36轮(无CBGS策略),显示高效性。
4.3 ​Argoverse2数据集
  • 验证集​(表4):针对长距离检测(范围200米),FSHNet_base的mAP为40.2,显著优于SAFDNet(38.7)。小物体(行人mAP +3.2%)和大物体(巴士mAP +1.0%)均有提升。
4.4 ​消融研究
  • 组件贡献​(表5):SlotFormer提升大型物体性能(车辆AP +2.4%);动态标签分配优化训练(行人AP +1.8%);稀疏上采样增强小物体检测。

  • 分区方式对比​(表6):槽位分区 + 线性注意力效果最佳(优于窗口分区)。

  • 上采样策略​(表7):SP-SU(稀疏卷积扩散)优于SM-SU(特征重复)。

  • 参数分析​(表8):候选数n=5时动态标签分配最优。


5. ​主要贡献与限制

  • 贡献​:
    • 提出首个结合稀疏卷积和注意力的混合模型FSHNet,平衡效率与性能。
    • 设计SlotFormer块,实现全局范围体素交互。
    • 引入动态稀疏标签分配,深度优化网络。
    • 稀疏上采样模块保留细粒度细节,提升小物体检测。
    • 实验证明泛化性强,在多个基准达到SOTA。
  • 限制​:SlotFormer增加延迟(FSHNet_base从94ms增至123ms),未来需优化效率。

6. ​结论

FSHNet通过创新混合架构解决了稀疏3D检测器的核心瓶颈,在长距离交互和网络优化上取得突破。实验验证了其在Waymo、nuScenes和Argoverse2的优越性,为自动驾驶感知提供了高效解决方案。代码开源促进了社区应用。

 论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_FSHNet_Fully_Sparse_Hybrid_Network_for_3D_Object_Detection_CVPR_2025_paper.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/92579.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/92579.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/92579.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySql 8.0.42 zip版安装教程和使用

今天要装个MySQL,就按照自己以前的教程来做,不知道是不是版本更新了的原因,又遇到了一点小阻碍,于是再记录一下吧。 下载MySQL 下载链接:MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/…

【lucene】实现knn

在 Lucene 中,可以通过 KnnFloatVectorQuery 和 KnnFloatVectorField 来实现 KNN(k-Nearest Neighbors)搜索。以下是具体介绍:1. 功能原理KnnFloatVectorQuery 是 Lucene 用于执行最近邻搜索的查询类,它可以在一个字段…

RabbitMQ实践学习笔记

RabbitMQ实践 以下是关于RabbitMQ实践的整理,涵盖常见场景和示例代码(基于Markdown格式)。内容按模块分类,避免步骤词汇,直接提供可操作的方法: 基础连接与队列声明 使用Python的pika库建立连接并声明队列: import pikaconnection = pika.BlockingConnection(pika.C…

量子生成对抗网络:量子计算与生成模型的融合革命

引言:当生成对抗网络遇上量子计算在人工智能与量子计算双重浪潮的交汇处,量子生成对抗网络(Quantum Generative Adversarial Networks, QGAN)正成为突破经典算力瓶颈的关键技术。传统生成对抗网络(GAN)在图…

VBA 多个选项,将选中的选项录入当前选中的单元格

1、使用LISTBOX插件&#xff0c;选中后回车录入 维护好数据&#xff0c;并新增一个activeX列表框插件 Private Sub Worksheet_SelectionChange(ByVal Target As Range)If Target.Count > 1 Then Exit SubIf Target.Row > 2 And Target.Row < 10 And Target.Column 2…

【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 主页-微博点赞量Top6实现

大家好&#xff0c;我是java1234_小锋老师&#xff0c;最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flaskpandasecharts)视频教程&#xff0c;持续更新中&#xff0c;计划月底更新完&#xff0c;感谢支持。今天讲解主页-微博点赞量Top6实现 视频在线地址&…

SAP调用外部API

SAP需求将中文字符转化为对应的拼音具体思路,由于sap中没有将中文字符转化为拼音的函数或方法类,则以http请求访问外部服务器发布的API服务,然后获取其返回值即可1.调用外部网站上提供的api缺点:免费次数有限,后需要充值这里是用www格式的json报文*&----------------------…

(12)机器学习小白入门YOLOv:YOLOv8-cls 模型微调实操

YOLOv8-cls 模型微调实操 (1)机器学习小白入门YOLOv &#xff1a;从概念到实践 (2)机器学习小白入门 YOLOv&#xff1a;从模块优化到工程部署 (3)机器学习小白入门 YOLOv&#xff1a; 解锁图片分类新技能 (4)机器学习小白入门YOLOv &#xff1a;图片标注实操手册 (5)机器学习小…

基于Matlab传统图像处理技术的车辆车型识别与分类方法研究

随着计算机视觉和图像处理技术的发展&#xff0c;车辆检测与识别已经成为智能交通系统中的一个重要研究方向。传统图像处理方法通过对图像进行预处理、特征提取、分类与识别&#xff0c;提供了一种无需复杂深度学习模型的解决方案。本研究基于MATLAB平台&#xff0c;采用传统图…

未来趋势:LeafletJS 与 Web3/AI 的融合

引言 LeafletJS 作为一个轻量、灵活的 JavaScript 地图库&#xff0c;以其模块化设计和高效渲染能力在 Web 地图开发中占据重要地位。随着 Web3 和人工智能&#xff08;AI&#xff09;的兴起&#xff0c;地图应用的开发范式正在发生变革。Web3 技术&#xff08;如区块链、去中…

Spring AI 系列之二十一 - EmbeddingModel

之前做个几个大模型的应用&#xff0c;都是使用Python语言&#xff0c;后来有一个项目使用了Java&#xff0c;并使用了Spring AI框架。随着Spring AI不断地完善&#xff0c;最近它发布了1.0正式版&#xff0c;意味着它已经能很好的作为企业级生产环境的使用。对于Java开发者来说…

LFU算法及优化

继上一篇的LRU算法的实现和讲解&#xff0c;这一篇来讲述LFU最近使用频率高的数据很大概率将会再次被使用,而最近使用频率低的数据,将来大概率不会再使用。做法&#xff1a;把使用频率最小的数据置换出去。这种算法更多是从使用频率的角度&#xff08;但是当缓存满时&#xff0…

关于原车一键启动升级手机控车的核心信息及注意事项

想知道如何给原车已经有一键启动功能的车辆加装手机远程启动。这是个很实用的汽车改装需求&#xff0c;尤其适合想在冬天提前热车、夏天提前开空调的车主。一、适配方案与核心功能 ‌升级专车专用4G手机控车模块‌&#xff0c;推荐安装「移动管家YD361-3」系统&#xff0c;该方…

数据结构与算法:类C语言有关操作补充

数据结构与算法:类C语言操作补充 作为老师,我将详细讲解类C语言(如C或C++)中的关键操作,包括动态内存分配和参数传递。这些内容在数据结构与算法中至关重要,例如在实现动态数组、链表或高效函数调用时。我会用通俗易懂的语言和代码示例逐步解释,确保你轻松掌握。内容基…

Go 并发(协程,通道,锁,协程控制)

一.协程&#xff08;Goroutine&#xff09;并发&#xff1a;指程序能够同时执行多个任务的能力&#xff0c;多线程程序在一个核的cpu上运行&#xff0c;就是并发。并行&#xff1a;多线程程序在多个核的cpu上运行&#xff0c;就是并行。并发主要由切换时间片来实现"同时&q…

图机器学习(15)——链接预测在社交网络分析中的应用

图机器学习&#xff08;15&#xff09;——链接预测在社交网络分析中的应用0. 链接预测1. 数据处理2. 基于 node2vec 的链路预测3. 基于 GraphSAGE 的链接预测3.1 无特征方法3.2 引入节点特征4. 用于链接预测的手工特征5. 结果对比0. 链接预测 如今&#xff0c;社交媒体已成为…

每日一算:华为-批萨分配问题

题目描述"吃货"和"馋嘴"两人到披萨店点了一份铁盘&#xff08;圆形&#xff09;披萨&#xff0c;并嘱咐店员将披萨按放射状切成大小相同的偶数个小块。但是粗心的服务员将披萨切成了每块大小都完全不同的奇数块&#xff0c;且肉眼能分辨出大小。由于两人都…

Transfusion,Show-o and Show-o2论文解读

目录 一、Transfusion 1、概述 2、方法 二、Show-o 1、概述 2、方法 3、训练 三、Show-o2 1、概述 2、模型架构 3、训练方法 4、实验 一、Transfusion 1、概述 Transfusion模型应该是Show系列&#xff0c;Emu系列的前传&#xff0c;首次将文本和图像生成统一到单…

聊聊 Flutter 在 iOS 真机 Debug 运行出现 Timed out *** to update 的问题

最近刚好有人在问&#xff0c;他的 Flutter 项目在升级之后出现 Error starting debug session in Xcode: Timed out waiting for CONFIGURATION_BUILD_DIR to update 问题&#xff0c;也就是真机 Debug 时始终运行不了的问题&#xff1a; 其实这已经是一个老问题了&#xff0c…

《R for Data Science (2e)》免费中文翻译 (第1章) --- Data visualization(2)

写在前面 本系列推文为《R for Data Science (2)》的中文翻译版本。所有内容都通过开源免费的方式上传至Github&#xff0c;欢迎大家参与贡献&#xff0c;详细信息见&#xff1a; Books-zh-cn 项目介绍&#xff1a; Books-zh-cn&#xff1a;开源免费的中文书籍社区 r4ds-zh-cn …