标题: Far3D: Expanding the Horizon for Surround-view 3D Object Detection

motivation

作者觉得市面上的方法对远处的long-range 的3d-od检测没有深入研究,于是作者提出FAR3D. 基于环视图像的3D物体检测取得了显著进展,且其部署成本较低。然而,大多数研究主要集中在近距离感知范围内,而对远距离检测的探索较少。直接将现有方法扩展到覆盖远距离面临着高计算成本和不稳定收敛等挑战。为了解决这些限制,本文提出了一种新颖的稀疏查询基础框架,称为Far3D。通过利用高质量的2D物体先验,我们生成与3D全局查询互补的3D自适应查询。为了有效捕捉不同视角和尺度下的具有区分性的特征以应对远距离物体,我们引入了一个感知视角聚合模块。此外,我们提出了一种范围调制3D去噪方法,以解决查询误差传播并缓解远距离任务中的收敛问题。值得注意的是,Far3D在挑战性的Argoverse 2数据集上表现出最先进的性能,覆盖150米的广泛范围,超越了多个基于LiDAR的方法。
[代码] ( https://github.com/megvii-research/Far3D )

methods

  • 将环视图像输入主干网络和 FPN 层,编码得到 2D 图像特征,并将其与相机参数进行编码。
  • 利用 2D 检测器和深度预测网络,生成可靠的 2D 物体框及其相应深度,然后通过相机变换投影到 3D 空间。
  • 生成的3D adaptive query 与初始的 3D global query 相结合,由解码器层迭代回归,以预测 3D 物体框。更进一步,该模型可通过长时序的 query 传播实现时序建模。

在这里插入图片描述
背景介绍: 现有的环视感知方法可以大致分为两类:基于BEV表征和基于稀疏查询表征的方法。基于BEV表征的方法由于需要计算密集的BEV特征,计算量非常大,难以扩展到远距离场景。而基于稀疏查询表征的方法会从训练数据中学习到全局的3D查询,计算量相对较小,且具有较强的扩展性。然而,它也存在一些弱点,尽管可以避免查询数量的平方增长,但全局固定查询不易适应动态场景,在远距离检测中通常会遗漏目标。
在远距离检测中,基于稀疏 query 表征的方法有两个主要挑战

  • 首先是召回性能较差。由于 query 在 3D 空间分布的稀疏性,在远距离范围只能产生少量匹配的 positive query。如上图所示,3D 检测的召回率较低,而现有 2D 检测的召回率要高得多,两者之间存在明显的性能差距。因此,利用高质量的 2D 物体先验来改进 3D query 是一种很有潜力的方法,它有利于实现物体的精确定位和全面覆盖。
  • 其次,直接引入 2D 检测结果来帮助 3D 检测会面临误差传播的问题。如下图所示,两种主要来源是 1) 由于深度预测不准的物体定位误差;2) 随着距离的增大,视锥变换中的 3D 位置误差也会增大。这些 noisy query 会影响训练的稳定性,需要有效的去噪方法来优化。此外,在训练过程中,模型会表现出对密集的近距离物体过度拟合的倾向,而忽略稀疏分布的远距离物体。

Adaptive Query Generation
具体方法:在 FPN 颈部之后,我们将图像特征输入 YOLOX 的无锚检测头和一个轻量级深度估计网络,输出 2D 框坐标、得分和深度图。2D 检测头遵循原始设计,而深度估计则通过将深度离散化为多个区间被视为分类任务。然后,我们将 2D 框和相应的深度配对。为了避免低质量提议的干扰,我们设定了一个得分阈值 τ(例如 0.1),仅保留可靠的proposals。对于每个视图 i,来自 2D 预测的框中心 (cw, ch) 和深度图中的深度 depth 被组合并, 投影到 3D-proposal中心 c3d。
在这里插入图片描述
K,I内外参。
然后把它编码到query中去:
在这里插入图片描述
生成的3D adaptive query 与初始的 3D global query 相结合,由解码器层迭代回归,以预测 3D 物体框。

Perspective-aware Aggregation

为了给远距离检测模型引入多尺度特征,作者应用了 3D spatial deformable attention。它先在 query 对应的 3D 位置附近进行偏移采样,而后通过 3D-2D 视图变换聚合图像特征。这种方法替代 PETR 系列中的 global attention 的优势在于,计算量可以大幅降低。具体地,对于 3D 空间中的每个 query 的参考点,模型会学习其周围的 M 个采样偏移,并将这些偏移点投影到不同的 2D 视图特征中。
在这里插入图片描述
接下来,3D对象查询根据上述的2D参考点P2d,与F 中的多尺度采样特征进行交互。通过这种方式,来自不同视觉和尺度的多样特征通过考虑它们的相对重要性聚合到3D查询中。

Range-modulated 3D Denoising
不同距离的 3D query 具有不同的回归难度,这不同于现有的 2D Denoising 方法(如 DN-DETR, 通常同等对待的2D query)。难度差异来自于 query 匹配密度和误差传播。一方面,与远处物体相对应的 query 匹配度低于近处物体。另一方面,在 3D adaptive query 中引入二维先验时,2D 物体框的微小误差会被放大,更不用说这种影响会随着物体距离的增加而增大。因此,GT 框附近的一些 query 可被视为 positive query,而其他有明显偏差则应被视为 negative query。本文提出一种 3D Denoising 方法,旨在优化那些正样本,并直接舍弃负样本。
作者通过同时添加正样本和负样本组来构建基于 GT 的嘈杂查询。对于这两种类型,都会根据物体的位置和大小应用随机噪声,以促进远距离感知中的去噪学习。具体来说,正样本是在3D框内的随机点,而负样本则在GT上施加更大的偏移,偏移范围随着物体的距离变化。这种方法可以在训练过程中模拟有噪声的候选正样本和误报样本;
在这里插入图片描述在这里插入图片描述

experiments

Far3D 在 150m 感知范围的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以达到几个 Lidar-based 方法的性能,展现了纯视觉方法的潜力。
为了验证泛化性能,作者也在 nuScenes 数据集上做了实验,表明其在验证集和测试集上都达到 SoTA 性能。

在这里插入图片描述
就是看的远,好好好!

【完结】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/96612.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/96612.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/96612.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis分布式锁的try-with-resources实现

Redis分布式锁的try-with-resources实现 在Java中,try-with-resources是一种自动资源管理机制,适用于实现了AutoCloseable接口的类。通过结合Redis分布式锁和try-with-resources,可以确保锁的自动释放,避免因异常或忘记释放锁导致…

上传文件接口设计,SpringBoot + MinIO/S3 文件服务实现:FileService 接口与 FileServiceImpl 详解

在企业项目中,文件上传和管理是非常常见的需求。本文基于 芋道源码 的实现,介绍如何封装一个通用的 文件服务 FileService,支持:文件上传(保存数据库记录 存储文件到 S3/MinIO 等对象存储)文件下载与删除文…

MVC 依赖注入(DI)与服务全解析(附避坑实战)

依赖注入的核心概念 依赖注入(DI)是一种设计模式,通过将对象的依赖关系从内部创建转移到外部传递,实现解耦。在 MVC 框架中,DI 容器负责管理对象的生命周期和依赖关系,开发者只需声明依赖,容器…

【实证分析】上市公司经营风险数据集-含代码(2000-2022年)

数据简介:上市公司经营风险涉及多维度、多层次的复杂因素,本文章参考王竹泉-经营风险与营运资金融资决策对上市公司经验风险进行测算,经营风险是该公司息税折旧摊销前利润率的标准差,经营风险是该公司息税折旧摊销前利润率的标准差…

领码方案|Windows 下 PLT → PDF 转换服务超级完整版:异步、权限、进度

摘要 面向 Windows 平台,使用 ASP.NET Core Web API 结合 Ghostscript.NET 库,实现 PLT(HPGL)→PDF 的纯库调用转换,无需外部进程。支持同步与异步模式,采用 JWTRBAC 进行权限治理,任务状态存储…

浏览器兼容性问题全解:CSS 前缀、Grid/Flex 布局兼容方案与跨浏览器调试技巧

1. 浏览器兼容性与前缀问题 不同浏览器(尤其是老版本 IE、Edge、Safari)对新特性(比如 CSS 变量、Grid、Flex 等)的支持程度不一,需要使用厂商前缀(-webkit-、-moz- 等)或降级方案。新手往往忽…

【Android View】事件分发机制

参考文献 https://juejin.cn/post/6844904041487532045https://juejin.cn/post/6844903894103883789#heading-12https://www.jianshu.com/p/dea72779a6b7 文章目录

【大数据相关】ClickHouse命令行与SQL语法详解

ClickHouse命令行与SQL语法详解一、ClickHouse命令行与SQL语法详解第一部分:ClickHouse SQL 命令行客户端 (clickhouse-client)1. 基础连接2. 核心命令行参数3. 数据导入与导出实战第二部分:ClickHouse SQL 语法详解1. DDL (数据定义语言)2. DML (数据操…

学习日记-CSS-day53-9.11

1.CSS介绍知识点核心内容重点CSS定义层叠样式表,用于内容修饰和样式展现英文全称cascading style sheetsCSS作用实现HTML内容与样式分离,提高开发效率对比传统HTML元素单独设置样式的低效方式学习建议掌握常用功能即可,重点在打通前后端数据通…

Maven中optional的作用

目的: 控制依赖传递 :将依赖标记为可选,这样当其他模块依赖common-component时,不会自动继承Elasticsearch依赖。这遵循了"依赖最小化"原则,避免不必要的库被引入到不需要它们的模块中。模块化设计 &#xf…

蓝桥杯算法之基础知识(7)---排序题的快排和归并排序

一、快排》快排方法,就三步1.随便选一个值作为基准值x2.拿选中的这个x值划分队列为左右两个区间(左边的都小于x,右边的都大于x)3.然后递归左区间和右区间就行》代码举例:#qs排序#1 6 7 8 6 5 4 #先找比较点&#xff0c…

缓存未命中

缓存未命中(Cache Miss) 发生在 CPU 访问某块内存时,该地址不在当前缓存(L1/L2/L3)中,导致程序被迫从更慢的内存(RAM)读取数据,严重拖慢程序执行速度。 📍 一…

AR眼镜:化工安全生产的技术革命

在石化企业的压缩机组巡检中,佩戴AR眼镜的巡检员眼前实时显示着设备温度场分布和振动频谱曲线,单台设备巡检时间从45分钟缩短至18分钟。这不仅是效率的提升,更是化工安全生产的一场智能革命。一、行业痛点:传统化工巡检的困境与挑…

消息中间件RabbitMQ(从入门到精通)

RabbitMQ概念_MQ 消息队列 MQ全称Message Queue(消息队列),是在消息的传输过程中保存消息的容器。多用于系统之间的异步通信。 同步通信相当于两个人当面对话,你一言我一语。必须及时回复 异步通信相当于通过第三方转述对话,可能有消息的延迟,但不需要二人时刻保持联系。…

前端学习之后端java小白(五)之多表查询/事务

一、多表查询概念二、概述 1. 内连接隐式内连接 SELECT 字段列表 FROM 表1,表2... WHERE 条件显示内连接SELECT 字段列表 FROM 表1 [INNER] JOIN 表2 ON 条件2. 外连接 左外连接SELECT 列名 FROM 左表 LEFT [OUTER] JOIN 右表 ON 连接条件;右外连接SELECT 列名…

Java全栈学习笔记34

# JDBCjava database connection Java 数据库连接技术## JDBC 驱动程序如果需要通过jdbc技术连接关系型数据库,就需要为jdbc提供一个该数据库的驱动。驱动程序由对应的数据库厂商提供。mysql提供了针对于各种语言的驱动程序。去官网下载和java相关的驱动即可## JDB…

如何为MySQL中的JSON字段设置索引

背景 MySQL在2015年中发布的5.7.8版本中首次引入了JSON数据类型。自此,它成了一种逃离严格列定义的方式,可以存储各种形状和大小的JSON文档,例如审计日志、配置信息、第三方数据包、用户自定义字段等。 虽然MySQL提供了读写JSON数据的函数&am…

【学习日记】

1.上午看了会面经,八股,很多看不懂1.5排查本地mysql服务启动问题2.刷了两道题翻转二叉树的Dfs和bfs递归方法,看了几分钟看懂了,一开始刷题,没有这种感觉,可能思维上升了3.下午做了会ppt4.看了ssm的一个gith…

本地大模型部署指南-Ollama与HuggingFace对比

在本地部署大模型时,用 Ollama 和 Hugging Face (HF) 确实有很大区别,涉及系统、硬件、训练、推理方式,以及能否查看模型源代码。下面我分几个维度说明: 系统和安装 Ollama 定位是「开箱即用」的本地大模型运行环境。 自带运行时&…

河北周边有哪些比较靠谱的智算中心?

河北省通过算力普惠、绿色能源、数据开放、金融支持四大支柱政策,推动智算中心高质量发展。河北及周边地区的智算中心已形成高可靠性、先进技术和战略协同的布局。那么,河北周边有哪些比较靠谱的智算中心?一、河北周边智算中心盘点‍1、尚航怀…