【导读】

还记得那个曾经在单目3D目标检测领域掀起热潮的 FCOS3D 吗?在后续更新中他们又推出了全新升级版——PGD(Probabilistic and Geometric Depth)最有意思的是,这次他们彻底换了路线:从原先的“直接回归深度”,转向了一个更加聪明、更加鲁棒的方向——结合几何关系和深度不确定性来建模目标的3D位置。>>更多资讯可加入CV技术群获取了解哦

你可以把 PGD 看作是 FCOS3D 的几何感知增强版(FCOS3D++)。不仅在 KITTI 和 nuScenes 两大主流数据集上拿下SOTA,更难得的是——它依然保持了实时推理的效率。

为什么深度估计会成为单目3D检测中的最大瓶颈?PGD 是如何只改“头部”模块就实现显著性能跃升的?这篇文章带你详细拆解这个“最聪明的升级方案”。

目录

一、单目3D检测难在哪?关键在“深”

二、FCOS3D 的基础上,如何升级为 PGD?

概率建模(Probabilistic Depth Estimation)

几何建模(Geometric Graph-based Propagation)

自适应融合(Depth Fusion with Learnable Attention)

三、实验展示与评估结果

KITTI 数据集:单目检测中的黄金指标

nuScenes 数据集:更复杂更全面的挑战

消融实验:每个模块都“有价值”

误差来源分析(Oracle Study)

总结


一、单目3D检测难在哪?关键在“深”

相比于LiDAR和双目视觉,单目图像做3D检测的最大挑战是没有直接的深度信息。PGD 作者对当前主流方法进行了系统性的分析,惊讶地发现:

只要深度估计不准,其他模块再优秀也无法提高整体性能!

换句话说,“instance-level depth”是单目3D检测的核心瓶颈。基于这个结论,作者大胆提出:我们不妨把单目3D检测简化为一个深度估计问题!


二、FCOS3D 的基础上,如何升级为 PGD?

image.png

PGD 并不是从零设计一个新的检测框架,而是继承了 FCOS3D 的整体结构与优势设计,并针对其中最关键的“深度估计”模块进行专项改进。整体来看,PGD的升级路径可划分为三大核心技术模块:

  • 概率建模(Probabilistic Depth Estimation

image.png

传统 FCOS3D 是将深度作为一个连续值进行直接回归,训练不稳定、泛化能力较弱。PGD 在此基础上新增一条“概率分支”:

  • 将深度范围离散为多个区间(例如每10米一个区间);

  • 通过 Softmax 输出一个概率分布;

  • 最终深度由分布的期望值计算得出;

  • 从分布中提取出的“置信分数”还能作为后续融合时的权重指标。

这种方式一方面增强了模型的稳定性,另一方面也为下一步“几何传播”提供了不确定性评估能力。

  • 几何建模(Geometric Graph-based Propagation

image.png

FCOS3D 只对每个实例单点预测深度,完全忽略了图像中多个物体间的相对位置与几何关系。

PGD 则引入了一种透视几何驱动的图结构,每个检测到的实例是图中的一个节点,边的方向代表深度传播路径。

  • 基于透视投影公式,推导任意两个物体之间的相对深度关系;

  • 对于高置信度的“锚点物体”,可以推算出低置信度物体的深度;

  • 为避免误差扩散,采用边剪枝(edge pruning)和边门控(edge gating)机制:优先考虑同类物体、距离较近、类别置信度相近的传播路径;最多保留 top-k 条边用于计算;所有传播过程无额外参数,仅作为辅助输入。

这种图结构相当于让网络“看懂透视规律”,从场景上下文中进行深度校准。

  • 自适应融合(Depth Fusion with Learnable Attention

得到了两个深度预测值后(一个是局部概率估计的DL ,另一个是图传播后的DG ),PGD 并不手动加权,而是引入一个位置感知的融合权重图α: 

image.png

这样融合具有以下优势:

  • 不同区域可根据实际复杂度自动决定更依赖哪一项;

  • 相比固定融合系数,更具场景自适应性;

  • 学习过程无额外引导,只在最终整体损失中回传。


三、实验展示与评估结果

PGD 的各项设计是否真的有效?作者在两个权威自动驾驶数据集上(KITTI 和 nuScenes)进行了系统对比,结果如下:

  • KITTI 数据集:单目检测中的黄金指标

在 3D IoU ≥ 0.7 的评估标准下,PGD 相比于 FCOS3D 提升非常明显:

image.png

PGD 不仅在各项指标上全面超越,推理时间还缩短至 0.028s,达到 36FPS 实时水平,说明其引入的模块几乎无推理开销。

  • nuScenes 数据集:更复杂更全面的挑战

PGD 同样在 nuScenes 数据集上展现出强劲性能,作为纯视觉方法,其表现甚至超过了使用雷达融合的部分多模态方法:

image.png

尤其在 mAP 上,PGD 提升了近 3 个点,说明其对物体空间位置的预测更加准确。

  • 消融实验:每个模块都“有价值”

作者依次在 FCOS3D 基础上加入 PGD 的各个模块,展示它们对性能的实际贡献:

image.png

说明 PGD 的每个设计都不是冗余的,而是为了解决明确问题、层层递进所设。

  • 误差来源分析(Oracle Study)

作者还特别做了一项“oracle 替换分析”——逐个将模型输出替换为GT真值,观察性能上限。结果发现:

image.png

只有深度估计准确后,其他预测才能发挥作用。

这也从实验角度再次印证了 PGD 设计的正确方向——专注解决“深度估计”瓶颈,能成就整张检测大图。


总结

PGD 的贡献,不在于构建一个复杂的网络,而在于——

专注解决单目3D检测中最关键的问题,用最合理的方式。

相比堆叠复杂子网络或引入额外模态,PGD 展现了“从问题出发,设计目标模块”的范式,是近年来值得借鉴的轻量级创新之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/88453.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/88453.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/88453.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Apache Cloudberry 向量化实践(三)重塑表达式构建路径:Gandiva 优化实战

在向量化执行系统中,表达式构建是不可或缺的基础环节。无论是 SQL 中的投影、筛选,还是分区、聚合、排序,最终都需转化为底层执行引擎能识别和执行的表达式树。而在 Apache Cloudberry 向量化执行框架中,这一过程由 Gandiva 表达式…

Windows删除文件或者拔出U盘显示正在使用/占用解决办法

1、复制文件地址2、打开任务管理器,选择左侧【性能】3、打开资源监视器4、选择资源监视器中的CPU5、粘贴你复制的占用文件地址6、除了explore.exe以外,其他的关联的句柄都选中,然后右键结束

自由学习记录(68)

🧠 blender为什么不用 M 或 T? 键位含义为什么没选MMove?其实被用作「Move to Collection」等功能不符合历史定义,而且功能太多了TTransform? 但 transform 是一个总称(含移动、旋转、缩放)T 被…

ReactNative【实战系列教程】我的小红书 8 -- 我(含左侧弹窗菜单,右下角图标等)

最终效果点左上角菜单按钮,弹出左侧菜单后代码实现app/(tabs)/mine.tsx import icon_add from "/assets/icons/icon_add.png"; import mine_bg from "/assets/images/mine_bg.png"; import Heart from "/components/Heart"; import a…

C++性能优化实战:从理论到落地的五大核心策略

在当今这个对计算效率要求极高的时代,C作为系统级编程语言的王者,其性能优化能力依然是无可替代的核心竞争力。本文将分享我在大型分布式系统开发中积累的C性能优化实战经验,这些经验帮助我们将关键组件的吞吐量提升了300%,延迟降…

字节 Seed 团队联合清华大学智能产业研究院开源 MemAgent: 基于多轮对话强化学习记忆代理的长文本大语言模型重构

🔥 最新动态!!! [2025/07] 我们提供了快速启动脚本,让使用MemAgent变得超级简单,详情请见下方"快速入门"部分。[2025/06] 我们发布了RL-MemAgent-14B和RL-MemAgent-7B模型,在350万token上下文任务中实现了近乎无损的性…

【unitrix】 4.20 类型级二进制数减法实现解析(sub.rs)

一、源码 这段代码实现了一个用于统计二进制补码整数位数的系统,支持多种自定义数值类型(Z0、P1、N1、B0、B1)。 use core::mem::size_of; use crate::number::{Z0, P1, N1, B0, B1, Var};/// 统计二进制位数的 trait pub trait BitLength {f…

手把手教你安全删除Anaconda虚拟环境(避坑指南)

文章目录一、删除前必看清单(超级重要)二、三种删除方法对比(建议收藏)方法1:官方推荐命令(最安全)方法2:暴力删除大法(快速但需谨慎)方法3:核弹级…

Effective Modern C++ 条款7:区分使用 `()` 和 `{}` 创建对象

在 C11 及以后的版本中,初始化对象的方式变得更加灵活,但也带来了选择上的困惑。() 和 {} 是两种常见的初始化语法,它们在语义、行为和适用场景上有显著差异。本文将通过具体示例,深入解析这两种初始化方式的区别,并探…

Java基础-String常用的方法

String常用的三种构造方法 public static void main(String[] args) {//1.使用常量字符串构造String s1 "1.Hello world";System.out.println(s1);//2.使用new关键字构造String s2 new String("2.Hello world");System.out.println(s2);//3。使用字符数组…

数学建模:多目标规划:ε约束法、 理想点法

一、ε约束法定义ε约束法通过将部分目标函数转化为约束条件,保留一个主要目标进行优化。1、选择一个主要目标 fk​(x) 进行优化。2、其他目标 fi​(x) 转化为约束 fi​(x)≤εi​,其中 εi​ 是决策者设定的容许阈值。​​原理​​​​目标选择​​&…

linux kernel struct regmap_config结构详解

在 Linux 内核中,struct regmap_config 是 ​Regmap 子系统的核心配置结构体,用于定义如何与底层硬件寄存器进行交互。Regmap(Register Map)子系统通过抽象不同总线(如 I2C、SPI、MMIO 等)的寄存器访问细节…

【Python3教程】Python3高级篇之CGI编程

博主介绍:✌全网粉丝23W+,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物联网、机器学习等设计与开发。 感兴趣的可…

docker安装Consul笔记

安装过程 详细步骤如下: 首先拉取Consul的Docker镜像: docker pull hashicorp/consul:1.18.1创建Consul的配置文件和数据目录: mkdir -p /srv/docker/consul/data mkdir -p /srv/docker/consul/config在config目录下创建一个config.json配置文…

.net数据脱敏

.NET数据脱敏技术:保障数据安全的有效手段 在当今数字化时代,数据安全至关重要。尤其是涉及到用户的敏感信息,如密码、手机号码等,必须采取有效的措施进行保护。数据脱敏就是这样一种技术,它能够在不影响数据可用性的…

【openp2p】 学习2:源码阅读P2PNetwork和P2PTunnel

【openp2p】 学习1:P2PApp和优秀的go跨平台项目已经做了初步分析。阅读原版工程,感觉工程是一个暴露内网服务端口,让外部可以用的一个实现是一个完整的、跨平台的可商业化的应用。感谢作者需要学习作者的设计思路工程构建 F:\GolandProjects\openp2p\core\p2pnetwork.go通常…

网安学习NO.14

防火墙基础实验 传统防火墙配置实验拓扑图PC: ip 192.168.10.1 255.255.255.0 192.168.10.254 ip dns 114.114.114.114二层交换机 vl 10 ex int e0/0 sw mo ac sw ac vl 10 ex inr e0/1 sw tr en do sw mo tr三层交换机 vl 10 ex int g0/0 sw tr en do sw mo tr ex …

ESP32语音唤醒

两种唤醒方式AfeWakeWord与EspWakeWord对比 底层技术 AfeWakeWord:基于ESP-IDF的AFE框架(esp_afe_sr_iface_t),高性能模式(AFE_MODE_HIGH_PERF)EspWakeWord:基于WakeNet接口(esp_wn_…

借助 Wisdom SSH AI 助手,轻松安装 CentOS 8 LNMP 环境

打开Wisdom SSH软件,在AI对话区输入“在CentOS 8服务器安装LNMP环境”,AI助手会按以下步骤分析并执行安装: 安装Nginx 分析:CentOS 8默认软件源可能没有Nginx,所以要先启用Nginx官方软件源,然后才能安装Ngi…

WD0407 40V 7A 超级肖特基二极管,应用于开关汽车工业控制

WD0407 40V 7A 超级肖特基二极管说明​ 产品概述​ WD0407 是一款性能卓越的超级肖特基二极管,专为满足现代电子设备对高效、可靠电源管理的需求而设计。它采用先进的半导体制造工艺,在诸多关键性能指标上表现出色,能够为各类电路提供稳定、高…