文章目录

一摘要

二资源

三内容

一摘要

尽管深度学习在近距离 3D 对象检测方面取得了成功，但现有方法难以实现对新对象和相机配置的零镜头泛化。我们介绍了 DetAny3D，这是一种可提示的 3D 检测基础模型，能够在任意相机配置下仅使用单目输入检测任何新物体。从根本上说，训练用于 3D 检测的基础模型受到注释 3D 数据可用性有限的限制，这促使 DetAny3D 利用嵌入在广泛预训练的 2D 基础模型中的丰富先验知识来弥补这种稀缺性。为了有效地将 2D 知识转移到 3D 中，DetAny3D 整合了两个核心模块：2D Aggregator，用于对齐来自不同 2D 基础模型的特征，以及具有零嵌入映射的 3D 解释器，用于减少 2D 到 3D 知识转移中的灾难性遗忘。实验结果验证了DetAny3D 的强泛化性，它不仅在看不见的类别和新颖的相机配置上实现了最先进的性能，而且在域内数据方面也超越了大多数竞争对手。DetAny3D 阐明了 3D 基础模型在实际场景中各种应用的潜力，例如自动驾驶中的稀有物体检测，并展示了在开放世界环境中进一步探索以 3D 为中心的任务的前景。

二资源

文章：Detect Anything 3D in the Wild

代码：https://github.com/OpenDriveLab/DetAny3D

日期：2025年

三内容

1）摘要

2）创新点

①开发了 DetAny3D，这是一种可提示的 3D 检测基础模型，能够在现实世界场景中使用任意单目输入检测任何 3D 对象。

②DetAny3D 引入了 2D Aggregator，以有效地融合两个 2D 基础模型 SAM 和深度预训练 DINO 的特征，它分别为各种对象提供枢轴形状和 3D 几何先验。

③在 2D 到 3D 知识转移中，DetAny3D 在 3D Interpreter 中涉及零嵌入映射，以解决灾难性的遗忘困境，使模型能够在具有不同相机参数、不同场景和不同深度分布的数据集之间稳定训练。

④实验结果表明 DetAny3D 具有显著优势，特别是在零镜头设置中使用任意相机参数准确检测看不见的 3D 对象，展示了其在广泛的实际应用中的潜力。

3）算法结构

如上图（a）所示，DetAny3D 采用单目 RGB 图像和提示（例如，框、点、文本、内部函数）作为输入。框、点和文本提示用于指定对象，而内部提示是可选的。如果未提供，模型将预测固有参数和相应的 3D 检测结果。如果 intrinsic 可用，模型可以将它们用作几何约束，以减轻单目深度估计的病态性质并校准其检测结果。

具体来说，单目图像由两个基础模型并行嵌入：SAM用于低级像素信息，支撑着整个可提示架构。而深度预训练的 DINO 提供了丰富的高级几何知识，在与深度相关的任务中表现出色。然后，这些互补的 2D 特征通过我们提出的 2D 聚合器（参见图（b））进行融合，它使用交叉注意力层对低级和高级信息进行分层对齐。融合的特征随后被传递到深度/摄像头模块，该模块提取摄像头和摄像头感知深度嵌入，统称为几何嵌入。

然后，几何嵌入和带有编码提示标记的 3D 边界框标记被馈送到 3D 解释器中（参见图（c）），它采用类似于 SAM 解码器的结构以及专门的零嵌入映射（ZEM）机制。3D Interpreter 注入 3D 几何特征，同时防止 2D 到 3D 知识传递中的灾难性遗忘困境，实现渐进式 3D Grounding。最后，该模型根据 3D 包围盒标记的隐藏状态预测 3D 包围盒。DetAny3D 在选定的可见类上进行训练，可以零镜头方式检测任何不可见的类。

A 2D Aggregator

为了有效地融合多个基础模型，我们提出了 2D Aggregator 来聚合来自 SAM 和 DINO 的特征，从而减少它们异构表示之间的潜在冲突。如上图（b）所示，2D Aggregator 以分层方式融合 SAM 和 DINO 的特征，逐步集成四个级联对齐单元的空间和几何信息。

特征提取：给定输入图像，SAM 编码器提取高分辨率空间特征 Fs ∈ R Hs×Ws×C ，捕获精细的细节和边界。同时，DINO 编码器输出几何感知嵌入 Fd ∈ R Hd×Wd×C ，它由 Unidepth 进行深度预训练，并为深度和内部函数提供稳健的先验。遵循 ViT 适配器的设计，还采用卷积结构来产生初步的图像特征，表示为 F 0 q ，作为后续基于注意力的融合的初始查询。

分级融合：四个对准单元中的每一个都通过交叉注意融合 SAM 和 DINO 功能。在第 i 个单元中，首先应用可学习的门控权重 αi（初始化为 0.5）来组合 SAM 特征 F i s 和 DINO 特征 F i d 的第 i 个块，如下所示：

使用 F_i_fused作为键和值，而查询特征 F_i−1_q 在交叉注意力机制中充当查询：

这种设计使模型能够在不同的层次结构级别动态强调 SAM 的空间细节或 DINO 的语义和几何线索，同时最大限度地减少两种表示之间的干扰。

几何编码：融合特征 Fˆi 融合的 i ∈ [1， 2， 3， 4] 随后由深度和相机模块处理，遵循 Unidepth 架构。具体来说，这些模块预测相机嵌入 C 和相机感知深度嵌入 D|C，称为几何嵌入 G = {D|C， C}。这些模块在单目深度病态问题下提供对齐的深度和相机参数。

总体而言，通过逐步调整多尺度特征并自适应地集成它们的贡献，2D Aggregator 有效地利用了两种基础模型的优势，同时最大限度地减少了潜在的冲突。

B 3D Interpreter

跨各种场景、深度和相机内部函数的不同 3D 对象监督给模型训练带来了挑战。文章的 3D 解释器旨在逐步整合几何信息，同时防止 2D 到 3D 知识转移中的灾难性遗忘。引入了零嵌入映射（ZEM）机制，该机制通过零初始化层将 3D 几何图形逐步注入解码器，而不会中断原始 2D 特征。如上图（c）所示，3D 解释器由三个主要组件组成：Two-Way Transformer、Geometric Transformer 和 3D 边界框头。

Two-Way Transformer：按照 SAM 设计，我们首先将 3D 边界框标记与 promptrelated 标记连接起来，形成查询：

其中 T3D，i 表示第 i 个对象的 3D 边界框标记，Tp，i 是与提示相关的标记，[·; ·] 表示向量连接。SAM 编码器输出 Fs 用作第一个 Two-Way Transformer 层的键和值，得到：

使用预先训练的 SAM 解码器复制 two-way transformer 的初始化参数。

Geometric Transformer：然后，我们零初始化的 1 × 1 卷积层 ZEM 处理几何嵌入 G（来自 2D 聚合器），并将其添加到 Fs 中，用作几何转换器中的键和值：

ZEM 集成了几何嵌入，避免了 2D 特征中的灾难性遗忘。接下来，G′ 再次通过 ZEM 并与 F ′ s 结合。这种丰富的表示形式在第二个 Two-Way Transformer 图层中用作键和值，以生成对象特征 O ：

ZEM 还有助于稳定双向和几何Transformer训练中的参数更新，防止因不同的 3D 对象监控而引起的冲突。

3D Bounding Box Heads：最后，O 被输入到 3D 边界框头中以计算最终预测，这遵循标准 3D 检测框架的典型架构：B3D（x， y， z， w， h， l， R， S ）其中 x， y， z 指定 3D 框中心，w， h， l 是其维度，R 是旋转矩阵， S 是预测的 3D 交交并比（IoU）分数。

4）实验

A Dataset

DA3D Benchmark。我们推出了 DA3D，这是一个统一的 3D 检测数据集，它聚合了 16 个不同的数据集，用于 3D 检测和深度估计。在 Omni3D 的原始数据集（Hypersim、ARKitScenes、Objectron、SUNRGBD、KITTI 和 nuScenes）的基础上，整合了另外四个室外检测数据集（Argoverse2、A2D2、Waymo、Cityscapes3D）、一个室内检测数据集（3RScan）和五个深度和内参数据集（Scannet、Taskonomy、DrivingStereo、Middlebury、 IBIMS-1）。所有数据都使用单目图像、相机内参数、3D 边界框和深度图进行标准化。

B Baseline

Cube R-CNN和OVMono3D

C 未见类别推理

在本实验中，使用两个来源进行提示输入：由 Grounding DINO 处理的文本提示和来自 groundtruth 2D 边界框的框提示。在 KITTI、SUNRGBD 和 ARKitScenes 数据集上评估了模型，这些数据集具有与 OVMono3D 相同的零镜头类别。如下表（左）所示，与 OVMono3D 基线相比，DetAny3D 表现出卓越的零镜头适应性能。当使用 Grounding DINO 进行文本提示输入时，文章方法在目标感知度量下实现了 KITTI 上 21.02 AP3D 、SUNRGBD 上 4.29 AP3D 和 ARKitScenes 上 11.35 AP3D 的显著改进。当使用 2D 真实值作为框提示输入时，DetAny3D 在 KITTI 上获得 28.96 AP3D，在 SUNRGBD 上获得 39.09 AP3D，在 ARKitScenes 上获得 57.72 AP3D，分别比基线高出 3.4×、2.3× 和 4.1×。这种巨大的性能差距凸显了文章方法推广到新对象类别的增强能力。

D 新相机推理

为了评估新相机参数的鲁棒性，进行了跨数据集评估，如上表（右）所示。对于 Cityscapes3D 和 Waymo，使用 Cube R-CNN 的 2D 检测和地面实况作为框提示和 Grounding DINO 处理的文本提示进行比较。对于 3RScan，由于命名空间与 Cube R-CNN 的预定义类别不一致，并且存在新颖的类，只使用文本提示和真实框提示，与 OVMono3D 进行基准测试。DetAny3D 对未见相机配置表现出很强的适应性。当使用 Cube RCNN 对齐提示时，文章模型在 Cityscapes3D 和 Waymo 上分别获得了 10.33 和 15.17 的 AP3D 分数，比 Cube R-CNN 高出 2.11 和 5.74。通过文本提示，在与 OVMono3D相同的设置下，文章方法在目标感知指标下将 AP3D 在 Cityscapes3D 上提高了 4.73 分，在 Waymo 上提高了 5.68 分，在 3RScan 上提高了 1.1 分。由于严重的命名歧义和缺失注释，这两个模型在 3RScan 的常规指标上都显示得分较低。使用 2D 真实值作为框提示，DetAny3D 在三个数据集中获得了 16.88、15.83 和 21.36 的 AP3D，分别比 OVMono3D 高出 6.82、5.6 和 3.31。这些结果突出了文章模型架构的有效性及其在具有任意相机配置的实际应用中的潜力。

E 域内检测能力

还使用两个提示源评估模型的域内检测能力：来自 Cube R-CNN 的 2D 检测和 2D 地面实况。除了统一模型之外，作者还在 Omni3D 上训练模型以进行比较。如上表所示，当提供对齐输入时，DetAny3D 使用 Cube R-CNN 获得了有竞争力的检测结果。此外，当使用 GT 作为 2D 提示时，DetAny3D 的性能明显优于 OVMono3D，在 Omni3D 上的整体 AP3D 提高了 9.06。这种性能差距表明，当 Cube R-CNN 用作 2D 输入时，Cube R-CNN 的限制部分限制了文章模型的性能。通过匹配更强的 2D 提示，文章模型有可能获得更高的性能。

提供了来自开放世界检测的定性示例。在每对图像中，顶行由 OVMono3D 生成，底行由 DetAny3D 生成。对于每个示例，左侧的子图覆盖了投影的 3D 边界框，而右侧的子图显示了相应的鸟瞰图，背景为 1m×1m。

F 消融实验

如上表所示，对 DetAny3D 的关键组件进行了消融研究，说明了从基于普通 SAM 的基线到能够提取可推广 3D 特征的成熟 DetAny3D 的演变。基本模型通过引入 3D 框标记和 3D 预测头来扩展 SAM，从而实现直接 3D 边界框估计。其他消融，包括 backbone 选择和 prompt 类型。

5）结论

提出了 DetAny3D，这是一种可提示的 3D 检测基础模型，可以从任何单目图像输入中检测任意 3D 对象。DetAny3D 在不同领域表现出显著的零镜头检测能力，以及在各种任务中有效的零镜头传输，突出了其在动态和非结构化环境中实际部署的适用性。此外，其灵活而强大的检测能力为收集大规模、多源数据以执行更多 3D 感知引导任务打开了大门，为开放世界系统铺平了道路。