【导读】

单目 3D 目标检测是计算机视觉领域的热门研究方向,但如何在真实复杂场景中识别“未见过”的物体,一直是个难题。本文介绍的 3D-MOOD 框架,首次提出端到端的开集单目 3D 检测方案,并在多个数据集上刷新了 SOTA。

目录

一、研究背景

二、3D-MOOD 方法

规范图像空间 (Canonical Image Space)

几何感知的3D查询生成 (Geometry-Aware 3D Query Generation)

三、实验与结果

开集实验

跨领域实验

消融实验

总结


近年来,三维目标检测在自动驾驶、机器人和 AR/VR 等应用中扮演着越来越重要的角色。相比多摄像头或激光雷达,单目方案更具成本优势和部署灵活性,因此备受关注。然而,现有方法普遍基于“闭集设定”——训练和测试数据共享相同的类别与场景。这一假设在现实中显然过于理想化。试想,一个自动驾驶系统若只能识别训练中见过的车辆和行人,而无法应对新环境中的未知物体,那它的实用性必然大打折扣。

这正是 3D-MOOD 想要解决的问题。研究者提出了一种全新的端到端框架,能够在保持单目检测优势的同时,突破闭集限制,将 二维检测结果提升至三维空间,并通过几何先验与规范化设计,使模型能够在完全陌生的场景和类别中依然稳健工作。

screenshot_2025-09-02_15-50-57.png


一、研究背景

传统单目 3D 检测方法虽然在 Omni3D 等大规模基准上取得了不错的成绩,但仍停留在特定类别和特定场景的优化,缺乏对未知类别的适应性。

为了打破这一局限,研究者们提出了 开放集3D检测 的概念,要求模型不仅能检测已知类别,还要能泛化到任意未知类别。这对于构建更智能、更通用的3D感知系统至关重要。然而,这一任务极具挑战性,因为它要求模型:

  • 开放词汇识别:能够理解自然语言描述,识别任意对象。

  • 精确3D定位:在缺乏直接深度信息的情况下,从单张2D图像中准确推断出物体的3D边界框(包括位置、尺寸和方向)。

  • 跨场景泛化:在多样的室内外场景中保持稳健性能。

为此,一些工作尝试借助大规模视觉语言模型生成伪标注来拓展类别空间,但受限于不能端到端训练,性能依旧有限。3D-MOOD 的出现为这一难题提供了新思路:它不再依赖繁琐的伪标注流程,而是直接设计出一个可以 端到端训练的开集单目 3D 检测器,真正意义上推动了单目检测向开放世界应用迈进。

在Coovally平台上包括多模态3D检测、目标追踪、目标检测、文字识别、实例分割、关键点检测等全新任务类型。

模型数据集.GIF

!!点击下方链接,立即体验Coovally!!

平台链接:https://www.coovally.com

平台汇聚国内外开源社区超1000+热门模型,覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成300+公开数据集,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!

IMG_2734.GIF


二、3D-MOOD 方法

3D-MOOD 的核心思想是 “从 2D 到 3D 的提升”。研究者在强大的开集 2D 检测模型 G-DINO 的基础上,设计了一个 3D Bounding Box Head,用来预测物体的三维中心、深度、尺寸和旋转,将二维检测框自然地扩展为三维框。

与此同时,论文还提出了两个关键模块来增强泛化能力。其一是 Canonical Image Space,通过对图像分辨率和相机内参的规范化,使训练和测试在不同数据集间保持一致,避免了常见的跨域退化。其二是 Geometry-aware 3D Query Generation,利用相机参数和深度特征生成几何感知的查询,显著提升了在陌生场景下的表现。此外,模型还配备了 辅助深度估计头,进一步增强了对三维几何的理解。

screenshot_2025-09-02_15-51-58.png

  • 规范图像空间 (Canonical Image Space)

范图像空间 (Canonical Image Space)在单目3D检测中,相机内参(如焦距)对于从2D像素坐标推断3D空间位置至关重要。然而,在训练和推理过程中,输入图像通常会经过缩放和填充(resizing and padding)以适应网络输入尺寸,这会隐式地改变相机内参,导致3D定位不准确。

为解决此问题,3D-MOOD引入了 规范图像空间(Canonical Image Space, CI)。其思想是在预处理图像的同时,对相机内参进行相应的、显式的变换,从而将不同分辨率、不同焦距的图像统一到一个标准化的坐标空间中。这使得模型能够学习到一种与原始图像尺寸和相机参数无关的、更具泛化性的几何表示。

screenshot_2025-09-02_15-52-38.png

如上图所示,传统方法(左侧)在图像缩放后并未调整相机内参,导致几何信息不一致。而3D-MOOD提出的CI(右侧)通过同步调整内参,确保了3D几何投影的一致性。实验证明,这种方法不仅提升了精度,还因其高效的批处理能力降低了训练时的GPU内存消耗。

screenshot_2025-09-02_15-53-21.png

  • 几何感知的3D查询生成 (Geometry-Aware 3D Query Generation)

现代检测器(如DETR系列)通常使用一组可学习的“查询”(queries)来代表潜在的物体。如何初始化这些查询对于模型的性能至关重要。在3D检测中,理想的查询应包含场景的几何先验信息。

3D-MOOD提出了一种几何感知的3D查询生成(Geometry-Aware 3D Query Generation, GA)机制。它首先利用一个轻量级的深度估计头(auxiliary depth estimation head)预测出粗略的深度图,然后将图像特征与这个深度图结合,生成一组与场景几何结构紧密相关的3D查询。这些查询能够更有效地聚焦于场景中可能存在物体的区域,从而加速模型收敛并提升检测精度。与之前方法(如Cube R-CNN中的虚拟深度)相比,GA机制被证明能取得更好的收敛效果。

screenshot_2025-09-02_15-53-52.png


三、实验与结果

  • 开集实验

为了验证方法的有效性,作者在 Omni3D 上进行了训练,并在 Argoverse 2(室外自动驾驶场景) 和 ScanNet(室内场景) 上开展了开集测试。

screenshot_2025-09-02_15-55-38.png

screenshot_2025-09-02_15-57-23.png

结果显示,3D-MOOD 在新类别和新环境中均大幅超越了 Cube R-CNN 和 OVM3D-Det 等基线方法,证明其在开集检测中的显著优势。

  • 跨领域实验

在跨域实验中,3D-MOOD 在不同数据集间实现了更强的迁移能力,优于 Uni-MODE 等统一模型;在闭集设定下,它同样在 Omni3D 上刷新了 SOTA,说明方法不仅适用于开放场景,在标准评测中也具备领先性能。

screenshot_2025-09-02_15-58-08.png

screenshot_2025-09-02_15-57-51.png

  • 消融实验

进一步的消融实验则表明,Canonical Image Space、辅助深度估计与几何感知查询生成模块均对性能提升有所贡献,尤其是几何感知查询,在开集场景中的作用尤为明显。

screenshot_2025-09-02_15-59-41.png


总结

3D-MOOD 的提出,首次将 单目 3D 检测从闭集扩展到开集,并通过端到端设计解决了跨场景与新类别检测的难题。它不仅在多个数据集上刷新了 SOTA,还为未来的三维感知研究打开了新的方向。随着更多跨模态学习和大规模数据的加入,类似 3D-MOOD 的方法有望进一步提升开放世界下的三维理解能力,推动其在自动驾驶、机器人等领域的实际落地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/98233.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/98233.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/98233.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python爬虫数据清洗实战:从杂乱无章到整洁可用

小伙伴们,做爬虫最头疼的不是抓数据,而是抓回来那一堆乱七八糟的内容!价格里混着符号、日期格式千奇百怪、还有重复和缺失的值,看着就头大。别慌,咱们用Python几招就能搞定。Pandas处理表格数据是真香,正则…

打工人日报#20250906

打工人日报#20250906 周六了! 今天出门读者特别痛,本来都想爽约了,不过忍下来了了,现在看来很值得! 不过还是要好好吃早餐、和热水! 阅读 《小米创业思考》 第一章 奇迹时代 看完了 就是快呀 好的产品 好的…

小型磨床设计cad+三维图+设计说明书

摘 要 随着现代加工技术的发展,各种各样的加工技术得到了广泛的应用,磨床在机械制造领域得到了广泛的应用,本文经过查阅相关文献,完成了一种小型磨床的结构设计。 本文设计的小型磨床其主要是由三部分组成的,第一部分…

音响皇帝BO,牵手全球第一AR眼镜雷鸟,耳机党坐不住了?

【潮汐商业评论/原创】自AI大模型技术实现突破以来,即引发一场终端革命,关于下一个智能终端入口,或者说关于下一代计算平台,市场有过很多“狼来了”的声音,大家纷纷猜测,在智能手机之后,究竟谁有…

中断和异常

中断和异常简介 在计算机体系结构和操作系统中,中断(Interrupt) 和 异常(Exception) 是CPU应对突发事件、实现多任务并发和错误处理的核心机制。二者均通过暂停当前任务、转去执行特定处理程序来响应事件,但…

Fab资源快速导入UE

有时候在Epic启动器导入进度会卡住可以直接使用ue内置Fab来导入资源 这样是百分百能导入的

Python错误测试与调试——文档测试

Doctest 通过解析文档字符串(docstring)中的交互式 Python 代码片段(以 >>>开头)进行测试,验证代码输出是否与预期一致。测试用例直接嵌入代码中,实现“文档即测试”核心语法:def func…

c#核心笔记

111,面向对象 1,面向过程编程:是一种以过程为中心的编程思想分析出解决问题所需要的步骤然后用函数把步骤一步一步实现使用的时候,一个一个依次调用。 2,面向对象编程:面向对象是一种对现实世界理解和抽象的…

【MySQL】从零开始了解数据库开发 --- 初步认识数据库

永远记住,你的存在是有意义的, 你很重要, 你是被爱着的, 而且你为这个世界带来了无可取代的东西。 -- 麦克西 《男孩、鼹鼠、狐狸和马》-- 从零开始了解数据库开发安装MySQL什么是数据库常见主流数据库初步了解SQL语句存储引擎安装…

Altium Designer(AD24)切换工作界面为浅灰色的方法

🏡《专栏目录》 目录 1,概述 2,界面介绍 1,概述 本文演示AD24软件黑色界面切换为浅灰色的方法。 2,界面介绍 第1步:点击设置小图标,然后点击View 第2步:在UI Theme,点击Current旁边的Altium Dark Gtay ,在下拉选项中选择Altium Light Gtay,然后点击OK确认 第4步…

SDRAM详细分析—07 存储器阵列寻址

大家好,这里是大话硬件 这篇文章将分析实际SDRAM内部是如何进行寻址以及内存单元分布方式。 根据前面的内容,从小容量到大容量进行迭代分析。 1. 1bit容量 这个存储单元只能存储1个bit位。假设现在需要8bit内存容量颗粒,则需要8颗这样的存储器件。 2. 4bit容量 这个存储…

【GitOps】Argo CD高级操作钩子

Argo CD高级操作钩子 文章目录Argo CD高级操作钩子资源列表一、Argo CD钩子1.1、钩子介绍1.2、构建的几个执行阶段1.3、钩子删除策略1.4、示例二、钩子演示2.1、创建GitLab公共仓库2.2、Argo CD创建Application2.3、同步(SYNC)资源列表 操作系统配置主机…

谙流 ASK 技术解析(一):秒级扩容

谙流 ASK 是谙流团队自主研发的国产新一代云原生流平台,与 Apache Kafka 100% 协议兼容,全栈自主可控,专注私有化部署与行业场景赋能。传统Kafka存储之殇IO模型缺陷每个分区对应独立文件,采用单分区异步批量顺序写机制。当多分区并…

从挑西瓜到树回归:用生活智慧理解机器学习算法

一、生活中的决策树:妈妈的挑瓜秘籍夏天的菜市场里,妈妈总能精准挑出最甜的西瓜。她的秘诀是一套简单的决策流程:先看色泽,青绿有光泽的优先;再敲一敲,声音沉闷的更可能熟;最后摸硬度&#xff0…

SpringBoot+PDF.js实现按需分片加载(包含可运行样例源码)

SpringBootPDF.js实现按需分片加载前言一、实现思路与实现效果1.1 pdf.js的分片加载的实现思路1.2 pdf分片加载的效果二、前端项目2.1 项目引入2.2 核心代码2.3 项目运行三、后端项目3.1 项目结构3.2 核心代码3.3 项目运行四、项目运行效果4.1 首次访问4.2 分片加载五、项目优化…

常见Bash脚本漏洞分析与防御

引言 在Unix/Linux系统中,Bash脚本因其简洁、高效而成为自动化任务、系统管理和快速原型开发的首选工具。然而,Bash的强大功能和其独特的语法特性,也为安全漏洞埋下了隐患。许多开发者在追求便捷性的过程中,无意间引入了命令注入、…

JAVA快速学习(二)

类与对象因为本质是写python的所以类与对象的概念就不赘述了,先看java中类与对象的创建方式public class Main {public static void main(String[] args) {Cat cat new Cat(); // Cat cat new Cat("zh",18); 这样直接不对,这样传参就需要写构造函数…

登录优化(双JWT+Redis)

流程 前端 → 后端 → 拦截器 → 限流 → AOP → Controller → 刷新 → 退出 前端登录并获取双 JWT 1、前端:用户在前端输入用户名和密码,调用 /auth/login 接口。 fetch("/auth/login", {method: "POST",headers: {"Content-Type": &quo…

【杂类】Spring 自动装配原理

这张图,​​正是理解现代 Spring Boot 自动配置的钥匙​​。它指出的 AutoConfiguration.imports 文件,是 Spring Boot 2.7 之后的新标准,比老式的 spring.factories 更简洁。咱们就从这个文件开始说。一、自动配置是啥?为啥需要它…

【CSS,DaisyUI】自定义选取内容的颜色主题

当你的网站使用了多个主题,比如 light/dark。当用户选择一段文本,常常会出现一个主题没问题,另一个主题颜色怪怪的。是因为选择区域的主题通常没有变化,导致与当前主题不配合。 下面四种方法可解决这个问题: The probl…