论文题目:Visual Point Cloud Forecasting enables Scalable Autonomous Driving(视觉点云预测实现可扩展的自动驾驶)

会议:CVPR2024

摘要:与对通用视觉的广泛研究相比,可扩展视觉自动驾驶的预训练很少被探索。视觉自动驾驶应用需要同时包含语义、3D几何和时间信息的功能,以进行联合感知、预测和规划,这对预训练提出了巨大的挑战。为了解决这个问题,我们提出了一种新的预训练任务,称为视觉点云预测-从历史视觉输入预测未来的点云。该任务的关键优点是捕获语义,3D结构和时间动态的协同学习。因此,它在各种下游任务中显示出优势。为了解决这个新问题,我们提出了一种通用的预训练下游视觉编码器的模型ViDAR。它首先通过编码器提取历史嵌入。然后通过一种新的潜在渲染算子将这些表示转换为3D几何空间,用于未来的点云预测。实验表明,在下游任务中有显著的增益,例如,3D检测的NDS降低3.1%,运动预测的误差降低~ 10%,规划的碰撞率降低~ 15%。

源码链接:https://github.com/OpenDriveLab/ViDAR


前言

自动驾驶技术正在快速发展,但面临着一个关键挑战:如何在减少对昂贵3D标注依赖的同时,训练出既能感知环境、又能预测未来、还能做出安全规划决策的智能系统?

背景:自动驾驶预训练的困境

现有方法的局限性

在计算机视觉领域,预训练已经取得了巨大成功,但在视觉自动驾驶领域却面临独特挑战:

  1. 多维度需求:自动驾驶系统需要同时理解语义信息(这是什么)、3D几何结构(在哪里)和时序动态(如何运动)
  2. 数据标注昂贵:3D边界框、占用网格、轨迹等标注成本极高,难以大规模获取
  3. 时序建模缺失:现有预训练方法如深度估计仅处理单帧,缺乏时序信息

传统预训练方法对比

方法多视图几何时序建模标注需求
深度估计中等
场景渲染中等
ViDAR极低

ViDAR:创新的解决方案

核心思想:视觉点云预测

ViDAR的核心创新在于提出了一个全新的预训练任务——视觉点云预测

给定历史的多视图图像序列,预测未来的3D点云

这个看似简单的任务实际上非常巧妙:

  • 语义理解:需要识别场景中的物体和结构
  • 3D几何建模:需要理解物体的三维空间关系
  • 时序动态学习:需要建模物体的运动模式

系统架构详解

ViDAR包含三个核心组件:

1. History Encoder(历史编码器)
  • 这是预训练的目标结构
  • 可以是任何视觉BEV编码器(如BEVFormer)
  • 将多视图图像序列编码为BEV特征
2. Latent Rendering(潜在渲染算子)

这是ViDAR最关键的创新组件,解决了一个重要问题:

问题:直接使用可微光线投射会导致"射线形状特征"——同一射线上的网格趋向于学习相似特征,缺乏判别性。

解决方案

特征期望函数:F̂(i) = Σ p̂(i,k) * F(k)_bev
几何特征计算:F̂_bev = p̂ · F̂

通过条件概率函数为每个网格分配权重,确保学习到有判别性的几何特征。

3. Future Decoder(未来解码器)

  • 基于Transformer的自回归架构
  • 包含时序交叉注意力机制
  • 处理自车运动导致的坐标系变化

技术深度解析

Latent Rendering的数学原理

传统的可微光线投射使用以下公式:

条件概率:p̂(i,j) = (∏(1-p(i,k))) * p(i,j)  [k=1到j-1]
距离期望:λ̂(i) = Σ p̂(i,j) * λ(j)

ViDAR的创新在于在潜在空间中进行类似操作:

特征期望:F̂(i) = Σ p̂(i,k) * F(k)_bev
权重分配:F̂_bev = p̂ · F̂

这种设计使得模型能够:

  1. 避免射线形状特征问题
  2. 学习更有判别性的几何表示
  3. 保持3D结构的一致性

多组并行设计

为了增强特征多样性,ViDAR采用了多组并行的Latent Rendering:

  • 将256维特征分为16组,每组16维
  • 每组独立进行潜在渲染
  • 最后拼接得到完整的几何特征

实验表明,随着组数增加,性能持续提升:

组数124816
NDS39.1843.3645.5347.0147.58

实验结果:全面的性能提升

点云预测能力

ViDAR在点云预测任务上显著超越现有方法:

时间范围4D-Occ (LiDAR)ViDAR (视觉)改进
1s预测1.88 m²1.25 m²-33%
3s预测2.11 m²1.73 m²-18%

令人惊喜的是,仅使用视觉输入的ViDAR竟然超越了使用LiDAR的方法!

下游任务全面提升

ViDAR在所有自动驾驶任务上都带来了显著提升:

感知任务
  • 3D目标检测:NDS提升3.1%,mAP提升4.3%
  • 语义占用预测:mIoU提升5.2%
  • 地图分割:lane IoU提升1.9%
  • 多目标跟踪:AMOTA提升6.1%
预测任务
  • 运动预测:minADE减少10.7%,minFDE减少8.3%
  • 未来占用预测:近距离VPQ提升2.7%,远距离VPQ提升2.5%
规划任务
  • 碰撞率:降低14.8%
  • 规划精度:L2误差减少18.8%

数据效率革命

ViDAR最令人印象深刻的优势在于大幅减少了对标注数据的依赖:

  • 使用一半监督数据,ViDAR预训练的模型仍能超越全监督基线1.7% mAP
  • 随着可用标注减少,ViDAR的优势越来越明显
  • 在1/8数据量时,性能提升达到7.3% mAP

这意味着通过ViDAR,我们可以用一半的标注数据达到更好的性能

技术亮点与创新

1. 统一的预训练范式

ViDAR首次提出了能够同时提升感知、预测和规划的统一预训练方法,这是端到端自动驾驶的重要突破。

2. 几何感知的特征学习

通过Latent Rendering,ViDAR学习到的特征具有更强的3D几何感知能力,这对自动驾驶至关重要。

3. 可扩展的数据利用

仅需Image-LiDAR序列,无需精确标注,使得大规模预训练成为可能。

4. 即插即用的架构

ViDAR可以与任何BEV编码器结合,具有良好的通用性。

实际应用价值

产业影响

  1. 降低开发成本:减少对昂贵3D标注的依赖
  2. 加速模型训练:提供更好的初始化权重
  3. 提升系统性能:在所有关键任务上都有显著提升

研究意义

  1. 新的预训练范式:为视觉自动驾驶提供了新的研究方向
  2. 理论创新:Latent Rendering为3D视觉任务提供了新的技术路径
  3. 基准设定:为未来相关研究提供了强基线

局限性与未来方向

当前局限

  1. 数据规模:主要在nuScenes数据集上验证,规模相对有限
  2. 计算复杂度:多组Latent Rendering增加了计算开销
  3. 泛化能力:跨数据集的泛化能力有待进一步验证

未来发展

研究团队计划:

  1. 扩大预训练数据规模
  2. 研究跨数据集的视觉点云预测
  3. 构建视觉自动驾驶的基础模型

总结:迈向可扩展的自动驾驶

ViDAR代表了视觉自动驾驶预训练的重大进步。通过巧妙的任务设计和技术创新,它解决了长期困扰该领域的核心问题:

统一建模:同时处理语义、几何和时序信息
数据高效:大幅减少对标注数据的依赖
性能优异:在所有关键任务上都有显著提升
可扩展性:为大规模预训练奠定基础

随着自动驾驶技术的快速发展,ViDAR这样的创新方法将为构建更安全、更智能的自动驾驶系统提供强有力的技术支撑。我们有理由相信,这一研究将推动整个行业向着更加成熟和实用的方向发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/96010.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/96010.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/96010.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Unity Shader入门精要》学习笔记二

1、基础光照(1)看世界的光模拟真实的光照环境来生成一张图像,需要考虑3种物理现象。光线从光源中被发射出来。光线和场景中的一些物体相交:一些光线被物体吸收了,而另一些光线被散射到其他方向摄像机吸收了一些光&…

Windchill 11.0使用枚举类型自定义实用程序实现生命周期状态管理

一、Enumerated Type Customization Utility 枚举类型自定义实用程序,可用于添加或编辑枚举类型的值,在Windchill 12.0+中可直接在类型和属性管理中编辑,如下图所示,而在Windchill 11.0中只能通过windchill shell启动程序,下面将详细介绍Windchill 11.0中启动并使用枚举类…

UGUI源码剖析(10):总结——基于源码分析的UGUI设计原则与性能优化策略

UGUI源码剖析(第十章):总结——基于源码分析的UGUI设计原则与性能优化策略 本系列文章对UGUI的核心组件与系统进行了深入的源代码级分析。本章旨在对前述内容进行系统性总结,提炼出UGUI框架最核心的设计原则,并基于这些…

STM32N6引入NPU,为边缘AI插上“隐形的翅膀”

2025年的春天格外特别。伴随着人形机器人、DeepSeek的强势刷屏,AI成了最有前景的赛道。万物皆可AI,万物也在寻觅用上AI或者让AI“转正”的“aha moment”。 帮助机器更好地“思考”,让更多的AI走向边缘,是AI发展的重要趋势之一。…

演练:使用VB开发多智能体协作的荣格八维分析器

在大语言模型高速发展的时代,我们面对困难的语义分析任务,通过构建智能体进行处理是一个流行趋势。本文将介绍如何使用 Visual Basic .NET 开发一个多智能体协作系统,用于分析聊天记录中特定人物的荣格八维人格类型。 本文使用 CC-BY-NC-SA …

llamafactory使用qlora训练

llamafactory使用qlora训练 1.环境搭建 conda create -n qlora python3.10 -y conda activate qlora# 克隆LLaMA-Factory仓库 git clone https://github.com/hiyouga/LLaMA-Factory.git# 进入仓库目录 cd LLaMA-Factory# 切换到0.9.4版本 git checkout v0.9.4pip install -e .2…

模型微调/量化技术整理

一、模型微调技术1.模型微调简介大模型微调(Fine-tuning),是指在已经预训练好的大语言模型基础上(基座模型),使用特定的数据集进行进一步训练,让模型适应特定任务或领域。通常LLM的预训练是无监督的,但微调…

实践笔记-VSCode与IDE同步问题解决指南;程序总是进入中断服务程序。

一、VSCode 修改文件后,IDE 未同步如果你在 VSCode 中异步修改了项目文件内容,但 S32DS 或 Keil(等集成开发环境)中的项目没有同步更新,有两个解决方法:检查文件是否已保存:确保 VSCode 中修改的…

C#WPF实战出真汁04--登录功能实现

1、登录功能实现要点对于登录系统,应该注意几个要点:用户认证流程设计,密码存储与验证,会话管理,防暴力破解措施,错误处理与提示2、登录功能的视图模型首先在xaml文件中必须指定该页面使用的视图模型&#…

鸿蒙入门简化版

第一步: 首先下载DEVStudio https://developer.huawei.com/consumer/cn/deveco-studio/ 第二步: 了解基本的ArkTs语言 https://developer.huawei.com/consumer/cn/doc/harmonyos-guides/introduction-to-arkts 第三步 : 教学视频有两个途径&a…

day25|学习前端js

函数声明,被提升(hoisting)。函数表达式必须先定义才能用。对象解构,按属性名数组解构按顺序点运算符. 对象.属性名哪些可迭代(可以被for..of循环的东西):array,string,m…

quic协议与应用开发

quic为什么出现?quic主要是为了解决TCP协议的局限性而提出的,具体来说是要解决如下问题:1. 加密连接建立时间长TCP协议是传输层协议,而TLS是会话层协议,在Linux等主流操作系统中TCP在内核实现而TLS一般在用户态实现&am…

【浅学】tflite-micro + ESP32S3 + VScode + ESP-IDF 基于例程快速实现自己的图像分类模型训练部署全流程

如果你用Pytorch训练的模型那么可以参考我的步骤,使用的是Tensorflow的话参考官方文档即可,但流程都是一样的,每一步我都会提到部分操作细节及注意事项 官方教程 要详细学习的话tflite-micro里的微控制器章节下都详细看(页面左侧…

【HarmonyOS】应用设置全屏和安全区域详解

【HarmonyOS】应用设置全屏和安全区域详解 一、前言 IDE创建的鸿蒙应用,默认采取组件安全区布局方案。顶部会预留状态栏区域,底部会预留导航条区域。这就是所谓的安全区域。 如果不处理,界面效果很割裂。所以业内UI交互设计,都会设…

openfeign 只有接口如何创建bean的

OpenFeign 能够为纯接口创建 Spring Bean,其核心机制是通过动态代理和 Spring 的 FactoryBean 机制实现的。以下是详细的工作原理:1. EnableFeignClients 注解的启动在 Spring Boot 主类上添加 EnableFeignClients 注解:SpringBootApplicatio…

【展厅多媒体】互动地砖屏怎么提升展厅互动感的?

在数字化展厅设计中,互动地砖屏 正成为提升观众参与度的重要工具。这种融合视觉科技与交互体验的装置,通过动态影像与即时反馈,让参观者从被动观看转变为主动探索,从而大幅增强展厅的互动感。 Led地面互动屏的优势在于其强大的视…

AI赋能电力巡检:变压器漏油智能检测系统全解析

🔥 AI赋能电力巡检:变压器漏油智能检测系统全解析 📖 前言 在电力系统的日常运维中,变压器作为核心设备,其安全运行直接关系到整个电网的稳定性。传统的人工巡检方式不仅效率低下,还存在安全隐患和漏检风险…

GitHub上值得Star的计算机视觉项目

GitHub上值得Star的计算机视觉项目 前言 一、OpenCV:计算机视觉领域的瑞士军刀 1.1 项目简介 1.2 核心功能与技术特点 1.3 代码示例 二、YOLO 系列:实时目标检测的领导者 2.1 项目简介 2.2 核心功能与技术特点 2.3 代码示例 三、Detectron2:Facebook AI Research 的目标检测…

【深度学习】pytorch深度学习框架的环境配置

文章目录1. 配置cuda环境2. 配置conda环境3. 配置pytorch gpu环境1. 配置cuda环境 在命令行输入以下命令可以查看当前显卡驱动版本和最高支持的cuda版本 nvidia-smi根据cuda版本去官网下载并安装cuda 下载链接:https://developer.nvidia.com/cuda-toolkit-archive…

数据处理与统计分析 —— 房源数据集分析案例

数据集网盘下载: 链接:https://pan.quark.cn/s/0e577858dba3?pwdFJnb 提取码:FJnb代码仅供参考具体可打开ipynb文件进行学习和练习:链接:https://pan.quark.cn/s/8efbe3061fad?pwdT47B 提取码:T47Bimport…