1. BEVDet4D算法动机及开创性思路
1)BEVDet算法概述
-
输入输出:输入为6视角图像(NuScenes数据集),输出为3D检测结果
-
核心模块:
- 图像编码器:由Backbone网络和多尺度特征融合网络组成,处理多视角图像
- 视角转换器:实现2D到3D的映射,生成Camera BEV特征
- BEV编码器:结构与图像编码器相似,但输入为BEV特征,输出任务特定特征
- 检测头:完成3D目标检测任务
-
细节优化:
- 过拟合问题:因BEV编码器输入特征量(单张BEV图)远小于图像编码器输入(6张原图),导致训练不均衡
- SMS优化:通过尺度缩放优化后处理模块性能
2)BEVDet4D算法动机
- 核心改进:在BEVDet基础上引入T-1、T、T+1等时序帧
- 输入变化:从单帧输入扩展为时序多帧输入
- 网络结构:保持BEVDet四大模块不变,新增时序特征处理模块
- 关键挑战:不同时刻BEV特征存在空间不对齐问题
- 示例说明:自车运动导致静止车辆在BEV空间中的相对位置变化
- 错误示范:直接相加会导致同一物体在多个位置重复出现
3)时序特征融合的挑战与对齐方法
-
对齐必要性:
- BEV空间以自车为坐标原点建立
- 自车运动导致历史帧BEV特征空间错位
-
解决方案:
- 两阶段处理:先做空间对齐(Align),再进行特征拼接(Concatenate)
- 数学原理:通过自车运动转换矩阵消除坐标偏差
2. BEVDet4D主体结构
1)核心思路与时序信息
- 时序价值:
- 提供车辆朝向、速度等运动先验
- 增强检测连续性(如历史轨迹预测当前状态)
- 实现路径:
- 各时刻独立生成BEV特征
- 通过对齐模块实现时空一致性
2)BEV特征获取与对齐
- 特征生成:
- 各时刻沿用BEVDet流程:图像编码→视角转换→BEV编码
- 对齐操作:
- 静态物体:通过自车运动补偿实现位置校正
- 动态物体:结合自身运动轨迹进行对齐
3)时序对齐模块详解
- 坐标系系统:
- Og:全局坐标系(世界坐标),比如经纬度坐标
- Oe:自车坐标系(ego vehicle), 以自车为原点
- Os:静止物体坐标系
- Om:运动物体坐标系
- 空间关系:
静止物体:全局坐标不变,自车运动导致相对位置变化
运动物体:全局坐标和相对位置均变化
如图中所示,如果直接把前后两帧concate起来,会导致同一个静态的物体出现在两个不同的位置。(图中第一行的示意图)
如果先对齐再concate,就不会有问题了。
4)对齐公式推导与理解
-
位置偏差公式:
-
关键推导:
引入自车运动转换矩阵
证明偏差主要来自自车运动
-
工程实现:
对历史帧BEV特征应用运动补偿矩阵
确保特征叠加时的空间一致性
5)BEVDet4D整体流程总结
- 标准流程:
- 各时刻独立生成BEV特征
- 通过Align模块对齐历史特征
- Concatenate融合时序特征
- BEV编码后送入检测头
- 创新要点:
- 首次在BEV框架中系统处理时序融合
- 提出基于运动补偿的特征对齐方案
- 保持基础网络结构不变的情况下提升性能
3. BEVDet4D损失函数
- 通用性:采用通用检测损失函数设计,未引入特殊创新
- 核心改进:关键在于特征对齐操作,解决时序融合时的空间不匹配问题
4. BEVDet4D性能对比
1)BEVDet4D训练环境与设置
- 硬件配置:使用8张NVIDIA 3090显卡
- 训练参数:Batch size:8(实际photo batch为64)
- 训练周期:20个epoch
- 性能优势:相比BEVFormer、DETR3D等模型,在轻量化版本和标准版本上均表现出竞争力
2)消融研究:基线与方法对比
- 基线模型:轻量化BEVDet(mAP 0.312)
- 直接级联问题:
- 方法A:直接级联多帧特征(无对齐)
- 性能下降:导致空间不匹配,mAP和NDS指标均降低
- 平移对齐:
- 方法T:仅考虑自车平移变化
- 效果:相比基线有轻微提升(0.312→0.315)
3)消融研究:对齐操作的影响
- 偏移量预测:
- 方法B→C:引入额外模块预测目标位置偏移量
- 改进方式:从speed预测变为offset预测
- 旋转对齐:
- 方法E→F:增加自车旋转量(R)对齐
- 效果提升:完整对齐(平移+旋转)带来显著性能增益
4)消融研究:额外模块与增广的影响
- 额外BEV编码器:
- 方法C→D:增加额外BEVEncoder(Extra)
- 功能:专门用于编码融合特征
- 权重调整:
- 方法D→E:损失权重从0.2调整到1.0
- 时序增广:
- 创新点:在时间维度进行采样跨度增广
- 作用:增强模型对历史BEV特征选择的鲁棒性
5)时序融合位置的讨论
- 融合位置选择:
- Extra BEVEncoder:独立编码融合特征
- Before/After BEVEncoder:在编码器前后进行融合
- BEVQuery阶段:在查询阶段进行特征融合
- 工程价值:实验设计系统全面,对工程实现具有明确指导意义