自己的原文哦~ https://blog.51cto.com/whaosoft/11618683

#Hierarchical BEV

BEV进入定制化时代！清华Hierarchical BEV：创新多模块学习框架，无痛落地无缝量产！

论文思路

自动驾驶指通过传感器计算设备、信息通信、自动控制和人工智能的集成，将车辆转变为能够自我导航的实体。环境感知系统是智能车辆获取外部信息的通道，它的任务是收集、处理和分析与车辆周围环境有关的数据，作为自动驾驶的先决条件。感知系统作为智能驾驶技术的关键要素，为后续模块如定位、预测、决策、规划、控制等提供必要的输入数据。目前，大多数用于车辆实现的感知算法都是基于深度学习实现的，特别是神经网络，这些算法在带有标签的公共数据集上进行训练，并部署在一系列视觉感知任务中。为了解决感知算法开发过程中存在开发周期长、可复用性差、传感器设置复杂等问题，论文提出了一种新的分层感知范式，旨在提供一个基本感知模块库和用户友好的图形界面，从而能够快速构建定制模型。

挑战及主要贡献

挑战

算法在不同和动态设置中的可泛化性：在一种情况下表现出色的模型可能在另一种情况下表现不佳，这强调了适应性强、效率高的感知系统的必要性；
开发智能感知算法的传统过程受到长周期和缺乏模块化的阻碍：这导致了组件的低可重用性，复杂的配置，增加了工程工作中的冗余，增加了开发成本；
在部署过程中缺乏系统的方法来利用公共功能模块，使得大规模生产感知系统的优化变得复杂，阻碍了对特定任务需求的有效适应。

主要贡献

为了应对上述的这些挑战，论文中引入了一种分层感知方案，设计了一个综合框架来简化自动驾驶汽车感知算法的开发。通过将基本算法组件组织到一个功能模块库中，所提出的感知方案使汽车工程师能够以更高的效率构建和定制满足特定操作需求的感知模型。该方案根据感知模型的功能角色对其进行分类，每个模块提供网络结构的选择，这种设计不仅有利于与各种平台的计算能力保持一致，而且简化了对自定义数据集的适应，从而提高了开发效率。这些标准化功能模块的可复用性大大减少了重复的工作，从而缩短了开发时间。另外，考虑到智能汽车平台的快速发展和对快速功能更新的需求，该模块化感知系统具有固有的可扩展性。它允许开发人员轻松地引入新模块或改进现有模块，确保系统的发展响应新出现的需求和技术进步。

为了提高开发效率，论文还提出了一种将预训练与微调相结合的范式。通过利用开源数据集，建立一个性能良好的模型的多样化存储库，这些预训练模型提供了一个坚实的基础，使得在微调阶段需要更少的训练数据和更少的迭代。这种方法使用户能够适应功能和调整参数以匹配自定义数据集，而后通过迁移学习和领域适应等技术在现实场景中实现最佳性能。具体来说，预训练方案包括对每个潜在模块组合进行详尽的训练，以确保每个感知模块被赋予与上游和下游功能对应的兼容权重。一旦建立了感知功能模块库，那就在预训练阶段引入了一种新的多模块学习范式。是针对分层解耦的感知系统设计的，它提高了整体的训练效率，并且可以同时优化多种模型架构以获得性能提升。在后续的研究中，框架已经证明了其有效性。主要贡献可以概括如下:

介绍了一个分层感知系统，提供了一个基本组件库和图形界面，以简化开发过程。用户可以通过拖放操作建立自己的感知模型；
部署范式，以促进快速部署和增强感知算法的可泛化性；
提出了一个创新的多模块学习框架，该框架表明多个模块的联合训练可以提高单个任务的性能并增强模型的鲁棒性。

模型架构：自动驾驶感知集成方案分层感知范式

图1 分层感知方案概述

论文中提出的分层感知系统的技术细节如图1所示。其核心创新在于提供了一个模块化且易于操作的感知算法构建过程视图，该过程分别通过集成功能模块组件的预训练算法和微调算法来实现。如表1所示，在集成车辆-云端-道路架构的背景下，封装了一套39个通用感知功能模块来表示概念分类。车辆-云端-道路集成感知系统以单个车辆智能感知为基础，主要包括车辆之间、车辆与基础设施之间的协同感知。为了构建数字感知功能模块库，采用多模块集成的知识共享训练方法。首先，在庞大的公共数据集上预训练感知功能模块的各种组合，从而创建模块化组件的存储库。随后，设计一个用户友好的图形化软件界面，通过直观的拖放操作来促进模型的构建。这种图形化软件可以轻松地组装感知模型，为训练、推理和微调提供统一的界面。

表1 车辆-云端-道路集成架构感知功能模块库

以视觉为中心的三维物体检测的原型设计

为了实现表1中描述的设计方案，采用了分阶段迭代的方法。分阶段的实施步骤基于三个关键要素：传感器、感知目标和感知功能。分层三维目标检测方法具有模块化结构，集成了一套专用组件。首先采用图像视图特征提取器对视觉特征进行有效捕获和编码；随后，使用视图转换器将这些编码特征从透视图转换为鸟瞰图，利用时间特征融合模块整合时间信息得到进一步增强特征表示。最后，使用一个特定的检测头在视角下完成目标检测任务。

1）特征提取

图像特征提取模块的主要功能是从输入图像中分别提取低级和高级视觉特征，形成一个通用的视觉表示。为了解决平台的不同计算能力，论文中选择了两种具有不同参数计数和架构复杂性的骨干网络：和。的参数量约为2560万，计算负载约为，非常适合具有中间层计算资源的平台。其更深层的架构，配备了复杂的瓶颈模块，在性能和效率之间取得了不错的平衡，满足了广泛的应用需求。相比之下，是一个密集连接的骨干网络，其设计目标是在不牺牲性能的情况下提高内存效率和推理速度，它的参数量约为1.08亿个，是计算资源丰富的高性能场景的可靠选择。

默认情况下，特征金字塔网络输出的多尺度特征符合1/16、1/32和1/64的尺度，通道维数。

2）图像视图转换

图像视图转换模块包含两种不同复杂性的基于转换器的方法：空间交叉注意和几何引导的核转换器，两者都是基于的方法，以数据驱动的方式对透视图转换建模。视图变换模块的输入由透视视图中图像特征提取模块输出的多尺度图像特征组成。机制旨在通过跨空间注意力机制来集成透视图和特性，它从不同角度捕捉特征之间的相互关系，从而提高了特征转换的精度。首先，将透视特征和初步变换后的特征线性映射到统一的特征空间中；然后计算注意力权重，指示不同位置的特征之间的相关性；最后利用这些权重对特征进行加权求和，实现特征融合。相反，模块通过将几何变换与深度学习模型相结合来优化特征变换过程，从而提高了计算效率。该模块自适应调整卷积核以适应不同的几何结构，提高了特征变换的精度。简单的几何信息，如深度图和相机参数，最初被用来生成几何引导的卷积核，这些核可以动态调整，以更好地捕捉特征中的空间关系。对于由地面高度点组成的查询，通过相机的内外参确定对应的透视图像坐标，然后提取附近的核区域特征并进行交叉关注以产生特征。

3）时间特征融合:

来自历史的时间线索为自动驾驶中的感知提供了额外的信息。时间特征融合模块用于整合图像的时间特征，增强对动态环境的理解。通过提取和合并时间信息，该模块提高了模型对运动物体动态的理解，克服了单帧感知约束，扩大了感受野，减轻了物体检测和目标遮挡等抖动问题，从而提高了精度和一致性。时间特征融合的过程包括三个关键步骤：首先，对前一帧的选择过程确定融合的时间范围。模块从当前帧之前的四帧中随机选择三帧，它们共同代表两秒的间隔。初始帧因为没有先前的帧进行比较，则与自身的副本融合在一起。这个过程需要对每个迭代进行四次向前传递和一次向后传递。直接从缓存中检索前一帧的BEV特征，以保持推理效率；其次，根据自我运动调整前帧的特征，使其与当前帧的特征在统一的坐标系内对齐，从而实现时空对齐。这种对齐对于精确的特征集成至关重要。由于前一帧和当前帧的特征都是在各自的自我-车辆坐标系中定义的，因此必须转换前一帧的特征坐标来和当前帧的特征坐标相对应；最后一步是时间信息的整合：如图2所示，在分层3D目标检测器中集成了两种模块:时间自注意模块和循环拼接融合模块。

模块通过对每个特征应用可变形注意力，将之前和当前的特征在空间和时间上对齐，然后在平面上进行算术平均融合；而模块是基于级联操作和线性层的组合设计的，以一种跨时间维度综合信息的方式融合了对齐的先前和当前特征。

图2 两种不同的时间特征融合方法

4）检测头：

论文中以为基准，采用基于的改进三维检测头，得到最终的预测结果。检测头由6层解码器组成，即交错排列的自注意层和交叉注意层。通过利用单尺度特征作为输入，解码器能够以端到端方式预测边界框和速度，从而消除了后处理的需要。

多模块学习框架

预训练方案包括对每个潜在模块组合进行详尽的训练，确保每个感知模块被赋予与上游和下游功能对应的兼容权重。针对层次解耦的感知系统，方法在核心目标上不同于多任务学习范式。的主要目的是通过联合学习来提高个体任务的表现。相反，框架是由开发一个通用模型库为目标驱动的。通过使用，可以同时训练不同的模型体系结构以获得性能改进。该方法不仅适用于单任务学习情境，也可扩展到多任务学习情境。为了全面地描述，首先需要了解MML的定义。

定义如下：给定个功能模块，其中所有模块或其中的一个子集是相关的，而多模块学习的目的是通过使用所有模型集成中包含的知识来共同学习个模块，以提高模型对共同任务的学习能力。

论文中提出了面向功能模块集成和跨不同模型的通用模块权值收敛的。首先，对复合模型的整个谱进行独立训练，得到每个模型各自的权重参数；然后，在每个训练单元结束时，执行参数融合和跨模型的同源模块权值更新。该策略旨在促进模型间的信息交换，从而增强模型吸收不变特征的能力。在随后的训练迭代中部署合并的权重，使这个循环持续下去，直到达到预定的训练周期阈值。如图3所示，以组合为例详细介绍了所提出的多模块预训练过程。训练流程描述如下：最初，对每个不同的组合模型执行一个单独的小训练会话，该大小为3。在这个初始训练阶段之后，执行参数融合，并更新所有模型共有的模块的权重。随后，进行进一步的训练迭代以实现优化。这个过程的目的是一旦达到预先设定的最大训练次数就结束。在实验中，这个最大值被设置为8轮。因此，这个迭代过程在八个周期中反复进行，最终得出最终的功能模块权重。

图3 多模块学习框架

通过采用软参数共享的方法，提供了一种更加灵活的多模型学习体系结构。在软参数共享的框架下，每个模型都有自己独立的结构和一组排他的参数，而不是直接共享很大一部分网络层。这种设计考虑到不同的任务可能需要学习不同的特征表示，因此，赋予每个模型一定程度的排他性能力有助于提高整体性能。然而，为了实现知识迁移和促进通用表示的学习，软参数共享并没有完全隔离每个任务的模型参数。相反，它通过施加一定的约束，促使不同任务的模型参数趋于相似，从而在一定程度上实现参数共享。

在以视觉为中心的物体检测的背景下，将整个感知模型分为四部分，计算模型的总组合次数为。其中表示某部分所包含的模块数。一个功能模块可以表示为θ，θ，其中表示输入数据，θ表示权重值。那么，柔性功能模块化装配方法可以表示为θ，它可以用以下四个分量表示:

其中表示不同的功能模块，表示输入到不同模块的特征。如算法1所示，在模块化组装阶段，对一个小单元训练的所有个权值进行迭代，如果权值θ包含相应的功能模块权值θ，则将其保存并与包含相同功能模块的所有权值平均。

其中表示含有某一模块的模型数，θ表示装配后的权重。

算法1 平均模块组装策略

实验实现细节

数据集和指标 数据集是一个多模式自动驾驶数据集，提供了丰富的传感器数据，包括32个摄像头、5个雷达、16个激光雷达、和数据。检测基准，由1000个多模态视频组成，每个视频延长约20秒，关键帧以的间隔捕获。这种设置确保了一个完整的360度的视野，图像数据从六个相机中获取。每个样本由来自前、前左、前右、后左、后右和后方向的6个摄像头的图像组成。数据集被精心划分为700个视频用于训练，150个用于验证，150个用于测试。对于检测任务，有来自10个类别的18538个带注释的边界框。实验中使用官方的评估标准进行评估。的平均精度()是利用地平面上的中心距离而不是三维交并比()来计算，以匹配预测结果和地面真实值。度量还包含5种真值度量(度量)，包括、、、和，分别用于度量平移、尺度、方向、速度和属性误差。还定义了检测分数(NS)来评估检测任务的各个指标综合情况。

训练的细节 实验是通过实现和进行，相应的代码在4块内存为、批处理大小为4的上执行。初始学习率设置为进行训练，并在训练过程中使用余弦策略动态更新学习率。在预训练阶段，除了模型参数外，所有的超参数和设置都按照的参数进行设置。3D目标检测模型采用了两种骨干架构：，用检查点的权重初始化；，检查点的权重初始化。在微调阶段，使用所有预训练的权值初始化目标检测模型。

比较结果

为了证明论文设计的方法的有效性和泛化性，实验利用对所有8个复合模式模型进行预训练，如表2所示。从验证数据集中随机抽取样本作为微调数据。表3说明了方法在物体检测环境中应用于各种集成模型时所取得的性能改进。所有模型都在训练数据集上进行了由24个组成的预训练阶段，然后在10%的验证数据集上进行了另外24个的微调阶段。结果表明，在所有测试的集成模型中，的应用导致和的一致性改进。图4通过数据直方图将对比实验结果进一步可视化。图5给出了各模型的基线性能、应用方法后的性能和改善情况(分别用和表示)。

表2 不同模型配置的详细信息

表3 对不同的集成模型实现了一致的改进

从图4可以看出，模型的改善最为显著，为2.9%，为4.7%。同样，基于的模型也显示出显著的改进，尤其是模型，其为1.6%，为1.7%。虽然模型的绝对性能通常优于模型，但基于的模型的相对改进更为显著。这表明这些模型从的集成中获益更多。综上所述，上述所有实验结果都证明了方法在提高数据集上不同集成模型的性能方面的有效性，如和指标的改进。结果强调了方法在目标检测任务中显著提高深度模型的鲁棒性和准确性的潜力。

图4 不同模块组件的三维探测器在nuScenes数值集上的对比结果

图5 nuScenes验证集的可视化比较结果

消融实验

论文中利用简单有效的平均操作进行消融研究，以验证所提出的训练策略的有效性。进一步使用不同的模型权值合并算法进行数值实验，如图6所示，分别命名为和。在中，模块参数通过加权求和更新，其中参数由从精度度量和函数导出的加权因子确定，如式4所示。方法通过使用显示最高分数的模型的参数更新模块权重，进一步优先考虑简单性。不同数据设置下的定量评价结果如表4和表5所示，强调了各种集成策略在和模型上的性能。使用策略，系列模型的从21.41%提高到22.29%，从36.62%提高到37.98%。相比之下，和策略的和值降低。

图6 消融方法

表4 在nuscenes验证数据集上与1:9分割的性能比较

表5 在nuscenes验证数据集上与3:7分割的性能比较

系列模型(如)显示，随着策略的增加，和分别增加了33.50%和47.06%。30%的数据集证实了这些结果，对模型产生轻微的和上升，而和未能超过基线。值得注意的是，系列模型在使用后表现出更明显的改进，如模型的和分别上升到21.55%和43.31%。模型与这一模式相呼应，和分别提高到20.06%和41.77%。

总体来说，策略在和模型中提供了最一致的改进，增强了和指标。相反，与基线相比，和策略通常会导致较低的性能，这表明这些优化方法对于本研究中使用的模型和数据集可能不那么有效。

讨论

图7和图8所示的拟合曲线描述了集成模型的性能趋势，显示了、、和训练方法随时间的增量改进和稳定性。

图7 不同权值合并策略的比较，每个子图显示了训练过程中每个模型的mAP指标

图8 不同权值合并策略的比较，每个子图显示了训练过程中每个模型的NDS指标

模型的性能是在一段时期内测量的，轴表示通过训练时期的进展，轴分别表示和指标。这些子图说明了每种优化策略的不同性能轨迹。传统的训练方法始终用黑色曲线表示，这表明在所有子图上性能逐渐稳定地增加。基于和的策略，分别用红色和绿色曲线表示，表现出竞争性和经常重叠的改进，在大多数情况下，策略在性能上比策略略有优势。用蓝色曲线表示的策略，与其他策略相比，始终显示出更保守的改进速度，这表明可能存在不同的收敛概况。

从图8中可以看出，方法的性能逐渐提高，达到平台期，表明性能在一定数量的后趋于稳定。方法的性能似乎比略好，这表明在算法中加入权重可能会提供性能上的适度改进。方法表现出波动，这可能意味着它更有效地利用某些时代，尽管它也可能更容易过度拟合或不太可泛化。相比之下，传统训练方法在整个epoch中保持较低的性能水平，表明与其他方法相比，传统训练方法的性能更稳定，但可能优化程度较低。来自验证集的实验结果，如表六所示，提供了对不同集成策略的性能影响的见解。

表6 8种模型在nuscenes val数据集上的预训练对比结果

对比显示，与模型的基线相比，和策略通常会导致性能下降。例如，模型显示，从21.82% ()下降到19.73% ()，从33.31%下降到29.78%。在相同策略下，和等模型在性能上表现出更高的一致性和稳定性。即使在贪心策略下，模型的也保持在35.88%以上，保持在46.69%以上，这表明该模型对策略引起的变化的处理更为稳健。例如，模型仅经历轻微波动，在贪心策略下的为33.88%，为42.60%，而基线分数分别为34.32%和42.32%。总之，架构似乎更善于在不同策略之间保持性能，而模型更容易受到策略引起的性能变化的影响。模型的鲁棒性可能归因于其表征学习的能力。

结论

该论文旨在开发模块化感知系统架构，支持可重用和可重构组件，为下一代汽车计算智能平台量身定制。提出的框架提供了丰富灵活的基础算法构建模块，允许开发者根据具体需求选择和组合不同的功能模块，从而促进定制化智能驾驶感知算法的快速开发。该框架可以不断扩展功能模块库，适应不同的用户需求，并具有持续学习的能力，从而缩短开发周期。

#Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement

GSD-Occ：实时Occ最新开源，速度比SOTA快3倍，mIoU提高1.9！

论文标题：Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement

本文提出了GSD-Occ，一种创新的实时3D占用预测方法，通过几何-语义双分支网络和解耦学习策略，实现了高效率和高精度的占用预测。实验表明，GSD-Occ在保持20 FPS处理速度的同时，达到了39.4%的mIoU，超越了现有技术，并将代码开源以推动进一步研究。

占用预测在自动驾驶中至关重要，因为它提供了精细的几何感知和通用的对象识别能力。这些能力使得自动驾驶系统能够准确地感知和理解周围环境，从而进行安全有效的路径规划和决策。然而，现有的方法通常计算成本高，难以满足自动驾驶对实时性和效率的严格要求。为了应对这一挑战，作者首先评估了大多数公开可用方法的速度和内存使用情况，旨在将关注点从单纯追求准确性转移到提高计算效率和资源利用率方面。

▲图1｜Occ3D-nuScenes基准测试中各占用预测方法的推理速度（FPS）和准确率（mIoU）

实现快速且准确性能的关键在于几何和语义之间的强耦合，为此，作者提出了一种具有混合BEV-体素表示的几何-语义双分支网络（GSDBN）。在BEV分支中，引入了一个BEV级别的时序融合模块和一个U-Net编码器以提取密集的语义特征。在体素分支中，提出了一种大核重新参数化的3D卷积，以细化稀疏的3D几何并减少计算。此外，作者提出了一种新的BEV-体素提升模块，将BEV特征投射到体素空间，以实现两个分支的特征融合。

此外，作者还提出了一种几何-语义解耦学习（GSDL）策略。该策略首先使用准确的几何真值深度来学习语义，然后逐步混合预测深度以使模型适应预测的几何。实验表明，本方法在Occ3D-nuScenes基准测试中表现出色，以39.4 mIoU和20.0 FPS的成绩超过了CVPR2023 3D占用预测挑战赛的冠军FB-OCC，速度提高了约3倍，mIoU提高了1.9。

▲图2｜几何语义耦合问题示意图：(a) 不准确的深度预测会导致2D到3D特征投影的错误，需要后续网络进行细化和纠正；(b) 展示了预测深度和真实深度之间的性能差距，展现了解决该问题的重要性

■3.1 问题表述

给定传感器数据（例如相机图像、点云等）和目标场景的历史信息，我们的目标是生成高质量的3D占用图。这些占用图可以用于多种应用，例如自动驾驶、机器人路径规划等。

▲图3｜GSD-Occ的整体架构概览

■3.2 整体框架

几何-语义解耦占用预测器（GSD-Occ）的流程图如图3所示。该方法包括以下几个主要部分：

●图像编码器：用于提取图像特征。具体来说，给定T时刻的一组环视相机图像，本文采用预训练的主干网络（如ResNet-50）来提取图像特征，并使用FPN进一步处理。

●2D到3D视图转换：该模块将2D图像特征转换为体素表示。由于实时模型的学习能力有限，本文采用了一个显式视图转换模块，并通过深度监督进行训练。具体过程是，首先将图像特征输入到深度网络（DepthNet），生成预测的深度分布。然后，利用外积操作将图像特征和深度分布结合，得到伪点云特征。最后，通过体素池化操作获得体素特征，并进行2倍下采样以减少计算复杂度。

●几何-语义双分支网络（见3.3）：该网络通过几何分支和语义分支高效地保持几何完整性并提取丰富的语义信息。

●几何-语义解耦学习策略（见3.4）：该策略进一步增强了几何细化和语义学习的能力。

■3.3 几何-语义双分支网络

为了实现实时的3D占用预测，作者提出了一种几何-语义双分支网络（GSDBN）。该网络结合了鸟瞰图（BEV）表示和体素表示，既保证了计算效率又保持了几何完整性。GSDBN包含两个主要分支：语义BEV分支和几何体素分支。

◆语义BEV分支

语义BEV分支旨在从传感器数据中提取语义信息，并将其映射到鸟瞰图表示中。这一过程包含以下步骤：

●特征提取：使用ResNet-50作为特征提取器，从输入图像中提取高层次特征。

●特征转换：将提取的特征映射到鸟瞰图表示中，生成语义鸟瞰图。

◆几何体素分支

几何体素分支专注于从传感器数据中提取几何信息，并将其表示为体素。这一过程包括以下步骤：

●体素化：将传感器数据转换为体素表示。

●几何编码：使用大卷积核的3D卷积对体素进行编码，捕获细粒度的几何信息。

▲图4｜3D几何编码器中大核3D卷积重参数化技术示意图：该技术使用并行的空洞小核3D卷积来增强非空洞大核3D卷积，图中示例的卷积核大小为 [11, 11, 1]

■3.4 几何-语义解耦学习

为了进一步提高模型性能，作者提出了一种几何-语义解耦学习策略。该策略将几何校正和语义知识的学习过程分离开来，采用了一种简单而有效的学习方法，使得模型在不同的预训练模型和方法上都能保持一致的准确性提升。

具体来说，在训练初期将真实深度引入LSS，使模型能够在准确的真实几何信息下专注于学习语义信息。随后，在训练过程中，逐渐将真实深度与预测深度混合，以适应模型对预测几何的学习。混合深度通过算术平均得到，使用一个因子α控制真实深度和预测深度的比例。

随着训练的进行，α的值逐渐增加，使模型在训练结束时能够很好地细化预测的几何信息，并在推理时不再需要真实深度。通过这种逐步过渡的方法，模型既能利用真实几何信息进行语义学习，又能在推理阶段自适应地处理预测几何信息，从而提高整体的稳定性和准确性。

▲图5｜FB-OCC和本文方法的定性结果比较：结果表明，本文的方法能够构建更详细的几何结构（第1行和第2行）、更准确的语义（第3行）以及在夜间更强的适应性（第4行）

▲图6｜GSDL陡度的消融研究

▲表1｜Occ3D-nuScenes数据集上的3D占用预测性能比较

▲表2｜Occ3D-nuScenes数据集上的3D占用预测性能比较，使用RayIoU指标

▲表3｜GSDBN各组件的消融研究结果

▲表4｜GSDL在不同预训练模型和方法上的有效性分析

▲表5｜BVL模块的有效性分析

▲表6｜时间融合中不同历史帧数量的影响分析

▲表7｜3D编码器中不同卷积核大小的影响分析

本研究提出的几何-语义解耦占用预测器（GSD-Occ）结合鸟瞰图（BEV）和体素表示，通过几何-语义双分支网络（GSDBN）和几何-语义解耦学习（GSDL）策略，实现了高效和准确的实时3D占用预测。实验结果表明，GSD-Occ在保持高质量占用预测的同时，满足自动驾驶对实时性的要求。

未来的研究将进一步优化GSD-Occ，通过设计更高效的网络结构以减少计算复杂度，融合激光雷达等多传感器数据以增强预测的准确性和鲁棒性，引入自适应学习机制以提高模型的泛化能力等方式。此外，还需要加强在实际道路和复杂交通环境中的测试，以验证模型的可靠性和安全性。

#SegPoint

通过LLM分割任意点云（南洋理工&复旦）

尽管在3D点云分割领域取得了显著进展，但现有方法主要针对特定任务，并依赖于明确的指令来识别目标，缺乏在统一框架中推断和理解用户隐式意图的能力。在本研究中，我们提出了一种名为SegPoint的模型，该模型利用多模态大型语言模型（LLM）的推理能力，在多种任务中生成逐点分割掩码：1）3D指令分割，2）3D指代分割，3）3D语义分割，以及4）3D开放词汇语义分割。为了推动3D指令研究的发展，这里还引入了一个新的基准数据集Instruct3D，旨在从复杂且隐式的指令文本中评估分割性能，该数据集包含2,565个点云-指令对。实验结果表明，SegPoint在指代分割的ScanRefer和语义分割的ScanNet等现有基准数据集上取得了具有竞争力的性能，同时在Instruct3D数据集上取得了出色的成果。据我们所知，SegPoint是第一个在单一框架内解决这些多样化分割任务的模型，并取得了令人满意的性能。

领域背景分析

3D点云分割是3D视觉领域的一项关键挑战，旨在解释和分类点云中的每个点，以理解其语义属性。这一长期存在的问题推动了包括机器人、自动驾驶、虚拟现实等在内的多个领域的显著进步。这一挑战已演化为一系列专门的任务，每个任务都针对特定的分割方面。总体而言，这些任务涵盖了基本的语义分割和实例分割，以及更实用的任务，如指代分割，它根据明确的文本描述对点进行分割，以及为应对现实世界动态且复杂的特性而设计的开放词汇分割。

尽管3D领域在通过专门设计的模型准确分割物体方面取得了显著进展，但每个模型通常都是为了解决一个特定的分割任务而开发的，这导致了在现实世界应用中的效率低下和缺乏通用性。此外，以往的感知方法严重依赖于预定义的类别或明确的表达来进行语言理解。这些方法在解释和响应人类语言中常见的隐式指令方面存在不足，这是一个关键的差距，阻碍了真正智能的下一代感知系统的发展。这引出了一个关键问题：是否有可能设计一个统一的模型，能够像人类一样全面解决上述所有3D任务？对这个问题的探索不仅挑战了当前3D点云分割的范式，还为机器人感知和交互领域的突破性进展打开了大门。

此外，还引入了一个名为Instruct3D的基准测试集，旨在推动由隐式和复杂指令驱动的分割领域的研究。理解这些微妙的指令需要推理能力和广泛的世界知识。该基准测试集共包含2565对多样化的指令和点云，用于调优和评估。综合实验证明了该基准测试集在评估模型基于类似人类指令的分割能力方面的实用性。SegPoint利用多模态LLM和任务特定提示，能够在统一模型中为各种任务生成分割掩码：1) 3D指令分割，2) 3D指代分割，3) 3D语义分割，以及4) 3D开放词汇语义分割，如图1所示。SegPoint在如ScanRefer（用于指代分割）和ScanNet（用于语义分割）等现有基准测试集上取得了具有竞争力的结果，同时在Instruct3D数据集上表现出色。

总结一下，主要贡献如下：

– 提出了SegPoint，这是第一个能够理解人类意图并在一个框架内解决多个分割任务的三维分割模型，该模型利用了大型语言模型的推理能力。

– 引入了一个几何增强模块，该模块将全面的场景信息整合到三维场景理解过程中。此外，还设计了几何引导特征传播机制，以实现准确且细粒度的分割。这两个模块补充了缺失的局部信息，并捕获了密集预测任务所需的细粒度特征。

– 引入了一项名为“3D指令分割”的新任务，并构建了一个新的数据集Instruct3D，该数据集要求模型具备自我推理能力，以解释隐式指令来分割目标对象。

– 实验结果表明，SegPoint不仅在三维语义分割、指代分割和开放词汇语义分割方面表现出色，而且在3D指令分割方面也展现出了卓越的性能，证明了其在各种分割挑战中的通用性和有效性。

SegPoint整体架构

SegPoint的总体架构如图2所示。SegPoint主要由四部分组成：i) 一个为与文本数据对齐而定制的预训练点编码器E；ii) 一个具有高级推理能力的大型语言模型F；iii) 一个几何增强模块G，负责从输入的点云中提取几何表示，并将这些先验知识注入到点编码器中；以及iv) 一个几何引导特征传播P，这是实现精确掩码生成的关键。几何增强模块与几何引导特征传播之间的协作至关重要，因为它使大型语言模型能够在各种场景下有效地生成掩码。

1）Vanilla Baseline

该框架的输入是文本指令和点云。具体来说，一个点云场景包含N个点，每个点包括三维坐标∈ 和一个辅助特征向量∈ （例如颜色）。点云被输入到点编码器E中，该编码器提取点特征，其中，D为特征维度。同时，文本指令通过进行分词处理。这些准备好的输入随后被输入到大型语言模型F中，产生文本响应y。上述过程可以表述为：

基于LISA引入的方法，SegPoint通过引入一个新的特殊标记来扩展大型语言模型（LLMs）的词汇，从而增强其分割能力。这一修改使模型能够在输出序列中识别并预测标记，作为识别分割目标的信号。在检测到标记后，将属于标记的相应输出序列提取出来，并通过一个多层感知机（MLP）层γ进行处理，生成掩码嵌入hseg。最后一步是计算每个二进制掩码预测m ∈ R^N，这是通过掩码嵌入与从点特征导出的上采样逐点嵌入进行点积运算来实现的。上述过程的公式表示如下：

其中，UpS表示在上按照PointNet++进行的上采样操作。原始基线模型代表了一个初步尝试，旨在弥合大型语言模型（LLMs）的文本理解和点云分割任务之间的差距。然而，它遇到了两个主要问题。首先，点编码器是在一个用于分类的场景级数据集上训练的，以实现文本和点云之间的对齐，而不是专门针对密集预测任务进行训练的。此外，点编码器的第一层采用最远点采样（FPS）将点云减少到N1个点，这可能会丢失对于准确密集预测至关重要的细节。其次，直接从N1个点上采样到N个点以获得逐点嵌入的操作容易丢失结构信息并引入相当程度的噪声，从而削弱了模型在分割任务中的有效性。

2）Geometric Enhancer Module

为了使预训练的点编码器适应密集预测任务，同时保持其优越的场景识别能力，本文的目标是利用整个场景中的几何信息来指导进一步的特征学习过程。从二维计算机视觉领域的最新进展中汲取灵感，其中一些研究表明，卷积增强了Transformer捕获局部空间信息的能力，我们引入了几何增强模块（GEM）。该模块专门设计用于捕捉点云中的局部几何上下文，同时保持点编码器的基础架构和信息完整性。

如图3所示，几何增强模块G由三个块组成，每个块都有一个KPConv层，后面跟着BN和ReLU激活函数。该架构类似于二维卷积干。在这里使用KPConv而不是普通的卷积或线性层，以便更有效地捕捉局部几何信息。由此产生的几何特征，由表示，包含了所有点的特征，从而补充了缺失的局部信息。然后，利用这个通过交叉注意力机制将几何洞察力注入到点编码器的特征中，上述过程可以表示为：

其中，表示点编码器第个块的特征，为了解释方便，将连续的个Transformer层视为一个块。为了微调几何信息的集成，这里引入了一个可学习的门控因子，它调节注意力层输出与输入特征之间的平衡。该门控因子最初设置为零，以确保几何数据的加入不会突然改变

3）Geometric-guided Feature Propagation

从稀疏的 N1 个点集上采样得到更密集的 N 个点集的点云处理挑战至关重要，因为直接上采样不可避免地会引入噪声并导致信息丢失，从而在分割任务中导致次优性能。为了缓解这些问题，我们引入了几何引导特征传播（Geometric-guided Feature Propagation），旨在生成高质量的逐点嵌入。几何特征

如图3所示，首先使用PointNet++的传播技术，从较小的点集N1对更高层的特征f3、f4进行上采样，得到更大的点集N3、N2。这一步产生了特征和。随后，利用最远点采样（FPS）技术，将原始点数N的几何特征gf分别下采样到更少的点数N2、N3。在这个过程中，直接获得了采样点的特征，而没有执行额外的k最近邻（k-NN）和池化操作，以简化计算并生成特征和。

在下一阶段，我们将上采样和下采样的特征进行集成，并通过全连接层和ReLU激活函数处理它们，以更新特征向量f̃3 ∈ R{N3×D} 和f̃4 ∈ R{N2×D}。请注意，最后一层特征f5绕过了这一步。相反，我们将其与LLM输出的ĥpoint进行拼接，形成f̃5，以感知来自LLM的多模态信息。

最后，为了实现不同点密度之间的信息交换，我们提出了注意力传播机制。以从f̃5到f̃4的传播为例。这里，作为一组局部中心。对于f̃4中的每个局部中心，使用k-NN算法从f̃5中找出其邻近点，得到。然后，采用交叉注意力机制，其中f̃4作为查询（query），同时作为键（key）和值（value），以促进不同点密度之间的信息流动，并有效地将相关细节提取到查询点中。

利用几何引导特征传播，能够生成高质量的逐点嵌入，表示为，这为生成精确的分割掩码奠定了基础，表示如下：

4） Training Objectives

模型是通过利用文本分类损失和分割掩码损失进行端到端的训练的：

其中，表示针对文本生成准确性的自回归交叉熵损失，分割掩码损失包括二元交叉熵（BCE）损失和DICE损失，旨在提高分割质量。权重λ、λ和λ用于平衡不同的损失项。模型的训练由文本的真实标签和掩码的真实标签M指导。

5）Instruct3D 数据集收集

尽管3D指令分割和3D引用分割都是基于语言的分割，但3D引用分割通过明确的目标对象名称（如“椅子”）来指导分割，缺乏更复杂的推理指令（如“房间里的座位在哪里？”）。此外，它们还缺乏提供多目标问答对的能力，这些问答对的目标描述直接与多个分割掩码相关联，这无法满足现实场景中的常见需求，如“如何玩电脑游戏”。

为了增强对指令分割能力的评估和分析，我们也开发了一个基准测试集，称为Instruct3D。该基准测试集包含280个场景，这些场景是专门为指令分割调优和评估而精心挑选的，它们来源于最近推出的ScanNet++数据集。每个场景都附有大约10个不同的分割指令，共产生了2,565个指令-点云配对。然后，该数据集被分为两个子集：训练集（train）和验证集（val），分别包含2,052和513个问答对。我们的数据集独特地设计了包含多目标和零目标场景，以应对现实世界中对文本查询做出响应时识别多个对象的需求，并考虑到文本中提到的对象可能不在配对的点云中的情况。此外，我们还考虑了3D场景的特点，并融入了不同的位置和视图描述，例如“工作时用于坐着的东西。它是面向窗户的那一个。”。模型不仅需要具备推理能力，还需要具备在3D场景中感知视图和方向的能力。这些设计凸显了数据集的实际价值。

实验对比分析

数据集。我们的训练数据由两种类型的数据集组成：（1）语义分割数据集，包括ScanNet200和S3DIS；（2）引用分割数据集，包括ScanRefer、ReferIt3D（包括Sr3D和Nr3D）和Multi3DRefer。我们设计了针对特定任务的提示，以便在统一的框架内联合训练各种任务。

评估指标。遵循大多数先前关于3D分割的工作，采用mIoU作为主要评估指标。mIoU定义为所有点云场景交并比（IoU）的平均值。此外，还采用准确率（Acc）作为评估指标，以评估模型是否准确识别出预测IoU大于0.5的目标。

在实验中，除非另有说明，否则我们使用LLaMA2-7B模型作为大型语言模型F，使用Uni3D作为点云处理骨干网络E。训练阶段利用deepspeed引擎提高效率，并采用AdamW优化器指导学习过程。学习率和权重衰减分别设置为0.0003和0，并通过WarmupDecayLR学习率调度器进行增强，该调度器以100次预热迭代开始。投影层γ采用具有[256, 4096, 4096]通道尺寸的多层感知机（MLP）。将平衡权重λtxt_gen、λbce和λdice分别设置为1.0、2.0和2.0。实验采用的总bs为16，分布在4个NVIDIA 80G A100 GPU上，并跨越5000次iter，训练周期约为3天。在训练过程中，利用特定任务的提示。为了在某个特定数据集上进行评估，我们在相应的数据集上对训练好的模型进行微调。

#FSD-BEV

北航&极氪联合提出感知新SOTA！

基于BEV空间的3D目标检测是自动驾驶当中至关重要的任务之一。由于纯视觉的BEV感知算法部署友好且成本低廉，近年来受到了来自工业界和学术界的广泛关注，基于纯视觉的BEV感知算法目前已经取得了长足的进展。虽然由于激光雷达自身硬件设备成本高，同时采集到的点云数据缺乏物体的颜色以及丰富的纹理信息，但是激光雷达传感器采集到的点云数据可以提供目标准确的几何结构和形状信息，相机传感器采集到的图像数据由于缺少物体准确的深度信息，依旧和基于激光雷达的感知算法在性能上有一定的差距。

受到知识蒸馏等相关工作的启发，在智驾感知任务当中，相关的研究学者们目前已经提出了多种跨模态的蒸馏方法，实现对感知任务有益信息从教师模型转移到学生模型，在不增加额外计算量的情况下进一步提升学生模型的感知性能。

目前较为主流的蒸馏方式即采用性能较好的激光雷达感知算法作为教师模型，感知性能较差的视觉算法作为学生模型。其网络结构可以大体表述为下图的子图(a)。这类蒸馏算法模型的大体思路是利用预先训练好的教师模型将激光雷达点云或多模态输入转换为冻结的教师BEV空间特征，作为学生生成的BEV空间特征的先验指导。但这类蒸馏算法由于激光雷达点云数据模态和相机图像数据模态的不一致以及教师和学生算法网络模型的结构不一致导致从教师模型转换到学生模型的知识过程具有很大的挑战性。开发板商城天皓智联

跨模态蒸馏算法和我们提出的自蒸馏算法的网络模型对比图

考虑到上述提到的相关问题，我们提出了一种前景自蒸馏的算法框架称为FSD-BEV，如上图的子图(b)所示。蒸馏框架中的教师分支利用激光雷达点云生成的硬标签来获得高质量的教师BEV空间特征并为学生分支提供指导。同时，学生模型利用预测出来的软标签来填补硬标签的空缺来补偿教师模型。通过在nuScenes数据集上的实验结果表明，我们提出的FSD-BEV算法模型取得了SOTA的检测结果。

文章链接：https://arxiv.org/abs/2407.10135

网络模型的整体架构&细节梳理

在详细介绍本文提出的前景自蒸馏算法模型FSD-BEV之前，下图展示了我们提出的FSD-BEV算法的整体网络结构。

FSD-BEV算法模型的整体网络结构图

通过上图展示的网络结构图可以看出，与以前基于BEV空间的跨模态蒸馏方法采用额外的预训练教师模型不同，我们提出的FSD-BEV算法模型在单独的一个模型当中完成了特征的对齐过程。同时考虑到蒸馏框架中的教师分支的性能在很大程度上取决于点云生成的硬标签的质量。因此，我们设计了两种点云强化 (Point Cloud Intensification，PCI) 策略来解决点云数据的稀疏性问题，即合并帧信息和为没有关联点的对象分配伪点。通过这种方式，点云产生的硬标签的稀疏性得到了很好的缓解，为特征合成提供了更好的指导。此外，我们也设计了一个多尺度前景增强 (Multi-Scale Foreground Enhancement，MSFE) 模块，通过预测出的椭圆高斯热力图提取和融合多尺度前景特征，从而提高整个框架的性能。

接下来我们将详细介绍每个关键技术创新点的实现细节

Foreground Self-Distillation

由于教师模型是基于激光雷达模态的感知算法，学生模型是基于视觉图像模态的感知算法，这就会使得教师模型和学生模型各自产生的BEV特征之间的分布差距给跨模态蒸馏任务带来挑战。此外，蒸馏算法的重点在于对教师和学生模型特征分布差异的情况下进行有效地迁移特征，但BEV空间中背景区域特征的模仿对学生模型精度的提升很微小，因此很自然的想到对前景目标映射到BEV空间上的特征进行蒸馏任务。

在我们设计的自蒸馏算法框架中，我们并没有像之前常见的蒸馏算法一样使用预训练好的教师模型。相反，在我们设计的自蒸馏方法当中，教师和学生模型共同参与了联合学习过程。具体而言，虽然教师和学生模型的BEV空间特征共享相同的上下文特征信息，但更准确的深度和语义信息有助于构建高性能的教师BEV空间特征，为学生的BEV空间特征提供持续的指导。此外，通过引入前景分割来生成仅包含前景信息的BEV空间特征，这放弃了对背景区域的无用模仿并避免了噪声干扰。前景分割还大大提高了教师分支的准确性，从而增强了蒸馏效率。该部分的整体思路如下图所示：

自适应蒸馏过程中BEV特征的生成过程

学生模型中BEV空间特征的生成过程：我们采用了BEVDepth当中BEV特征的生成范式，通过预测语义上下文特征以及离散的深度概率特征。此外，我们也通过预测前景分割结果来过滤BEV空间特征中的背景区域。我们采用了SA-BEVPool中的实现思路来生成仅包括前景特征信息的BEV空间特征，其实现过程可以用下面的表达式描述
教师模型中BEV空间特征的生成过程：我们同样采取了与学生分支生成BEV特征的思路，具体而言，我们采用真值深度图以及前景的分割结果来代替学生模型分支中的和。这里，我们将真值标签称之为硬标签，学生模型预测出来的结果称之为软标签。虽然硬标签可以为算法模型提供准确的场景信息，但由于点云数据的稀疏性也会导致硬标签包含的信息过少。因此，为了缓解这个问题，我们采用软标签来填补硬标签的缺失部分，实现软硬标签的组合，其过程可以用下面的公式进行表示：

其中表示硬标签的有效掩码。当硬标签可用时，的值为1，否则为0。然后通过以下方式生成教师模型的BEV空间特征：

由于在我们设计的自蒸馏算法框架当中，学生和教师模型输出的BEV空间特征都继承了中的特征信息，因此它们之间的差距比以前的跨模态蒸馏框架要小得多。同时，学生分支预测的部分软标签也参与了教师分支的BEV空间特征的构建过程，从而使得学生分支模型更容易模仿教师分支模型。

协同训练：由于直接对齐教师模型和学生模型各自输出的BEV特征是比较有挑战的事情。在以往的跨模态蒸馏算法当中都会加入一个额外的自适应模块将学生模型输出的BEV空间特征映射到教师的BEV空间特征中实现两个模态之间的对齐任务。但在我们提出的FSD-BEV自蒸馏算法当中，我们是将两个模态的输出特征沿着Batch的维度进行拼接，一同喂入到BEV编码器模块中进行处理，从而得到更高级的BEV特征，表述如下：

通过这种方式，我们实现了和的特征对齐过程。此外，我们发现BEV编码器可以实现在不增加参数的情况下起到了与自适应模块相同的作用，BEV编码器也可以看作是一个特征过滤器，使得过滤后的和相似。

Point Cloud Intensification

激光雷达点云生成的硬标签和的质量决定了教师分支的性能，从而影响整体算法的蒸馏效果。然而，由于点云数据的稀疏性往往导致大量远处的目标只有很少的点云数据或者根本没没有点云数据，从而削弱了硬标签的质量。在论文的具体实现中，我们引入了两种点云强化策略，使硬标签携带更多关于场景的信息，如下图所示

点云强化策略的总体实现思路

帧融合策略：我们通过使用时间上的相邻帧来补充点云数据的数量。同时为了避免动态目标的点云数据会引入错误，我们只会组合属于静止前景物体的点云数据，例如停放的汽车、无人骑乘的自行车和交通锥。我们将相邻帧的点云转换为当前帧的坐标系，当前帧中的物体在经过帧融合策略之后将具有更密集的点，如上图的子图(a)所示。
伪点云分配策略：在使用上一步的帧融合策略后，可能会存在仍有一些物体没有出现在硬标签上。它们可能是不适合帧融合的动态物体，或者距离很远，甚至相邻帧也无法提供有效的点云数据。在这种情况下，在空间中为这些物体分配近似点是一个合理的选择。具体而言，我们首先将真实3D框投影到图像上以获得其对应的2D矩形框。每个2D矩形框可以用表示，其中表示左上点，表示右下点。然后，我们根据以下几个标准选择应分配伪点的框：1) 经过帧融合策略后，框内没有真值点云数据；2) 框的深度在感知范围内；3) 框具有良好的可见性。同时满足以上三个条件的框，其伪点在图像坐标系中的坐标可以表示为：

其中代表原有3D框八个角点中深度最小的数值。

Multi-Scale Foreground Enhancement

融合高尺度特征是向视图变换模块提供更精细深度图的直接方法。同时，我们认为在高尺度特征中前景比背景更有优势。为此，我们选择FPN特征金字塔输出的降采样四倍的特征图来获取高尺度的前景分割结果。再获得了前景分割结果后，我们选择采用一个阈值进行过滤，可以表述如下

最后，我们采用如下的方式完成特征间的聚合操作，使得融合后的特征图可以提供更详细的信息。

实验结果&评价指标

定量分析部分

为了验证我们提出的FSD-BEV算法模型的有效性，我们在nuScenes数据集上进行了相关实验，在验证集上的实验结果汇总在下表中。

不同算法模型在nuScenes数据集的验证集上实验结果汇总

通过实验结果可以看出，在同样主干网络以及融合帧数的情况下，我们的算法模型实现了最佳的感知结果。此外，我们也在nuScenes数据集的测试集上进行了实验，结果汇总在下表当中。

不同算法模型在nuScenes数据集的测试集上实验结果汇总

通过相关的实验数据也可以看出我们提出的FSD-BEV在使用较少帧融合的情况下，实现了更高的感知性能。此外，我们也将我们提出的跨模态蒸馏算法FSD-BEV与其它的蒸馏算法进行了实验结果对比，实验结果如下表所示

不同跨模态蒸馏算法的实验结果对比

通过实验结果可以看出，我们提出的简单的前景自蒸馏算法框架优于采用复杂策略的其他蒸馏方法。并且在主干网络选择为ResNet101网络时，FSD-BEV的优势更加明显，大大超过了其他方法的蒸馏增益。

定性分析部分

提出的FSD-BEV和BEVDepth在BEV热力图上的可视化结果

通过可视化结果可以看出，在教师模型的指导下，与基线算法模型BEVDepth相比，提出的FSD-BEV算法模型的学生分支预测的热力图更接近教师模型的高质量BEV热力图，从而产生更精确的预测框。

结论

在本文中，我们提出了一个自蒸馏的感知算法模型框架FSD-BEV，该算法模型可以缩小基于激光雷达点云的3D目标检测算法和基于视觉的3D目标检测算法之间的性能差距，同时无需预训练的教师模型以及繁琐的蒸馏策略，在nuScenes数据集的验证集和测试集上实现了SOTA的检测性能。

#Senna

LVLM赋能端到端！地平线&华科联手打造更强自动驾驶系统

近年来，自动驾驶技术发展迅速，在驾驶感知、运动预测、规划等领域取得了重大进展，为实现更准确、更安全的驾驶决策奠定了坚实的基础。其中，端到端自动驾驶技术取得了重大突破，端到端方法以大规模数据为基础，展现出卓越的规划能力。此外，大型视觉语言模型已经表现出越来越强大的图像理解和推理能力。通过利用其常识和逻辑，LVLM 可以分析驾驶环境并在复杂场景中做出安全的决策。利用大量驾驶数据来提高 LVLM 在自动驾驶中的性能并连接 LVLM 和端到端模型，对于实现安全、稳健和可推广的自动驾驶至关重要。

端到端自动驾驶的常见做法是直接预测未来轨迹或控制信号，而无需决策步骤。然而，这种方法可能会使模型学习更加困难，同时缺乏可解释性。相比之下，当人脑做出详细决策时，由分层高级决策和低级执行组成的系统起着至关重要的作用。此外，端到端模型通常缺乏常识，在简单场景中可能会出错。例如，它们可能会将载有交通锥的卡车误认为是路障，从而触发不必要的刹车。这些限制阻碍了端到端模型的规划性能。因此，本文针对以下涉及到的三个问题进行探索。

如何将 LVLM 与端到端模型相结合？目前，LVLM 在自动驾驶规划中的应用主要分为两类。一是直接使用 LVLM 作为规划器来预测轨迹点或控制信号；另一种方法是将 LVLM 与端到端模型相结合。涉及使用 LVLM 预测低频轨迹点，然后通过端到端模型对其进行细化以产生高频轨迹。在本文，我们提出了一种结构化的自动驾驶系统Senna，该系统将大型视觉语言模型与端到端模型相结合，具体来说，大型视觉语言模型用自然语言预测高级规划决策，并将其编码为高维特征，然后输入到端到端自动驾驶系统中。根据高级决策，端到端自动驾驶系统生成最终的规划轨迹。
如何设计适合驾驶任务的LVLM？目前流行的LVLM并未专门针对多图像输入进行优化。以前用于驾驶任务的 LVLM 要么仅支持前视输入，这会限制空间感知并增加安全风险，要么可以适应多图像输入但仍然缺乏详细设计或有效性验证。我们提出的Senna，它支持多图像输入来编码环视数据，这对于了解驾驶场景和确保安全至关重要。
如何有效地训练驾驶 LVLM？在开发用于驾驶任务的 LVLM 之后，最后一步是确保有效的训练，这需要合适的数据和策略。我们引入了一系列面向规划的问答，旨在增强 VLM 对驾驶场景中规划相关线索的理解，最终实现更准确的规划。

针对上述相关问题的讨论，本文提出了一种将 LVLM 与端到端模型相结合的自动驾驶系统，实现了从高级决策到低级轨迹预测的结构化规划。该算法称之为Senna。并且在nuScenes数据集和DriveX大规模数据集上的大量实验也证明了Senna的SOTA规划性能。

论文链接：https://arxiv.org/pdf/2410.22313

网络结构&技术细节梳理

在详细介绍本文提出的算法模型的网络架构细节之前，下图展示了我们提出的Senna算法模型的整体网络结构图。

整体而言，输入的场景信息包括多视角图像序列、用户指令和导航命令。用户指令作为提示输入到Senna-VLM中，其他指令则同时发送给Senna-VLM和Senna-E2E。Senna-VLM将图像和文本信息分别编码为图像和文本标记，然后由LLM进行处理。LLM生成高级决策，这些决策通过元动作编码器编码为高维特征。Senna-E2E根据场景信息和Senna-VLM生成的元动作特征预测最终的规划轨迹。我们设计了一系列面向规划的QA来训练Senna-VLM，这些QA不需要人工注释，并且可以完全通过自动标记流程大规模生成。

驾驶场景理解

了解驾驶场景中的关键因素对于安全准确地进行规划至关重要。我们设计了一系列面向规划的 QA，以增强 Senna-VLM 对驾驶场景的理解。每种类型的 QA 的细节如下图所示。用于生成这些 QA 的原始数据（例如 3D 物体检测框和物体跟踪轨迹）可以通过自动注释系统获得。此外，描述性 QA 可以由 GPT-4o 等 LVLM 生成。

场景描述：我们利用预先训练的 LVLM 根据环视图像生成驾驶场景描述。为了避免生成与规划无关的冗余信息，我们在提示中指定了所需的信息，包括：交通状况、环境（例如城市、乡村等）、道路类型（例如铺装道路、高速公路）、天气状况、一天中的时间以及道路状况（例如道路是否平坦或是否有任何障碍物）。通过以这种方式构建提示，我们可以获得简洁且信息丰富的场景描述。
交通灯信号检测：交通信号灯有多种类型，但这里我们主要关注最关键的一种：交通信号灯。交通信号灯的状态可分为四种：红色、绿色、黄色和无，其中无表示在自车前方未检测到交通信号灯。
VRU识别：通过识别环境中的VRU，我们增强了 Senna 对这些关键物体的感知，并提高了规划的安全性。具体来说，我们使用真值 3D 检测结果来获取 VRU 的类别和位置，然后以文本形式描述这些信息。位置信息以自车为中心，包括每个 VRU 相对于自车的横向和纵向距离。我们仅使用 Senna-VLM 来预测距离的整数部分，以在构建距离感知的同时降低学习复杂性。
运动意图预测：准确预测其他车辆的未来运动意图是安全规划的先决条件。我们还采用了元动作方法，使 Senna 能够预测周围车辆的未来行为。这增强了 Senna 对场景动态特征的理解，使其能够做出更明智的决策。
元动作规划：为了避免使用 LVLM 进行精确的轨迹预测，我们将自身车辆的未来轨迹转换为元动作以进行高级规划。具体而言，元动作包括横向和纵向决策。横向元动作包括左转、直行和右转，而纵向元动作包括加速、保持、减速和停止。横向元动作是根据预测的未来时间步长 T 内的横向位移确定的，纵向元动作是根据预测期间的速度变化确定的。最终的元动作包括横向和纵向元动作。
规划解释：我们还使用基于车辆真实未来运动的 LVLM 生成规划解释。换句话说，我们向 LVLM 告知车辆的实际未来运动（例如加速和左转），并要求它们分析此类决策背后的原因。在提示中，我们通过考虑以下影响规划的因素来指导模型分析决策：其他交通参与者的行为、导航信息、道路状况和交通信号灯状态。

Senna-VLM

Senna-VLM 由四个组件组成。视觉编码器以多视角图像序列作为输入并提取图像特征，然后由Driving Vision Adapter进一步编码和压缩，产生图像标记。文本编码器将用户指令和导航命令编码为文本标记。图像和文本标记均输入到 LLM 中，后者预测高级决策。在实践中，我们使用 Vicuna-v1.5-7b作为我们的 LLM。最后，元动作编码器对决策进行编码并输出元动作特征。

我们使用 CLIP 的 ViT-L/14 作为视觉编码器，由于多幅图像输入，导致图像 token 数量过多，不仅减慢了 VLM 的训练和推理速度，还会导致模型崩溃和解码失败。因此，我们引入了 Driving Vision Adapter 模块。该模块不仅将图像特征映射到LLM特征空间，而且还对图像特征进行额外的编码和压缩，以减少图像标记的数量。具体来说，我们采用一组图像查询来对图像特征进行编码并输出图像标记：

其中，MHSA代表的是多头自注意力机制。

为了让 Senna-VLM 能够区分不同视图中的图像特征并建立空间理解，我们为驾驶场景设计了一个简单而有效的环视提示。以正面视图为例，相应的提示是：FRONT VIEW: \n image \n，其中 image 是 LLM 的特殊标记，在生成过程中将被图像标记替换。下图说明了我们提出的多视图提示和图像编码方法的设计。

最后，我们提出了元动作编码器，将LLM输出的高级决策转换为元动作特征。元动作编码器使用一组可学习的嵌入实现从元动作到元动作特征的一对一映射，下面的公式说明了生成元动作特征的过程

随后，元动作特征将被输入到 SennaE2E 中以预测规划轨迹。

Senna-E2E

Senna-E2E 扩展了 VADv2。具体来说，Senna-E2E 的输入包括多视角图像序列、导航命令和元动作特征。它由三个模块组成：感知模块，用于检测动态物体并生成局部地图；运动预测模块，用于预测动态物体的未来轨迹；规划模块，使用一组通过注意力机制与场景特征交互的规划标记来预测规划轨迹。我们将元动作特征集成为 Senna-E2E 的附加交互标记。由于元动作特征采用嵌入向量的形式，因此 Senna-VLM 可以轻松与其他端到端模型结合。Senna-E2E的轨迹规划过程可以表述如下

训练策略

我们为 Senna-VLM 提出了一种三阶段训练策略。第一阶段是混合预训练，我们使用单图像数据训练Driving Vision Adapter，同时保持 Senna-VLM 中其他模块的参数不变。这样可以将图像特征映射到 LLM 特征空间。混合是指使用来自多个来源的数据，包括 LLaVA中使用的指令跟踪数据和我们提出的驾驶场景描述数据。第二阶段是驾驶微调，我们根据之前提出的面向规划的 QA 对 Senna-VLM 进行微调，不包括元动作规划 QA。在此阶段，使用环视多图像输入而不是单图像输入。第三阶段是规划微调，我们仅使用元动作规划 QA 进一步微调 Senna-VLM。

实验结果&评价指标

下图的实验结果展示了 Senna 在高级规划和场景描述方面的表现，并与最先进的开源 LVLM（包括 QwenVL、LLaVA 和 VILA）进行了比较。前三行的结果是通过直接评估原始模型获得的。可以看出，使用预训练权重的模型在驾驶任务上表现不佳，因为它们的训练目标是面向一般理解和对话，而不是专门针对驾驶相关任务而量身定制的。

为了进一步验证 Senna 的优势，我们还使用相同的训练流程在 DriveX 数据集上对这些模型进行了微调。Senna 在高级规划和场景描述方面均优于其他方法。与其他方法的最佳结果相比，Senna 将规划准确率提高了 10.44%。此外，在减速等最关键的驾驶安全决策中，F1 得分从 52.68 提升至 61.99，提升幅度达 17.67%，凸显了Senna在驾驶场景分析和空间理解方面的卓越能力。

此外，我们在下表中展示了 Senna 在 nuScenes 数据集上的轨迹规划性能。为了进行公平比较，我们用 VAD 替换 VADv2 作为端到端模型。与之前将 LVLM 与端到端模型相结合的 SOTA 方法相比，Senna 有效地将平均规划位移误差降低了 29.03%，碰撞率降低了 20.00%。为了避免与使用自车状态特征相关的潜在问题，我们还报告了未使用自车状态特征的结果。通过使用来自 DriveX 数据集的预训练权重初始化模型并在 nuScenes 数据集上进行微调，Senna 实现了最先进的规划性能。与 VAD 相比，平均规划位移误差显着降低了 40.28%，平均碰撞率降低了 45.45%。通过在 DriveX 数据集上进行预训练，然后在 nuScenes 数据集上进行微调，Senna 的性能得到显著增强，展示了其强大的泛化和可转移性。

下表展示了DriveX 数据集上的轨迹规划结果。除了端到端模型 VADv2 之外，我们还引入了两个额外的比较模型。第一个模型将真值规划元动作作为额外的输入特征，旨在验证我们提出的结构化规划策略的性能上限。第二个模型是我们复现的 DriveVLM，它预测低频轨迹而不是元动作，充当 LVLM 和端到端模型之间的连接器。

通过实验结果可以看出，利用真值规划元动作的 VADv2 实现了最低的规划误差，验证了我们提出的结构化规划策略的有效性。预测低频轨迹作为连接器的 DriveVLM仅比 VADv2 显示出微小的改进。相比之下，我们提出的 Senna 在所有方法中提供了最佳的规划性能，将平均规划位移误差大大降低了 14.27%。

结论

在本文中，我们提出了LVLM 与端到端模型相结合，用于结构化规划，从高级决策到低级轨迹规划的自动驾驶系统Senna，大量的实验结果证明了我们提出的Senna算法模型的卓越性能，凸显了通过基于语言的规划将 LVLM 与端到端模型相结合的潜力。

#四轮转向与自动驾驶到底要怎样打好配合战？

业界一直在研究设计用于 AD 路径跟踪的集成底盘控制系统，其中许多研究考虑了电子稳定控制 (ESC) 和主动前轮转向 (AFS) 的集成。ESC 和 AFS 都会产生横摆力矩来增强车辆横向稳定性，但它们的工作方式不同。ESC 通过差动制动产生偏航运动，而 AFS 通过附加转向产生偏航运动。由于两个控制器都会产生偏航运动，因此它们的集成需要仔细研究它们一起工作时的协同效应和冲突效应。比如，使用基于加权伪逆的控制分配方法集成ESC和AFS，产生代数解。或者使用基于零空间的控制重新分配方法集成了直接偏航力矩和 AFS。也有将整合 ESC 和 AFS 作为目标从而制定了一个优化问题，并使用 Karush-Kuhn-Tucker 方法解决了该问题。

随着电动汽车的普及，配备四个独立轮毂电机（IWM）的动力总成系统引起了汽车行业的关注，比如比亚迪最近爆火的仰望系列车型的独立四轮转向就是十分收到业界关注的部分。这种四轮转向系统支持扭矩矢量分配 (TV)，因为四个车轮上的纵向力可以任意组合，每个车轮独立提供牵引力、制动力或零力。与 ESC 不同，扭矩控制TV 可以在不使车辆减速的情况下产生偏航运动。事实上，可以轻松准确地估计电机的输出扭矩，这是配备 IWM 的电动汽车用于扭矩控制TV控制实施的另一个优势。

最近，人们在开发路径跟踪算法方面做出了很多努力，因为它们对于自动驾驶（AD）操作（例如车道跟随、变道和避免碰撞）至关重要。基于运动车辆模型的方法包括纯追踪法和斯坦利法。然而，由于不考虑车辆的动力学，这些方法可能无法正确解决车辆发生严重横向运动时可能出现的稳定性问题。其次，基于动态车辆模型的方法可以克服运动学方法的稳定性问题。模型预测控制（MPC）、线性二次调节器（LQR）等多种控制方案；H-无穷大、模糊和遗传算法也已被采用来实现可靠的路径跟踪能力。

实际上，MPC 与 LQR 类似，两种方法都通过解决优化问题来计算控制值。然而，MPC 在每个样本的较小时间窗口中解决优化问题，而 LQR 使用在整个时间范围内离线计算的单个最优解。MPC 可以处理非线性模型和约束，而 LQR 则不能。对有限数量的样本（包括当前步骤和几个未来步骤）进行优化后，MPC 仅采用当前步骤的解决方案进行控制操作。通过在每个样本中重复执行此操作，MPC 能够预测未来事件，这是其他传统控制器（例如 PID）所不具备的。

采用具有多重约束的MPC进行转向控制，比如，考虑了轮胎力的约束并应用 MPC 进行车道变换控制，可以避免与前方车辆发生碰撞。同时，考虑了电动助力转向系统的特点，利用MPC可以实现快速响应的转向控制。将非线性模型预测控制（NMPC）应用于转向和制动控制，可以开发有效的避障逻辑。与任何其他线性控制设计方法类似，当驾驶条件显着偏离模型线性化的设定点时（例如，当车速变化较大或偏航运动变大时），MPC 的性能可能会恶化。NMPC 可以解决这个问题，因为它允许模型、成本函数和约束中存在非线性。然而，NMPC 的这种多功能性可能不利于控制目的，因为非线性优化问题可能是非凸的，并且可能无法很快找到其最小值。

本文算法

为了解决以上这些问题，提出了自适应模型预测控制 (AMPC) 。该模型是 MPC 的另一种变体，可以更新质量、侧偏刚度和速度等模型参数。采用AMPC进行路径跟踪时，需要考虑轮胎侧偏刚度和路面摩擦力，以及转向系统的动态特性进行控制。同时，将车辆模型分为低速模型和高速模型两类，并将AMPC应用于高速模型来实现转向控制。

已经有很多关于提高横向底盘控制中的车辆稳定性的研究，也有很多关于提高智能驾驶系统AD中的路径跟踪性能的研究，但同时考虑两者的研究却很少。随着自动驾驶技术的进步，这两个目标应该一起考虑，因为它们都对自动驾驶车辆的安全性做出了重大贡献，但往往以相互矛盾的方式影响彼此。

为了解决以上这些问题，本文介绍了一种用于具有四个独立轮毂电机（IWM）的自动驾驶车辆的集成自动驾驶（AD）控制系统。系统由AD控制器和底盘控制器两部分组成，这些元件在功能上集成在一起，以提高车辆稳定性和路径跟踪性能。

智驾系统执行端的规控策略

1、车辆模型

本章介绍本研究中使用的车辆模型，使用两种不同的模型来设计集成AD控制系统。由于 AFS 仅通过转向动作影响车辆的偏航运动，因此 AFS 使用了 2 自由度 (DOF) 车辆模型，该模型考虑了响应前转向角的横向车辆运动。由于 TV 通过在四个车轮上设置不同的旋转扭矩来实现偏航运动，因此 TV 使用了考虑每个车轮的车轮旋转动力学的 7-DOF 车辆模型。

1.1、用于路径跟踪的车辆模型

图 1 显示了AFS使用的经典 2-DOF 车辆模型，也称为自行车模型，它考虑了横向平移运动和偏航运动。该车辆模型为2自由度，如下方程是相应的运动方程。

图1 二轮转向控制模型

1.2. 扭矩矢量车辆模型

图 2 显示了用于开发 TV 控制器的 7-DOF 车辆模型。

图2 四轮转向控制模型

该模型由三个代表车身动力学的方程和四个代表车轮动力学的方程组成。此处无法使用上一节中的 2-DOF 车辆模型，因为它不包含实现 TV 控制逻辑所需的车轮动力学。相反，7-DOF 车辆模型不适合 AFS 控制器，因为 AFS 不需要考虑车轮动力学。通常的做法是使用最低阶车辆模型进行控制器设计，因为它可以最大限度地减少在实际电子控制单元 (ECU) 上实现控制逻辑时的计算负载。

2、AD控制器

下图 3 显示了为本研究设计的集成 AD 控制系统的总体架构。它由AD控制器和底盘控制器组成。

图3 AD控制器执行车辆的纵向/横向路径控制

对于纵向控制，设计了比例积分（PI）控制器来进行加速度控制。对于横向控制，在当前车辆位置规划车辆的目标路径，并利用AMPC进行转向控制以进行路径跟踪。模型中添加了 0.01 秒的时间延迟，以考虑大多数底盘控制器采用的 100 Hz 采样间隔。AMPC 逻辑工作在更慢的 20 Hz 采样间隔，以允许其繁重的计算负载，这比 PI 控制器的计算负载还要大。AD 控制器的详细信息将在以下部分中介绍。

2.1. 纵向控制器

如图3所示，表示了AD控制器由纵向控制器和横向控制器组成。由于本研究的主要重点在于设计横向控制器，因此采用相对简单的PI控制方法来设计纵向控制器。

该控制器执行加速控制，以便自动驾驶车辆能够以所需的速度Vdes行驶。为此，控制器首先使用如下方程1计算所需的加速度ades。

所需加速度的大小受到其上限aupper的限制，以防止过度加速或减速。在方程2中，ka 用作根据速度误差计算所需加速度的设计参数。较大的ka会导致较大的所需加速度值，反之亦然。ka需要仔细调整，因为它会影响后续TV逻辑的性能。大的ka加强了速度跟踪，但同时减少了车辆稳定性的维持。

本研究中ka设置为 10。一旦计算出所需的加速度，PI 控制器就会执行加速度控制。由于该PI控制器结构简单，本文省略其细节。

2.2. 横向控制器

AD控制器的横向控制功能采用AMPC实现。本研究中采用 AMPC 的方法可以通过将其与自动驾驶车辆横向控制逻辑中广泛使用的纯追踪方法进行比较来解释。AMPC 和纯追踪的相似之处在于，两种方法都计算转向角度，以便车辆沿着前方的目标路径行驶，但纯追踪将前方的单个航路点设置为要通过的目标点，而 AMPC 会考虑一定时间范围内的多个航路点。这样提高了车辆的横向稳定性，同时实现了良好的路径跟踪性能。AMPC 还允许考虑控制过程的反馈影响，而纯粹的路径追踪则不允许。最后，只有 AMPC 在考虑转向控制的情况下在一定时间范围后提供横向位置误差。该误差数据允许计算出良好的期望横摆力矩，以进一步提高车辆横向稳定性和路径跟踪性能。

AMPC 的工作原理是使用两个有限时间范围（预测范围和控制范围）来预测系统的未来行为。预测范围是预测状态变量的采样周期的倍数，控制范围是通过解决优化问题来计算控制变量的时间间隔。直到最近，MPC 还很少用于车辆控制领域，因为大多数车辆控制器使用只能检测当前正在发生情况的车载传感器，但 MPC 开始引起人们的关注，因为当今许多车辆都配备了环境传感器，这些传感器可以检测当前发生的情况，可以很快揭示车辆会发生什么。

在 AMPC 中选择更广阔的视野可以使控制器对未来看得更远，从而为即将到来的危险做好准备。然而，更宽的视野可能会导致 ECU 的计算负担，因为预测是通过解决视野间隔的每个样本优化问题来完成的。鉴于此，预测层通常选择在20到30之间，控制层选择为预测层的1/4到1/3。

在本文中，预测范围设置为 20，控制范围设置为 6。下面描述将原始系统方程转换为与 AMPC 相关的形式的过程。其中x代表状态，u代表控制。

为了实现AMPC所需的优化过程，可以将上述系统转化为离散状态空间中的递归形式。A和B转换为其离散时间形式，其中T代表采样时间。

下图 4 说明了如何计算目标路径。

图 4. 车辆的目标路径和预测路径

其中，x(k+m|k)是当前步骤后 m 个样本的状态估计，由 AMPC 根据当前状态计算得出。图中，xref(k+m|k)表示m个样本后车辆的目标路径。式(8b)中的状态向量的四个元素中，第三个元素、第四个元素、横向位置和偏航角分别表示车辆的路径。

底盘控制器

本节介绍底盘控制器的详细信息。如图3所示，本研究的机箱控制器由两层组成：上机箱控制器和下机箱控制器。其中，上底盘控制器根据横摆率误差和横向位置误差计算所需的横摆力矩。下底盘控制器通过AFS和TV的集成控制实现所需的横摆力矩。

3.1. 底盘控制器

传统的底盘控制器通过将横摆角速度调节至所需值来保持车辆横向稳定性。然而，对于自动驾驶车辆来说，还必须考虑车辆的横向位置，因为底盘控制器必须代替人类驾驶员进行横向操纵。

如上图 4 所示，MPC 转向控制可以预测未来的横向位置误差。

基于此，本文设计的底盘控制器旨在减少当前时刻的横摆角速度误差和未来某个时刻样本的横向位置误差。底盘控制器由上层控制器和下层控制器组成，如图3所示，本节介绍上层控制器。侧滑角和横摆角速度都广泛用于提高车辆的横向稳定性。然而，无法直接测量真实车辆的侧滑角，也很难以足够的精度估计该参数。

考虑到这个问题，仅利用横摆角速度来设计底盘控制器。通过将横摆率调节至所需值可以保持车辆横向稳定性。对于期望的横摆角速度，本文还采用了在许多 ESC 算法中广泛使用的δf和Vx当前值下的稳态横摆角速度。

在本文中，当从如上等式中公式升级期望横摆角速度时，还考虑了另外两个方面。首先，考虑了由于道路摩擦极限而导致的横摆率上限。其次，寻求更平滑的曲线来获得所需的横摆角速度，以避免要求控制器进行过于突然的改变。如下等式是考虑到这些因素后的最终期望偏航率。

上式中，g为重力加速度，μ为路面摩擦系数。参数τ是一个选择的时间常数，用于为γdes提供平滑的时间曲线。第二个方程还提供了第一个方程中稳态偏航率γss的上限，添加此值是为了考虑第一方程中不包括的道路摩擦效应。当在低摩擦路面上仅使用公式控制所需横摆角速度时，车辆的稳定性可能会降低。添加常数 0.85 是为了补偿在推导偏航率限制时忽略横向加速度的影响。

本文中的上底盘控制器采用滑模控制（SMC），从先前 AMPC 控制器的输出中找到所需的横摆力矩：横向位置误差和横摆率误差。之所以采用 SMC，是因为 SMC 可以在计算所需横摆力矩时考虑非线性系统特性（在本例中为非线性轮胎特性）。如下式中，s为由偏航率误差和横向位置误差组成的滑动面，以λ作为权重来确定两个误差的相对重要性。

在上述方程中，eyl是当前步骤后kp样本的横向位置误差，由AD控制器中的AMPC算法计算得出。

通过使用滑动表面的横向位置误差的预测值，上底盘控制器可以将车辆稳定地移回到期望的路径。这类似于许多自动驾驶车辆横向控制中采用的预测控制策略。

为了使上式中的函数成为Lyapunov 函数，必须满足滑模存在的充分条件（

）；当偏航力矩满足以下方程时，对应的力矩计算参照如下方程进行：

3.2. 下部底盘控制器 — 主动前转向AFS 和扭矩矢量TV

一旦上底盘控制器计算出所需的偏航力矩MB，下底盘控制器就会使用AFS和TV的集成控制来实现它。在这项研究中，主动前轮转向AFS 优先于扭矩矢量TV方式，以提高驾驶舒适度并降低能耗。

3.2.1 AFS控制

本节介绍如何使用 AFS 计算前转向角ΔδAFS，以实现来自上部底盘控制器的所需横摆力矩 MB。当附加前转向角 ΔδAFS较小时，可以假设方程中的Δαf = Δδf，因为方程中的其他剩余项要小得多。根据这一假设，由ΔδAFS引起的横向轮胎力和随后的横摆力矩可以通过如下方程求出。

从上式可以看出，为了从上底盘控制器获得所需的横摆力矩MB，前转向角ΔδAFS可以通过如上公式计算出来。

如上方程中需要将ΔδAFS限制在+-0.4 度之内。最终的前转向角是来自 AD 控制器的δf和来自 AFS 底盘控制器的ΔδAFS之和。方程中的约束可防止ΔδAFS变得太大并削弱 AD 控制器的路径跟踪能力。

3.2.2. 扭矩矢量控制

由四个 IWM 驱动的电动汽车可以实现四个车轮纵向力的任意组合；甚至某些车轮的牵引力和其他车轮的制动的组合也是可能的，且这种灵活性使系统能够同时考虑不同的性能方面。

在本设计中，扭矩控制TV 逻辑被设计为仅当 AFS 的转向力不足以产生上部底盘控制器的命令偏航力矩时才发挥作用。与 AFS 生成的前转向横摆力矩不同，TV 控制器在四个车轮处生成具有不同纵向力的横摆力矩。TV的控制变量可以定义如下。

如下方程显示了TV提供的偏航力矩的大小。

基于如上分析，将AFS和TV两种控制模式结合可以很好的实现有效的智驾系统车辆执行控制。

总结

前文介绍了一种针对具有四个独立 IWM 的自动驾驶车辆的集成 AD 控制系统。AD控制器是利用PI控制和AMPC实现纵向/横向路径跟踪控制。底盘控制器由两个横向控制单元组成：AFS控制和TV控制。他们共同使用滑模控制找到了维持车辆稳定性的横摆力矩，其中 AFS 优先于 TV，以提高安全裕度并节省能源。假设车辆在每个车轮上独立采用 IWM，AD控制器使用比例积分（PI）控制和自适应模型预测控制来实现纵向/横向路径跟踪。底盘控制器由两个横向控制单元组成：主动前轮转向（AFS）控制和扭矩矢量（TV）控制。他们共同找到了使用滑模控制来维持车辆稳定性的横摆力矩。AFS 优先于 TV，以提高安全裕度和节能。然后，通过解决约束最小二乘问题，将命令横摆力矩最优地分配到每个车轮。

该系统由AD控制器和底盘控制器组成，它们在功能上集成在一起，可以提高车辆稳定性和路径跟踪性能。

#奥迪确认用华为智驾

纯燃油实现『有路就能开』

在绝对的技术优势面前，“祖上再阔”也只能从善如流。

老牌豪华车企奥迪，确认上车华为智驾，搭载车型新A5L：

是华为的一个里程碑：首次上车合资、首次上车纯燃油。

业务拓展和工程落地的示范作用不言自明。

更是合资车企的转折点：自力更生的转型宣告失利，现在必须考虑新的模式、新的伙伴。

华为智驾，上车奥迪

奥迪官宣，新款A5L将搭载华为智驾，预计售价在30万元以上，它不仅是奥迪的一个全新车型，还将全面取代奥迪A4L。

之前放出的A5L官方图，隐约能看到前保险杠上安装了激光雷达：

据说，A5L的智驾系统将基于华为ADS 2.0系统打造，也就是华为智驾“扬名立万”，被广大用户认识、认可，大规模搭载在X界、阿维塔等等车型上的那套系统。

除了常规的摄像头毫米波雷达，ADS 2.0还包含3个激光雷达以及算力约400多TOPS的华为智能驾驶硬件。

功能上，ADS 2.0完全不依赖高精地图，无论高速还是城市道路，基本能做到有路就能开，自主识别交通信号灯、自主变道超车、自主上下匝道…

不过整套系统还是以手写规则为主（ADS 3.0实现端到端），短板是车流密集的博弈场景，避让为主的策略导致通行效率低下，通常需要人为接管。

至于自主泊车这样的功能，ADS 2.0轻松拿捏，成功率无限逼近100%。

所以如果华为工程师给A5L做的适配足够好，那么对于奥迪的智能化体验来说，属于瞬间从“ICU”复活，而且冲进了第一梯队。

当然前提是“如果”，适配A5L挑战不小，因为它是一辆纯燃油车。

这也是华为智驾第一次上车纯燃油。

油车当然可以搭载智驾技术，但为什么其他车企不这么干？

关键就在于，技术太复杂了。电动汽车能够迅速适配智驾技术，是因为电车的结构十分简单，它的核心就是电池、电机、电控。

纯电车或者以电架构为主的混动车，车控、驱动系统的参数少，而且数据种类、接口简单、清晰，适配成本低。

而且电为主的架构延迟小、冗余好做。

可油车呢？它的机械结构太复杂了。有油箱、有变速箱，还涉及到传动系统、发动机等。你用电机，智驾系统直接控制电机转速，就能控制行驶速度。可油车，你得控制喷油量，还得控制变速箱，档位自动匹配等。这套系统做下来，适配十分复杂。

奥迪当然可以把这些工作丢给华为，坐等验收。但这样一来单个项目成本会失控，更不利于后续其他车型的研发适配。

所以奥迪采用了更为长远的规划：PPC平台。

A5L，包括后续奥迪的燃油车，都会采用PPC平台架构。从机械层面的复用性和可扩展性上看，PPC平台和之前大众的MLB没啥不同，但电子电气架构采用了大众最新的E³ 1.2。

核心元件是五台高性能计算机，简称为HCP，涵盖了从驱动系统到舒适系统再到信息娱乐系统的所有车辆功能。

其中，HCP1控制驱动系统和悬架，HCP2负责驾驶员辅助系统，HCP3承担信息娱乐功能，HCP4管理舒适功能，而HCP5则负责网络连接和后端连接。通过这种分工，每个HCP可以专注于特定领域的功能，实现更高效的车辆控制和管理。

HCP其实就是一组域控制器，向上承接不同车载算法软件的指令，向下链接车辆本身各个执行机构，并且和车辆本身的软硬件解耦，适用不同车型。

所以华为智驾适配奥迪纯燃油车，并不涉及复杂的底层车辆数据，只需要通过HCP调用不同参数供ADS系统做出相应决策。

所以，华为智驾上车奥迪，最大的挑战应该是如何在规控层面让油车的体验更加丝滑平顺。

如何看待

奥迪拥抱华为，除了智驾体验一夜跻身头部阵营，给品牌形象加分外，对于旗下占比超过90%的燃油车用户而言，终于“智驾平权”了，可以享受和任何新势力、自主品牌一样的智驾产品。

奥迪本身，被大众缓慢、反复的转型拖累多年，新能源降价也难卖，智能化更是一副懵懂未开的样子，在用户那里落了一个“杂牌车”的笑柄。

和华为的合作，算是请到了智能化最强的“老师”，智能汽车的核心理念、技术，今后奥迪至少不会再走弯路了。

而且与赛力斯拥抱华为之后再难独立不同，奥迪汲取华为的优势，很可能再次雄起，嬴来一波新的增长周期。

而对于华为来说，把奥迪的项目做好，比营收利润更重要。

第一次上车合资，可以作为示范“样板间”，帮助后续开拓国际大厂的业务。

第一次上车纯燃油，证明华为工程适配能力，打开还占市场50%份额的燃油车智驾市场。

对于中国智能汽车技术出海，华为打开国际巨头主机厂的突破口，也值得重视。

以奥迪为例，费劲巴拉做油车的智驾化改造，核心在于全球范围内大部分都是油车车主，直接上电动化，风险太大。它可能带来一个灾难性的结果，就是电车卖不动，还失去油车车主了。

几乎所有的国际巨头主机厂都是这样：不能放弃油车优势，但也不能在智能化的潮流上，过度落伍。

那怎么办呢？只能联手华为这样的中国供应商。

比如除了华为智驾，奥迪还和上汽智己合作，引进电动平台…未来的传统豪车，几乎就只剩下一个车标。

这几年合资智能化自力更生基本都宣告失败，大众、丰田、雷诺、斯特兰蒂斯等等都在拥抱中国技术。

或许“外国品牌带路，中国技术出海”收割市场，是这些老牌汽车巨头继续繁荣下去的唯一出路了。

#探索自动驾驶中视频生成与世界模型之间量子纠缠

世界模型和视频生成是自动驾驶领域的关键技术，每项技术在提高自动驾驶系统的鲁棒性和可靠性方面都发挥着至关重要的作用。模拟真实世界环境动态的世界模型和产生逼真视频序列的视频生成模型正越来越多地被整合，以提高自动驾驶汽车的态势感知和决策能力。本文研究了这两种技术之间的关系，重点研究了它们的结构相似性，特别是在基于扩散的模型中，如何有助于更准确、更连贯地模拟驾驶场景。我们研究了JEPA、Genie和Sora等领先工作，这些工作展示了世界模型设计的不同方法，从而突显了世界模型缺乏普遍接受的定义。这些不同的解释强调了该领域对如何针对各种自动驾驶任务优化世界模型的不断发展的理解。此外，本文还讨论了该领域采用的关键评估指标，如用于3D场景重建的Chamfer distance和用于评估生成视频内容质量的FID。通过分析视频生成和世界模型之间的相互作用，本调查确定了关键挑战和未来的研究方向，强调了这些技术共同提高自动驾驶系统性能的潜力。本文的研究结果旨在全面了解视频生成和世界模型的集成如何推动开发更安全、更可靠的自动驾驶汽车的创新。

总结来说。本调查探讨了集成视频生成和世界模型的最新进展和挑战，重点关注它们在自动驾驶中的应用，如图1所示。它旨在突出这些技术的结构相似性和协同潜力，为自动驾驶汽车技术领域的未来研究方向和实际应用提供见解。具体而言，与其他作品相比，本综述有以下四个主要贡献：

分析了各个领域的世界模型的定义，强调世界模型的概念并不完全固定。它
介绍了我们对世界模型的理解，并考察了自动驾驶领域世界模型的结构一致性。
强调了视频生成模型和世界模型之间的结构相似性，解释了这些相似性如何提高自动驾驶系统的性能和能力。
确定了整合视频生成和世界模型的关键挑战和机遇，提供了如何在现实世界场景中进一步开发和应用这些技术的见解。

视频生成

视频生成涉及通过深度神经网络利用历史数据预测未来的视频帧。目标是通过准确预测与既定视觉和时间动态一致的后续帧，无缝扩展视频序列。此任务通常包含条件输入，其中未来帧不仅基于先前帧生成，还受到补充条件的影响，例如文本到视频的转换。该过程可以正式描述如下：

传统视频生成

在最初阶段，视频生成技术很难制作出自然、冗长的视频。早期的模型通常根据训练数据中的模式在像素级别预测下一帧，或者使用概率模型来改进数据分布近似值。这些尝试缺乏标准化的结构，采用了各种架构，如长短期记忆（LSTM）、Transformer和生成对抗网络（GAN），通过对抗训练来提高生成质量。

基于循环。基于循环的网络处理视频序列中的时间依赖性，这对于理解随时间变化的动态至关重要。它们记忆长期依赖关系的能力使基于循环的模型适用于具有连续动作或逐渐演变场景的场景，例如电影中的情节发展或监控视频分析。将传统的卷积神经网络（CNN）与循环网络相结合，利用CNN提取单个帧的局部特征，利用循环网络理解帧之间的时间和空间动态。开发了时空LSTM（ST-LSTM），增强了合成视频序列的时间和空间一致性。虽然对于捕捉时间依赖性很有效，但基于循环的模型可能计算量很大，并且可能难以处理很长的序列。
基于Transformer。与基于循环的模型不同，Transformers可以一次处理整个数据序列，通过堆叠更多层来增加复杂性和表现力。
基于GAN。通过对抗训练，GAN可以创建新颖逼真的视频内容。MoCoGAN，将视频分解为内容和运动，通过无监督训练和分离潜在空间实现随机生成。虽然GAN产生高质量的输出，但它们的训练具有挑战性，可能会遇到模式崩溃等问题，这会降低它们的灵活性。

传统的视频生成模型虽然具有开创性，但面临着影响其实际应用的重大局限性。它们通常缺乏跨不同视频类型的通用性和适应性，生成的视频质量经常不足，特别是在保持自然、连贯的长序列方面。这些挑战源于模型架构的局限性和训练复杂网络的计算负担，凸显了创新方法的必要性。下一节将探讨基于扩散模型的先进视频生成技术，旨在提高生成视频的质量、连贯性和长度，为该领域设定新的标准。

基于扩散模型的视频生成

1）图像生成的扩散模型：扩散模型是一种将朗之万动力学和随机微分方程相结合的概率生成模型，已成为生成方法的基石。由于其直接的训练、高质量的输出和控制能力，它已被广泛采用。当代SOTA视频生成模型严重依赖于扩散模型框架。去噪扩散概率模型（DDPM）代表了最直观和最广泛接受的公式。训练扩散模型包括两个阶段：正向过程和反向过程。在正向过程中，噪声逐渐添加到图像中，直到它几乎与高斯噪声无法区分。在反向过程中，该模型系统地从该噪声中重建原始图像。

2）视频生成的扩散模型：由于易于训练扩散模型及其一般结构，视频生成的研究通常遵循固定的流水线架构，这与之前的工作不同。该流水线通常包括自动编码器和核心扩散模型。训练过程分为两个阶段：（i）自动编码器学习数据的特征表示，将其压缩到一个潜在空间。（ii）然后在这个潜在空间内训练扩散模型，重点是通过利用压缩的特征表示来生成内容。基于UNet：扩散模型通常采用UNet，因为它能够通过跳跃连接进行多尺度特征提取和细节捕获。VideoComposer，将其与时空条件编码器（STC编码器）集成，用于多条件视频生成。

基于自回归：模型的可扩展性及其处理大型数据集的能力在视频生成任务中至关重要。MAsked Generative VIdeo Transformer（MAGVIT），利用3D标记器对视频输入进行序列化，并结合了MaskGIT和扩散模型的技术。Copilot4d是自动驾驶的场景生成模型，预测场景的未来3D表示。它将标记器与Transformer架构集成在一起，促进了环境动态的预测，并对代理对周围世界的理解进行了建模。

自动驾驶中的世界模型

从以强化学习为中心的世界模型到专注于数据抽象的JEPA，再到以先进的生成能力而闻名的基于数据驱动的DiT的Sora，以及模拟游戏场景的Genie——这些不同的模型都被定义为世界模型。与这种多样化的世界模型相比，自动驾驶领域的模型通常具有统一的结构：感知模块和预测模块。感知模块充当模型与其外部环境之间的中介，将输入数据压缩为特定的表示格式，以减轻后续预测过程的负担。预测模块使用这些精炼的数据来预测未来的状态，其中可能包括环境场景、决策过程。

同样基于扩散模型的视频生成框架的架构基础也分为两个主要部分：捕获和解码数据模式的自动编码器和预测数据分布的核心扩散模型，如图4所示。这种结构设计确保了模型能够有效地处理和生成复杂的数据。自动驾驶世界模型和基于扩散的视频生成框架之间的结构相似性突显了这种架构方法的有效性。利用这些先进的模型可以增强自动驾驶系统的态势感知和决策能力，为更可靠、更高效的自动驾驶汽车铺平道路。因此，本节将根据上述结构对自动驾驶领域的常见世界模型进行分类，表I和图3总结了自动驾驶中世界模型的方法。

1）感知预测结构：如前所述，自动驾驶领域的大多数世界模型都是基于固定结构的。无论是多模态编码器还是单个模态标记器，它们都是环境和模型之间的纽带，充当模型的感知者来收集信息和提取特征。擅长处理视觉信息的扩散模型和擅长处理序列化和语言信息的Transformer结构都用于拟合和预测现实世界的数据分布。因此本文将这种结构归类为感知预测结构。

2）强化学习结构：另一种类型的世界模型基于强化学习框架，它利用深度神经网络来取代其框架内的复杂学习过程。这种方法更侧重于理论研究以及如何表示现实世界的概率分布。此类工作通常涉及抽象框架，并倾向于采用端到端的应用模式。因此，本文将其归类为基于强化学习的另一种结构。

数据集和评测指标

鉴于目前缺乏自动驾驶世界模型的标准化基准，本文强调了专门针对该领域定制的数据集和评估指标的重要性。与之前关于视频生成的讨论（此处不再赘述）不同，我们的重点是表二所示的自动驾驶世界模型发展所必需的数据资源和指标。

前景和挑战

基于世界模型的方法代表了自动驾驶领域的一种前沿方法，能够对未来的驾驶场景进行高精度模拟和预测。该技术通过创建潜在未来事件的详细可视化，增强了自动驾驶汽车（AV）的态势感知和决策能力。随着这项技术的不断发展，它带来了许多机遇和挑战。

未来前景

1）增强多模态感知和控制的集成：未来世界模型旨在集成各种感知和控制信号，超越传统的模块化设计。利用MLLM和视觉扩散模型（VDM），这些系统将统一视觉和动作信号处理。这些模型将根据视觉动作对预测当前帧的控制信号，并根据历史数据预测未来帧，从而实现“无限驾驶”功能。这种集成将使自动驾驶汽车能够无缝地解释复杂的交通环境，对意外障碍做出迅速反应，并优化其导航策略。此外，多模式数据的统一将使更强大、更有弹性的自动驾驶系统能够在恶劣天气或交通繁忙等具有挑战性的条件下保持高性能。

2）多样化的驾驶场景生成：DriveDreamer-2和GAIA-1等先进的世界模型利用生成模型来创建多样化和逼真的驾驶视频。这些视频可用于训练各种驾驶感知方法，提高其在现实世界应用中的有效性。这些模型不仅可以生成高质量的驾驶视频，还可以通过用户友好的文本提示生成定制的场景，从而提高数据多样性和生成质量。这种能力对于开发能够处理从拥挤的城市街道到偏远农村道路等各种驾驶条件的自动驾驶汽车至关重要。此外，通过生成不同的场景，这些模型有助于识别和解决反车辆系统中的潜在弱点，确保它们为现实世界的部署做好充分准备。

3）扩展的无监督学习能力：下一代世界模型将进一步扩展无监督学习功能，通过离散扩散和标记化技术处理复杂的观察空间，在没有标签的情况下实现高效学习。这将显著增强自动驾驶系统在动态环境中的自适应和泛化能力。无监督学习将允许自动驾驶汽车通过从操作过程中遇到的大量数据中学习来不断改进，而不需要手动注释。这种方法将降低开发成本，加快AV技术的部署。此外，增强的无监督学习将使自动驾驶汽车更好地理解和适应新的和不可预见的驾驶情况，提高其整体性能和安全性。

挑战

1）数据稀缺性和注释复杂性：尽管在模拟环境中取得了重大进展，但实际应用仍然面临着数据稀缺和复杂注释的挑战。可以推广到现实世界复杂场景的训练模型需要大量高质量的训练数据，这些数据的收集和注释通常既耗时又昂贵。此外，不同地区驾驶条件的可变性需要一个多样化的数据集来确保全面的模型训练。解决这些问题不仅涉及收集更多数据，还涉及开发高效数据注释的创新方法，例如利用半监督学习技术或使用合成数据来增强现实世界的数据集。

2）计算资源和效率：训练高精度世界模型需要大量的计算资源和时间。尤其是扩散模型和LLMs的训练需要高性能硬件和长时间的训练，这对资源有限的研究团队构成了重大障碍。此外，在实时AV系统中部署这些模型需要优化算法，以便在机载有限的计算能力下高效运行。硬件加速方面的创新，如使用专用芯片进行人工智能处理，以及算法效率的提高，对于克服这些挑战和实现先进世界模型在自动驾驶中的实际应用至关重要。

3）隐私问题：自动驾驶汽车严重依赖数据收集和处理来导航和与环境互动。这包括对周围环境的持续监控，以及收集乘客数据以优化旅行路线和时间表。如此广泛的数据收集引发了重大的隐私问题，特别是关于谁拥有这些数据、如何使用这些数据以及如何保护个人隐私免受滥用。解决这些问题需要强有力的数据治理框架，包括明确的数据所有权政策、透明的数据使用实践以及确保数据安全和保护个人隐私的严格措施。确保公众对自动驾驶技术的信任对于其广泛采用至关重要。

4）结构创新：基于世界模型的工作很多，它们的整体结构在很大程度上仍然相似。然而，这并不意味着这些模型结构已经完善。将神经网络拟合到现实世界是一项极具挑战性的任务，因此，探索程序结构和模型选择仍然是一项重大任务。此外，目前专注于生成道路场景和视频生成的任务仍然产生次优结果，表明有相当大的改进空间。

通过不断克服这些挑战，未来的世界模型将更好地支持自动驾驶技术的发展，为更安全、更高效的自动驾驶系统奠定基础。这一进展不仅将彻底改变我们感知和与交通互动的方式，还将显著提高道路的整体安全性和效率。

结论

总之，本综述探讨了视频生成模型和世界模型之间的结构和概念相似性，强调了世界模型这一新兴但尚未定义的概念。世界模型对自动驾驶领域做出了重大贡献，特别是在有效地模拟现实世界和准确预测驾驶决策方面。此外，我们还讨论了该领域的未来前景和重大挑战，强调世界模型的结构设计和优化仍然是持续的任务。世界模型在自动驾驶领域具有巨大的潜力，为现实世界的模拟和预测分析提供了先进的功能。它们与视频生成模型无缝集成的能力增强了自动驾驶汽车的态势感知和决策准确性。尽管取得了这些进步，但仍然存在一些挑战，包括需要更复杂的数据集成、高效的模型训练，以及开发能够处理复杂和多样化驾驶场景的强大框架。应对这些挑战对于世界自动驾驶模型的持续发展和应用至关重要，为更安全、更可靠的自动驾驶系统铺平了道路。

#小鹏也背叛纯电了

小鹏汽车，开始了自己的“技术爆炸”。

刚刚的小鹏AI科技日，眼花缭乱黑科技太多，包括但不限于：

自研自动驾驶芯片、端到端后方的云端、数据支撑体系、舱驾一体、自研碳化硅电驱、L4 Robotaxi、即将量产的飞行汽车、已经在工厂拧螺丝的机器人….

以及谁也逃不过真香定律，小鹏汽车拜入了增程神教，首次披露了详细参数：

纯电续航超过400km、综合续航超过1400km，“1秒充电1公里“，完全颠覆目前所有插混、增程体验。

还有对比“一年换3代”的产品规划，小鹏创新搞出了用户众筹换芯片的计划，引起广泛热议。

小鹏的自动驾驶

“自动驾驶以前探索了很多，大部分都是失败和教训”——何小鹏这样评价前10年的研发历程。

原因不外乎以前都是手写规则，有了几亿行代码后，发现整个自动驾驶系统的泛化性、可维护性，以及最基本的用户体验，都走进了死胡同。

转机出现在2022年兴起的大模型革命，何小鹏的观点不新鲜仍旧是端到端解决数据驱动的问题，将智驾体验的上限无限拉高到和人类基本持平。

但值得关注的是小鹏为适应新技术范式在研发端和整个技术体系做出的变革，何小鹏总结了一下：

小鹏图灵AI智驾体系，是云端、软件、硬件全栈自研，包括云端大模型、车端大模型、面向大模型开发的AI芯片、以及面向大模型开发的底层架构。

其中，车端模型就是XNGP，但何小鹏认为，仅有车端模型的智驾，就像自学或者普通老师教开车，真正大幅提升体验的关键是云端大模型。

路线上与OpenAI一致，遵循尺度定律，提升模型大小、数据大小、增加训练计算量，让模型性能提升，目前小鹏云端大模型参数量是车端的80倍——搭配的算力是10EFLOPS（2025年）。

有云端模型后，小鹏的智驾就像有诺贝尔级别老师教开车，通过大量的数据来进行训练，然后通过知识的蒸馏把它放到本地端，然后通过这仿真跟强化学习的两大模块来共同来提高下限。

有云端模型的加持，小鹏车端大模型进步飞快，最新的版本中拟人感、变道成功率、绕行成功率大幅提升，未来18个月内，小鹏立的FLAG是实现类L3+智驾体验。

因为大模型要求端侧有绝对算力更强、软硬适配更“专”的硬件，所以小鹏自研了自动驾驶计算芯片——图灵：

图灵芯片专为AI而生，40核处理器，可本地运行30B的参数的大模型，集成2个NPU以及面向神经网络的特定领域架构。

有独立安全岛，实时检测车辆安全；有2个独立图像ISP，能够应对黑夜、下雨天、逆光等光线不足情况，感知更清晰。

一颗芯片通用AI机器人、AI汽车、飞行汽车，以及支持舱驾融合。10月份，小鹏已经在图灵芯片上跑通了智驾功能。

有了自己的算法、芯片，小鹏需要支撑软硬件的“神经”——沧海底座，通讯带宽提升33倍，带来更稳定的信息交互，更快的数据传输与响应。具体表现为摄像头出图速度更12倍、360影像启动速度提升10倍，为未来的AI汽车综合能力做好铺垫。

四大冗余设计，确保配电控制、计算平台硬件安全、芯片与软件安全、通讯安全。

最后，何小鹏透露了L4技术路线的进展：

1）有可能取消方向盘，从原来必选变为可选，用户可根据需要进行隐藏或使用。

2）L4会研发Ultra车型，Ultra车型将面向全球开发，为Robotaxi服务

3）确定采用线控底盘技术。

至于上线时间，何小鹏说“现在研究生在读的同学们可以留意一下，也许你们毕业的时候，小鹏的L4就出来了。”

小鹏增程，有啥不同

严格地说，这不是小鹏增程的“首秀”了，之前小鹏飞行汽车的“陆地航母”部分，已经确定采用增程，就是何小鹏这次官宣的鲲鹏电动体系——

最大的亮点是纯电续航：430km，满油满电的综合续航里程超1400km，并且CLTC效率93.5%，说人话就是续航达成率超高，以及“1秒充电1公里”，仅需12分钟即可充满80%。

突破点显而易见，超高的纯电续航，高出目前增程车一倍以上；以及和纯电车型持平的超快充电，和超越纯电车型的续航达成率。

主要技术创新有这么几点。

首先是混动车型的电池，是小鹏自研的5C电池。增程纯电通用，充电效率1分钟超过1公里，电池侧面可抵抗890kN压力，小鹏AI电池医生加持可优化整体性能，降低衰减。

第二点是小鹏800V平台能力，同样释放到增城体系上，配合未来的第五代液冷超充桩，把补能体验和纯电车拉平。

续航达成率超高，主要是小鹏自研的混合碳化硅同轴电驱，三大亮点：在减少使用60%的碳化硅，降低成本的同时提升电机输出功率。二是体积减少，较传统电机体积减少30%，留给后排更大空间。重量减少7.5%，减重节能。第三是运用混碳化硅芯片，大大提升电机性能。

最后，小鹏还谈到了目前增程车的痛点，比如增程器一介入又抖又吵，小鹏的鲲鹏增程低电状态下电动机介入的噪音与抖动，只比纯电高1分贝。这也意味着在驾驶感受上，几乎与纯电无异。

以及对于增程普遍的馈电能耗飙升、动力衰减情况，小鹏的办法是通过AI学习科学的能量分配方案，在低电状态下，动力、节能性、舒适度不打折。

小鹏的舱驾一体

后续，小鹏天玑AIOS也将跑在图灵AI芯片上，由2颗芯片同时驱动，AI算力相比传统智能座舱提升了20倍，CPU算力也提升了20倍，可以将百亿参数大模型部署在本地，实现更自然、无感的人机交互。

不过最关键的，是天玑AIOS可以自动实时感知车主语音和行为以及周边环境，自主思考判断车主需要提供何种座舱服务，不断进化成长，包括音响、动力系统，还是电池和底盘等等。

比如小鹏AI音响可以针对歌曲量声定制不同的频响曲线，如将普通双声道升级为全景声，将蓝牙音源的音乐主动升级为高码率HIFI音质。

又或者延缓电池性能衰减，小鹏还为每块电池配备了专属的“电池管理芯片”。借助“AI电池医生”，可将电池寿命有效提升30%，即使用车超过7年，也能将电池衰减保持在10%以下。

前面介绍的增程鲲鹏动力系统实现“平路能耗低、爬坡更有力”，其实也借助了天玑OS，针对相对平滑的铺装路面，车辆将更多使用电能，减少能耗；针对爬坡、泥泞、雪地等场景，发动机会提前介入避免电量过低导致动力不足。

结合视觉识别+云端图层的感知能力，小鹏AI底盘还可提前感知到前方颠簸并及时调整姿态。

这其实就是小鹏口中AI定义汽车相比之前软件定义汽车的最大区别，从工程师、用户规定车该怎么做，到现在由AI通过学习归纳，主动给出提升体验的解决方案。

小鹏的飞行汽车、机器人

最后，是小鹏一直坚持的前沿探索：飞行汽车和机器人。

短期看离用户很远，但何小鹏认为任何时候都不要低估新技术新产品的发展速度。

小鹏飞行汽车主要回答了四个问题。

第一能不能卖？目前陆地航母的飞行器今天在中国已经完成了适航合格证的申请受理，期待明年拿到中国民航型号的认证。

第二怎么飞？小鹏首创单杆的操控系统，如果你会开车， 5 分钟就能够简单上手，3个小时能够掌握。

第三如何批准航线？2026年的左右，中国很多区域都可以实现一键报备起飞，飞行汽车的使用会非常的方便，用 AI 来辅助起降、自起飞、降落、规划航线，甚至一键的返航。

第四安不安全？飞控系统用了三冗余，也就是说坏了一套，还有一套，第二套坏了，还有第三套。动力、供电、通信跟操控上也都有双冗余。

量产进度上，小鹏分体式飞行汽车将在11月全球公开首飞，12月正式启动预售。

机器人方面，最新一代更加像人了，尺寸上用的是1：1类真人尺寸和比例，”大脑“采用图灵AI芯片，能够像人一样思考记忆，同时也让手脚自主活动，双手也采用1：1人类双手尺寸，有15个双手自由度。身体上也有62个自由度。

技术与智驾体系同源，采用了AI汽车上的鹰眼视觉系统，可以720°无死角看世界。还运用了端到端大模型和强化学习算法，让机器人行走有像驾驶般的能力。

目前已经进入小鹏汽车工厂打螺丝：

最后，总结一下小鹏AI科技日的主要内容：

端到端普及促成小鹏自动驾驶研发思路和体系的变革，自研芯片、舱驾一体、新EE架构顺势而生，全无人的L4 Robotaxi正在进展中。

增程量产车提上日程，800V、5C电池加持的超大续航超快充上车混动，并且拿出了成本性能更加平衡的碳化硅电驱技术。

飞行汽车走到量产前夜，也走在行业最前；人形机器人则实现了和自动驾驶在芯片、传感器、部分算法的打通。

感叹一句：大模型兴起，小鹏得偿所愿。一套基础设施、一个技术底座驱动多种不同产品的愿景正在越来越清晰。

是不是有点熟悉？

One more thing

小鹏自研芯片，毫无疑问对智驾座舱的支持会更好。

那以前的车主呢？

小鹏别出心裁，首创“众筹换芯片”：

单Orin芯片升级为双Orin芯片，即可获得城市NGP、AI 代驾等高阶辅助驾驶功能，智能辅助智驾能力将随OTA升级迭代。

820A芯片升级为8295芯片, 车机系统流畅度提升2倍，可增加浏览器、X-Pad等新功能，智能辅助智驾能力将随OTA升级迭代。

诚意够吗？

#小鹏的救赎之路

P7+18万开卖，服务器被挤爆了！

18万6千8，你就能买到“全中国最、最、最牛X的智能驾驶”：

小鹏P7+刚刚正式上市，何小鹏把广告法按在地上摩擦。

P7+智能化被提升到史无前例的高度，冠以“AI汽车”之名，除了“最最最牛X”，何小鹏还有更多的形容：

小鹏智驾是行业T0，远远领先第一梯队。

端里端气，一整天可以不摸方向盘。

一年能力提升10倍、20倍！

……

用户给出了最直接的反馈，发布会结束不到半小时，官方订车页面已被挤崩溃（据说流量是MONA 03的20倍）：

怎么感觉大家买车买出了春节抢票的节奏~

没有激光雷达的车，怎么可能这么厉害？

“最最最牛X”的智驾

功能上，同样是不分城市、高速，不依赖高精地图的NOA，P7+没有激光雷达，全靠端到端加持，与目前两个、三个激光雷达的系统没有任何区别。

不分路段、不分地域、不分时段全高阶智驾覆盖。

这些场景大部分智驾系统都能完成，但有了端到端，P7+行为更拟人，更顺滑。

绝对能力差别上，在于刁钻古怪场景，比如道路两边摆满违停车辆，可通行区域极其狭窄：

或者路边违停车，P7+能够准确识别绕行，而市面上的传统智驾技术，会把这样的目标识别成等红灯的车，陷入无止境的等候。

这一个案例就看出端到端的优势和降维打击——学习人类成熟司机案例，驾驶行为上限极高。

背后的技术体系我们之前详细介绍过，传感器端应用了车规LOFIC架构摄像头，视野更好。

算法端，小鹏目前的端到端超越简单的“一段式”或“多段式”，采用了车端+云端大模型的方式：

车端模型就是XNGP，真正大幅提升体验的关键是云端大模型。

有云端模型后，小鹏的智驾就像有诺贝尔级别老师教开车，通过大量的数据来进行训练，然后通过知识蒸馏把它放到本地端，然后通过这仿真跟强化学习的两大模块来共同来提高下限。

所以小鹏的自动驾驶能力，已经从原来人为写代码、人为定义规则、人为调参这样的“刀耕火种”时代，开始向全流程AI化演变。

一个最起码、直接的优势，是小鹏智驾现在的进步速度绝非传统自动驾驶团队可比，何小鹏给出了一个参考尺度：

到明年年底，NGP（以后统一都叫NGP）做到每100公里接管一次。

能力提升10-20倍。

所以当下随车交付的P7+智驾系统的接管水平，大概也就心里有数了。

中国道路上不带激光雷达的高阶智驾，这样的水平的确可以称“最”。

以及这么“牛X”的智驾，P7+不选配不订阅不加价，全系标配。

续航、能耗也能OTA?

之前后台用户吐槽P7+最多的就是全系单电机，感觉似乎没有新能源该有的运动和生猛。

不过今天官宣零百加速分别为5.9s和6.9s，分别对应21.88万、19.88万的限定版和超长续航版，以及18.68万的长续航版。

C级轿车还是单电机，做出这样的动力水平只有小鹏一家。

并且在动力不打折的同时，续航比之前预售时还增加了：

变成了目前唯一在续航上实现OTA的车型，背后当然是小鹏一贯优秀的能耗控制水平和三电系统集成度。

续航达成率超高，主要是小鹏自研的混合碳化硅同轴电驱，三大亮点：在减少使用60%的碳化硅，降低成本的同时提升电机输出功率。二是体积减少，较传统电机体积减少30%，留给后排更大空间。重量减少7.5%，减重节能。第三是运用混碳化硅芯片，大大提升电机性能。

还有哪些亮点？

小鹏P7+的定位和取向，我们早就详细介绍过，快速复习一下。

首先是20万以内空间最大的轿跑：

长宽高分别为5056/1937/1512mm，轴距为3000mm，中大型轿车尺寸，同级别竞争对手包括极氪007、领克07、蔚来ET7、小米SU7等等。

但P7+本身又采用中置轿跑姿态，这样的造型除了取得运动、俯冲视觉效果的同时，也带来了更⼤的内部空间——空间，是老款P7和P7i最被用户诟病的短板，P7+上成了重点优化项目，和外表大相径庭，内部配置和空间，一切为了家用实用。

官方宣称拥有88%空间利⽤率，以及65%的有效乘坐空间利⽤率。

尤其是⼆排空间充分释放，994mm的后排乘坐空间搭配纯平地台，实际体验下来非常宽敞。

在大空间的基础上，后排坐垫⾼度也达到了285mm，坐垫⻓度330.1mm。

电池包高度仅109mm，所以头部空间也得到了保障。

后备箱725L，后排座椅放倒后可拓展至2221L，能同时放置32个20寸行李箱，何小鹏现场还亲自演示了一把：

以及空间之外，还有很多舒适豪华配置，都是对标56E的顶配。

比如「香水奥斯卡」大师定制香氛，3种香味任意切换。比如全系标配了20扬声器高保真音响，配合7.1.4全景声场布置，体验越级对标柏林之声。

再比如座椅通风、加热、按摩、Nappa真皮、20扬声器高保真音响等，豪华行政的顶配选配，小鹏P7+全部做到了全系标配，一步到位。

或者整车上36处隔音棉，拥有录音棚级别的座舱静谧性，NVH表现超越豪华行政同等状况表现。

所有这些舒适豪华配置，P7+也是全系标配，18.68万的版本上就全都有。

而那个顶配“限定版”，多出来的是后排娱乐屏、订制车漆内饰颜色、迎宾灯、20寸运动轮毂等等这些不影响基本使用体验的“附加项”。

智驾的角度，P7+是目前国内道路上纯视觉领先，并且通过技术打破激光雷达在高阶智驾的垄断。

车本身的角度，P7+百以往50万以上C级豪华车的配置，有一样算一样标配到了不到20万的起售价。

再加上小鹏的“审美”终于开窍，除了眼下用户挤爆官方服务器，后续P7+的持续爆款也几乎没有悬念。

小鹏汽车本身，通过MONA 03、P7+，走出低谷，也摆脱了危机，更重要的是在技术和管理两个体系上，都面貌一新——知道了自己的优势是什么，还知道了怎么保持这种优势。

“新势力”阶段，小鹏正式宣告毕业了。

#全球第一企业的能力盲区？

英伟达市值冲上4万亿美元、成为全球第一之时，黄仁勋访华，他把中国车企全都夸了一遍，这段视频全网流传后，有网友如此调侃。

但骄阳之下也有耀斑。这些被黄仁勋拉拢的优秀车企们，正试图甩开英伟达。

“very scary（相当可怕）。”

通用汽车高管评测英伟达辅助驾驶方案后，在内部给出了上述评价。今年3月，英伟达CEO黄仁勋亲口宣布了双方的合作，通用汽车计划基于英伟达技术，打造自动驾驶车队。他还展示了英伟达汽车业务的蓬勃前景:与丰田、奔驰等都达成了合作，预计2026年，自动驾驶业务将创造50亿美元收入。

但通用本月初的评审，让双方合作蒙上了阴影。据36氪汽车了解，英伟达自动驾驶团队已经将结果“通知了老黄（黄仁勋）”。

汽车创新业务上，已经不是英伟达第一次碰壁。在通用汽车高管之前，奔驰也给出过类似评价。

去年6月，奔驰CEO康林松和他的技术副总裁在美国参与了上千公里的跨城测试：先后驾驶搭载英伟达和Momenta的辅助驾驶车辆，往返洛杉矶和旧金山。

让奔驰掌舵人震惊的是，哪怕在北美大本营，英伟达的辅助驾驶效果也不如中国的初创公司Momenta。

英伟达汽车业务负责人吴新宙得知这个结果后，也在内部表达了不满。毕竟Momenta在家门口“踢馆”的软件，只花了不到1个月调试而成。

奔驰已经将中国区多款车型的辅助驾驶业务，从英伟达手中切给了Momenta。英伟达的另一个软件客户捷豹路虎，也在另觅辅助驾驶供应商。“英伟达员工在中国基本不对接车企项目了。”

在今天竞争拳拳到肉的中国车市，车企没有时间再留给英伟达。

当然，汽车智能软件业务，对于英伟达来说只是小业务。即使把汽车计算芯片的业务考虑进来——从Xavier到Orin再到Thor，英伟达已经连续推出多代芯片产品——这部分收入在英伟达1305亿美元的整体收入中占比不到2%。

这部分即便做得再好，以该领域头部华为智能车BU为例，它去年综合软硬件所有服务，全年营收264亿元，英伟达大约10天就能赚到。

那为什么要关注这微不足道的小业务？

你相信人工智能未来会进入机器躯壳、走入真实物理世界吗？

汽车可被视作没有手的机器人，其技术路线与当下极度火热的xx智能机器人一脉相承。正因为这种技术预见，一年多前，英伟达已经将汽车和机器人部门合并。黄仁勋也说，他相信未来小米、比亚迪都能造出很棒的机器人。

智能汽车，业内公认是将最先落地的xx智能产品。因为其产业基础足够成熟，使用场景也相对标准。“如果自动驾驶未来几年不能实现，xx智能就很可能成为泡沫。”有车企创始人告诉36氪。

拥抱汽车自动驾驶，约等于拥抱物理世界的人工智能。

技术发展的速度可以很快。不要忘记，英伟达的腾飞是基于AI大模型的飞速发展，而在两年半前chatGPT震惊世界之前，英伟达的市值还不到今天的1/10。

因此，抓住这看似边缘的小业务，其实是件大事情。

不幸的是，虽然车企们过去一直都在追逐首发英伟达的芯片，但是从最新一代的Thor雷神芯片开始，在中国市场，英伟达正面临批量丢失头部客户的风险。

危胁不仅来自专注做辅助驾驶业务的华为、地平线和Momenta。

追随着特斯拉自研芯片的技术脚步，中国新造车公司无不在推出自研的车载AI芯片。蔚来和小鹏的自主芯片已经交付上车；理想的辅助驾驶芯片明年量产；小米创始人雷军也明确表示，自身的汽车芯片将很快推出。

当然，推出芯片的难度也是巨大的。海量的难度同样堆叠在中国车企和服务商面前。

「英伟达新款芯片延期风波」

去年底，理想汽车不少供应商收到通知，原定于今年3月推出的增程L系列改款车型集体推迟至今年5月，所备物料跟随计划统一调整。

有理想核心供应商人士向36氪透露，这场变动正是因为英伟达Thor芯片未能及时交付。理想汽车是英伟达汽车芯片的核心客户之一，曾首发了上一代英伟达智能辅助驾驶芯片Orin。

而英伟达最新一代Thor芯片，理想汽车同样是首发车企之一。理想主力就是增程车型，该系列2025款的一项重头升级，就是将智能辅助驾驶芯片升级为700TOPS算力的Thor。

而基于英伟达Thor，理想汽车还将推出最新一代辅助驾驶技术VLA（视觉-语言-动作）模型，这也是公司人工智能战略的重要支点。

理想遭遇的Thor交付延期，不是第一次，最早Thor芯片承诺的量产时间是2024年底。也就是说，从今年3月到5月，几乎是Thor芯片的第三次大范围延期。

延期带来的是真金白银的销量损失。从理想L系列改款推出的前后销量数据来看，月销量差距超过万辆。换言之，如果理想L系列改款能在3月如期推出，将起码多卖出2万辆汽车，对应约60亿元的销售收入。

小鹏汽车首先嗅到了英伟达芯片延期的风险。有小鹏工程师向36氪回忆，去年年中，公司还强调，要以英伟达Thor的交付为主，自研图灵芯片只是备选方案。

毕竟从供应链安全，成本以及产品成熟度等等来看，整车部门都不愿意让“自研芯片过快上车”。

但是到今年年初，小鹏看到Thor即将多次延期的信号，果断搁置了Thor平台的开发，集中资源，紧急适配自研的图灵芯片。如今，小鹏的芯片已经开始在小鹏新车G7上交付装车。

车企们原本担忧自研芯片成熟度不足，但对比英伟达Thor上车的艰难体验后，他们释怀了。

有车企工程师向36氪讲述了配合Thor上车的过程，堪称煎熬。英伟达最早交付的Thor芯片，存在大量工程和设计问题，“连车规都没过，官方宣传的700TOPS算力，也不再承诺”。

双方对Thor进行了数轮调整后，才达到量产交付效果。但英伟达原先宣称的700TOPS算力，已经缩水到500都不到。理想汽车今年计划在该芯片上部署参数量高达30亿的VLA模型，但因算力不足，难度陡增。

据了解，理想汽车已经在加快自研芯片的上车进度，提前了数月，计划在明年一季度交付上车。

蔚来、小鹏已经不在名单，比亚迪、小米、理想都将推出自研汽车芯片

“各家自研芯片上车后，英伟达芯片还能占多大比重，就不好说了。”有多位车企管理层告诉36氪，长远来看，可能只有海外车型需要。

当然，自研智能辅助驾驶芯片，本身已经进入各家头部车企的战略进程。而Thor的不断延期和交付不力，只是帮助各家自研芯片上车，踢出了临门一脚。

「卧薪尝胆，头部车企突破了芯片自研」

研发芯片，对于任何一家车企而言都堪称冒险。一辆整车的开发周期现在大约是18个月，但是一款芯片的研发，不管是蔚来、理想、小鹏等，几乎都足足推进了4年。

但地缘摩擦不断升级，断供的恐惧成了各家车企自研芯片的达摩克利斯之剑。

过去四年，可以用“卧薪尝胆”来形容。

踩坑是常态。不光大量IP需要花钱买授权，“每卖出一颗芯片都要付钱”，而且像EDA（芯片设计工具）这种芯片链条上的技术公司，每一家都是巨头，“每一家的合作也都不好谈”。

小鹏汽车CEO何小鹏曾经公开讲述，小鹏的图灵芯片曾大幅度调整过设计方案，而且向早期的合作方赔付了一笔巨款。

据了解，这家合作方是美国的芯片公司Marvell半导体，小鹏汽车最早的芯片设计合作方。

可以理解为，Marvell是车企在芯片代工厂台积电的“生产资质”。Marvell本身是台积电的顶级客户，车企通过Marvell提供的前端/后端设计服务，可以在台积电进行芯片流片。

一方面，早期小鹏汽车对于芯片的定位是超高制程和顶尖性能，但推进后发现，这个方案成本偏高，几乎算不过来账——参与其中的知情人士向36氪回忆。

此同时，合作方Marvell 在汽车大算力芯片的设计经验也相当欠缺，最终双方“和平分手”，小鹏汽车付出的代价是过亿美元的赔偿金。与此后，小鹏汽车更换芯片集成商索喜科技为合作方。

“在此过程中，你会受到来自整车和采购从各个方面发出的challenge（挑战），如果没有何小鹏的坚持，一定推进不下去。”上述人士感慨自研芯片的曲折。

对大模型能力的支持也考验着从2021年就启动的芯片项目。当时的Transformer还只是在硅谷流行不久的新兴技术，小鹏汽车也是得益于在硅谷团队提出的意见，在芯片设计中加入了相应的支持算子。但遗憾的是，放到今天来用，底层的支持依然不够全面。

蔚来的自研芯片之路也堪称惊险。李斌曾公开发文回忆，“最惊险的一次是2023年，在芯片前端设计即将完成的关键时刻，一家重要的合作伙伴突然决定结束中国区业务。”36氪汽车了解到，这家撤出中国的芯片设计公司同样是Marvell。

蔚来的芯片后端设计遇到严峻挑战，最后硬是自己搭建后端设计团队、去台积电申请账号，一步步推进到流片。

也因如此，蔚来的芯片团队规模异常齐全，从前端设计、后端设计，到测试，有600多人，接近一个标准芯片公司的配置。

车企对汽车芯片的理解有其优势。不少工程师向36氪评价，蔚来神玑芯片的架构设计甚至比英伟达的Thor更为合理，其实无需迷信英伟达，因为“在自动驾驶芯片上，其实大家都在差不多的起跑线上。”

上千TOPS的车端超大算力芯片，英伟达的确也是第一次设计。

有外媒报道，在量产前，台积电工程师发现了连接两个英伟达Blackwell GPU的裸晶上存在设计缺陷，该缺陷会导致芯片良率或产量降低。黄仁勋此前也公开承认：“Blackwell有一个设计缺陷，会导致良品率降低。”

而车企的自研芯片几乎都已经跑出了第一步——据36氪汽车了解，蔚小理三家首颗自研芯片的成本基本在3-4亿美元之间。投入还在持续增加。理想汽车等已经在筹备第二颗芯片研发。

即便耗时费力，车企自研自动驾驶芯片的原因是什么？

降本当然是核心价值之一。李斌曾表示，搭载自研芯片神玑后，可以帮助整车降本达到1万元。

但是算法和芯片的高度匹配，是更长远的战略价值。有小鹏人士透露，目前公司的整个AI技术栈，都在围绕图灵芯片去设计，包括正在开发中的基座模型。

据了解，何小鹏也曾在私下场合表示，“做了自己的芯片之后，才发现了更多之前没有看到的好处。”小鹏汽车坚持走纯视觉技术路线，因此可以在自家图灵AI芯片集成两个独立的图像信号处理器（ISP），用于提升车辆在各种光线条件下（如黑夜、雨天、逆光）的感知能力。

理想汽车对大模型技术在上车应用的探索很多，其技术管理人员也告诉36氪，AI技术在汽车上的应用速度越来越快，即便是英伟达自身，也在芯片设计中考虑不周，要么是内存带宽不够，要么是NPU的带宽不足，可能导致算法时延偏高等问题，“这些都是在具体部署过程中才能发现，如果是自研芯片，反馈和调整的节奏肯定更快。”

特斯拉正是凭借自研芯片的支撑，早于行业一年部署了约30亿参数模型的FSD（辅助驾驶软件包）。

国内新造车公司们也在辅助驾驶软件上竞技，而了解软件，才能知道芯片怎么做。

这是特斯拉和国内头部车企的优势。当下，辅助驾驶正持续向大模型、大算力芯片方向进化。据外媒报道，特斯拉全自动驾驶FSD的下一代芯片AI 5已进入量产阶段，算力预计达到2000-2500TOPS。马斯克透露正在开发一个性能更先进、参数量比现在大4.5倍的模型。

中国头部车企也都将人工智能视为核心战略之一，而自研芯片、从底层构建起AI能力，是他们极想啃下的硬骨头。

而且，巨大的沉没成本，意味着自研芯片项目一旦起步，就难以回头。

「英伟达，不按车厂的节奏走」

销量为生命线的车市，交付就是车企和供应商的头号使命。去年蔚来乐道汽车电池紧缺，宁德时代这样的电池龙头，也要加班加点，比原计划提前1个月拉动产能。

但是在英伟达，这样的强交付体系显然未能建立。过去的GPU市场，英伟达从来是一个引领者，下游的合作方，无不根据英伟达的芯片制定产品方向和节奏。汽车芯片设计几乎也遵循了这个原则。

Thor芯片面向整个机器人，并非专为汽车而生。它嫁接在英伟达最新一代的AI芯片架构Blackwell之下。

基于Blackwell 架构的GPU是英伟达旗舰型产品，有2080亿个晶体管，采用专门定制的台积电N4P （4纳米制程高性能版）工艺制造，以实现更高的晶体管密度，更低功耗。

但问题就出在这里。

N4P的主战场是消费级电子，换句话说，这并非专门为汽车芯片而生。而台积电的车规级4纳米制程，要等到2025年才完成。

车规级工艺，往往意味着更严苛的安全标准。不只台积电工艺要达标，上游晶圆厂也要符合，下游还要做车规级封装和测试，“车规级的测试成本比消费级芯片多3倍，因为要多测3遍。”

普遍来说，台积电的汽车工艺量产时间比消费级芯片晚 2 年，制程越高，时间可能更长。这是芯片技术验证周期、供应链优先级和车规认证体系共同决定的。

“相比消费级芯片，汽车芯片的量比较小，晶圆厂是传统制造业，一定会先兼顾消费类芯片。”这些都无形中推延了Thor的交付。

一款产品的延期，几乎导致汽车客户百亿级的损失，这在任何汽车供应链公司，都无疑会掀起一场反思风暴。但是在英伟达内部几乎没有过。

因为英伟达并非一家汽车供应链公司。在这家全球市值第一公司的版图里，请记住，汽车业务占比不到2%。

英伟达其实非常努力（36氪获悉其技术团队圣诞节都在加班），但它考虑的是如何攻克技术难题，想的是远方，而不是汽车交付的当下。

如果以当下交付的节奏优先，汽车芯片其实可以用更成熟的制程实现，因为汽车以稳定性为核心，不用毫厘必争，死磕最新先进制程。

至于资源配置上，英伟达也未向车企倾斜。多位车企工程师向36氪坦言，面对Thor的交付困境时，能看到配置的资源确实不足，“甚至一些芯片的设计缺陷，都是车企自己在域控上去做工程兜底。”而黄仁勋日常的邮件回复中，也很少过问汽车业务。

服务车企不在英伟达的优先级排序前列，这跟同样强势的顶尖车企，形成了难以调和的矛盾。

而在芯片之外，英伟达想要发力的自动驾驶软件，还有一大批嗷嗷待哺的中国技术公司，在围追堵截。

「英伟达失去的，是中国公司的机会」

在自动驾驶软件算法这件事情上，硬件出身的英伟达曾与软件起家的创业公司Momenta多次交锋，都处于“以己之短、攻对方之长”的处境。

2024年2月，英伟达汽车业务负责人吴新宙曾带着多个VP及高级总监员工，从美国飞到上海，驻扎了一个半月时间进行开发，但与Momenta的体验仍有差距。

有英伟达员工告诉36氪汽车，去年中，奔驰再次要求在上海进行城市NOA演示。Momenta的产品演示基本全程0接管，但“英伟达急刹，突然猛加速都有，不太符合人类驾驶的习惯”。

吴新宙是前小鹏辅助驾驶灵魂人物。在小鹏汽车任职期间，能够实现高阶辅助驾驶产品的交付，正是凭借其“能卷”的超强执行力。加入英伟达后，吴新宙也保持了每天上车测试的习惯。

但依然未能在与一家中国技术公司的PK中取胜。

企业文化是一道巨大的沟壑。加入英伟达后，吴新宙虽然在中国招募了约200人团队，但英伟达辅助驾驶团队80%主力都在美国，规模超2000人，“中国团队几乎做不了决策，即便有特殊case，要不要解决、怎么解决都是美国团队说了算。内部有时开玩笑，中国有点像美国团队的‘傀儡’。”

而国内头部玩家，要么团队规模庞大，要么高强度封闭式开发，交付和执行力都更能满足国内汽车客户的需求。

英伟达的企业文化是，不轻易裁员。据36氪了解，加入英伟达超过3年的员工，只要股票没有太早抛掉，“基本都已经身家千万元，相对财富自由，没有卷起来的动力。”

这也难让英伟达员工向车企“低头”。有员工回忆，在跟奔驰开项目会时，甚至会有美国英伟达员工直接拍桌子，跟奔驰的人说“请记住我们是战略合作关系，我们是平等的，我们不是甲乙方的关系”。

但Momenta、轻舟智航、元戎启行等中国软件公司正在为了生存而狂奔。Momenta创始人曹旭东曾告诉36氪：为配套车企的量产速度，Momenta可以做到从开始合作到上车交付，硬件部署加上算法调试只需三个月。在轻舟智航的办公室里，挂着标语：对客户的无理要求，也要再挖三分。

“6个月中2-3个月处于拼搏状态，内部觉得是合理的。”momenta员工说道。这可能不符合一部分员工的观念，但有助于这家创业公司在辅助驾驶淘汰赛中存活下来。

英伟达也在试图激发团队活力。有知情人士告诉36氪，黄仁勋已经在年初招募了前惠普人事主管Kristin Major，担任公司高级副总裁，不少员工向36氪猜测，“这是领着激发公司斗志的任务来的。”

今年6月早些时候，黄仁勋在英伟达巴黎GTC大会上预测：在不久的将来，所有移动的东西都将由机器人驱动，下一个领域将是汽车。

这个判断足够精准。车企人士告诉36氪，同样发力汽车市场的高通，这部分业务营收占比已经从2年前的1.2%，增长到如今接近10%，该公司正在将越来越多新技术应用于汽车芯片。

但英伟达在GPU市场建立的CUDA\NVlink等密不透风的生态壁垒，似乎难以转化成汽车的护城河。不少合作车企都在观望，英伟达的汽车芯片或者软件业务是否会被放弃。

在中国这个智能汽车的最佳试验田，正在密集插上别家的旗帜。

#端到端自动驾驶万字长文总结

我们来看一下端到端自动驾驶算法的当前发展状况，并进行简要总结。首先，探讨端到端算法的研究背景。端到端算法框架是什么？它与传统算法有何区别？

我们来看这个 pipeline 的第一行，这是传统自动驾驶算法的流程：先进行感知，然后预测，最后规划。每个模块的输入输出不同。

感知模块 的输入是图像或激光雷达数据，输出边界框作为预测模块的输入；预测模块输出轨迹，再进行规划。这是传统算法的流程。

端到端算法 的输入是原始传感器数据，直接输出路径点。输出路径点与控制信号本质相同，因为从路径点到控制信号有固定算法转换。此外，回归路径点相对容易，因此多数算法选择输出路径点。

传统算法的优点是易于调试和问题定位，具有一定的 可解释性。缺点是存在 误差累积 问题，因为无法保证感知和预测模块完全无误差。

同时，感知信息的原始数据存在一定的信息损失。在预测时，仅输入了感知的输入结果。

然而，它并未与初始感知信息进行交互。传统端到端算法并非没有缺点。通过大量文献阅读发现，多段多算法也存在局限性。例如，当前常用范式是通过模仿学习实现，但这种方法难以有效解决所有corner case问题，主要因其数据驱动的特性。

若在数据集中加入少量corner case样本，模型可能将其视为噪声而无法充分学习；若增加corner case样本比例，又会影响常规操作性能。此外，真值数据本身存在噪声，在某些场景下人类驾驶数据并非完全最优解，因为规划问题本身不存在绝对固定的最优解。因此，模仿学习方法存在固有局限性，端到端数据驱动算法的能力目前仍有限制。

关于端到端算法的现有范式，综述中总结了以下几种：模仿学习可分为行为克隆（论文中较常见）和逆优化控制（论文中较少见）；强化学习方法在论文中也不常见。此外，评估方法可分为开环和闭环两种：闭环评估中，自车与环境存在交互，执行动作会影响他车，信息随时间推移动态变化；而开环评估则使用固定场景数据。

当前面临的挑战包括可解释性问题、安全保证以及因果混淆现象。以因果混淆为例：当车辆在中间车道直行，因红灯停车后绿灯起步时，模型可能并未学习到“绿灯起步”这一因果关系，而是误将旁边车道车辆起步作为启动信号。

在起步阶段，若周围无其他车辆且信号灯为绿灯时，系统可能出现沙瓶效应。这属于因果混淆的典型案例，在传统算法中构成显著挑战。此外，该系统还需解决输入模态多样性、多任务学习及知识蒸馏等技术难题。

接下来，我们将探讨当前经典的端到端自动驾驶算法的实现方式。

首先介绍的是ST-P3算法，这是一篇较早关于端到端自动驾驶算法的论文。该算法基于时空学习，专注于端到端自动驾驶的实现。其整体框架如下：输入为环视相机图像，明确设计了三个核心模块——感知、预测和规划，最终输出自动驾驶车辆的轨迹。

该论文的创新点主要体现在感知、预测和规划三个方面：

感知模块：采用了一种以自车为中心的累积对齐技术。
预测模块：通过双路预测机制实现。
规划模块：引入先验信息对生成的轨迹进行优化。

我们来看具体的细节。

首先，在感知模块中，右上角的公式表示输入图像信息CHW。对特征进行提取后，结合预测的深度信息DK，采用类似LSS范式的方法，通过图像特征和深度特征进行插值，得到微点云的空间表示，即BEV空间。这里生成的是一个UdVDD1维度的微点云信息。

该方法的创新点在于考虑了RO角和PG角不为零的情况。传统BEV算法假设地面平坦，即RO角为零。而该方法对3D微点云信息进行对齐处理后再投影到BEV空间。此外，还进行了时序融合，为每个时序特征赋予权重，类似于注意力机制的操作，并在特征通道上增加了自车维度。

在预测模块，采用双路结构。第一路输入为X1到ST时刻的感知特征，通过GRU进行递归处理；第二路考虑到感知特征预测的不稳定性，引入高斯噪声进行前向迭代，同时利用当前T时刻特征作为hidden state进行递归更新。将两路预测输出融合，得到T+10、T+20时刻的状态特征。

基于预测模块的表征，进行解码操作。主要通过实例分割实现，涉及agent信息和地图信息。其中agent信息包括行人检测、中心点定位和位移预测等。

在构建地图信息时，通过分割头生成高清地图。预测模块的前向传播逻辑较为简单。规划阶段的创新点在于：利用前视相机获取红绿灯信息，并对预测轨迹进行优化（Refinement）。具体流程为：选定最终轨迹后，将红绿灯编码输入GRU网络进行解码，输出最终的预测轨迹。

优化过程包含两大组成部分：

自车预测轨迹的代价函数（Cost Function）：

考虑与前车的距离
车道分隔线的距离
横向和纵向加速度信息
轨迹终点与目标点之间的距离（Progress Cost）

预测轨迹与真实轨迹之间的L2距离
ST-P3的规划方法综合考虑了上述因素。

接下来我们讨论第二个工作UniAD。

首先，这是Introduction部分的一张图，对比了ABC三种范式的优缺点。模块堆叠方法存在误差累积和信息损失的问题。多任务框架在同时训练Task1和Task2时会产生负迁移效应，即任务间存在相互影响。右侧展示了端到端自动驾驶的三种范式：

原始方法直接通过特征回归轨迹（Planning），但可解释性差且优化困难；
显式模块化设计方法，如ST-P3仅使用了Map、Occ和Plan三个模块；
UniAD的创新点在于引入了五个代理任务（Head Task），通过增加任务数量提升性能。

该系统采用全Transformer框架，以规划为导向，构建端到端自动驾驶系统。

首先，在Backbone部分与BVFormer相同，获取BEV特征。Transformer部分则借鉴MOTR框架。MapFormer将Segformer的2D版本扩展至3D，用于实例分割：前景包括分割线、边界线和人行道，背景则为可行区域。

MotionFormer通过三种交互进行预测：Agent之间的交互、Agent与地图的交互，以及Agent与目标点的交互。输出包括预测轨迹、特征及每条轨迹的评分。OccFormer利用MotionFormer的Agent级特征作为KV，BEV特征作为Q，计算实例级的占用情况。其中，Agent级特征与场景级特征通过矩阵运算得到最终结果。

Planner的输入包括：自车运动轨迹特征（来自MotionFormer）、位置编码、OccFormer的输出以及BEV特征。规划时需考虑未来占用情况，确保选择可行区域。具体实现细节如下：

MapFormer部分基于MOTR框架，TrackFormer输出的NA代表动态变化的Agent数量。

主要负责预测Agent的数量。TrackFormer部分涉及N×256维度的QA模块，用于表征Agent的特征，即EBTQA（Agent的特征表示）。PA和QM模块分别对应NM×256的维度。

关于TrackFormer，其框架与MOTR类似。在t=1时刻，初始化的detect query作为输入，此时track query为空。输入到decoder后，输出的预测框完全由detect query生成。经过detect decoder的特征更新后，进行特征交互，生成track query。该query与下一帧的detect query共同输入decoder，输出t=2时刻的预测框。特征在decoder后进一步进行时序交互，实现迭代推进。TrackFormer的核心思想在于track query与detect query的协同更新。

MapFormer部分主要完成实例分割，通过前景与背景的分割头实现。

MotionFormer的框架如下：左侧为MotionFormer模块。

该系统由三个交互模块组成：Agent、Map和Ego。这三个交互模块相对容易理解，而较难理解的是位置编码的生成方式。具体来说，位置编码分为Agent级别和场景级别两种。

对于Agent级别的位置编码，首先对所有Agent在数据集中进行聚类，通常聚为六类，然后以各类的中心点作为Anchor的位置编码。

对于Map的位置编码，需考虑全局场景信息。具体方法是将局部视角下的Agent坐标通过旋转矩阵和平移矩阵投影到全局坐标系下进行转换，从而得到场景级的位置编码。其中，表示当前时刻初始化的位置编码，表示上一层预测轨迹的终点作为位置编码。这些编码经过MLP处理后相加，作为后续三个交互模块的位置编码。

在交互过程中，Agent与Agent之间先进行自注意力计算，再进行交叉注意力计算。交叉注意力是与BEV特征进行的。Agent之间通过自注意力机制评估各Agent Query的重要性。Agent与Map之间进行交叉注意力计算，而Agent与Ego之间则采用可变性注意力机制。

最终，将三个模块的输出、、拼接后通过MLP生成当前时刻的运动特征表征，再经过另一个MLP进行评分，同时解码出相对轨迹。此时Motion Former输出的表征将用于后续处理，即。

在OCC模块中，首先对BEV特征进行表征。通过自注意力机制处理后，结合Agent级特征和运动预测输出的BEV特征进行交叉注意力计算。将得到的Qx特征相加，获得t时刻的DB表征。随后，将场景级密集表征与Agent级表征进行矩阵乘法运算，预测未来时刻的占用情况。

未来时刻的BEV表征通过迭代输出的特征块获得，经解码器处理后得到场景级占用情况。再与实例信息进行矩阵运算，最终输出实例级别的未来占用预测。这就是OCC Former的核心机制。

在规划模块中，首先整合转向灯信号和自车Agent特征。Transformer模块会融合自车轨迹表征，并在Motion Former中进行交互更新。将更新后的自车表征、轨迹表征以及规划查询（Planning Query）通过MLP和MaxPool处理，生成规划token。

该规划token作为查询向量，与BEV特征作为键值对进行匹配，生成初始轨迹。通过碰撞优化（基于OCC模块的输出）最终输出优化后的轨迹表征。这就是Planning Former的主要流程。

VAD（Vectorized Autonomous Driving）采用矢量化表征方法，其前身MapTR和MapTRv2将栅格化表征转换为矢量化形式。这种方法能更好地表达地图元素的结构信息，保持其几何特性。矢量化表征在表达结构化信息方面具有显著优势。

其计算速度较快，因此他们尝试将矢量表征应用于短程纵向规划。该矢量表征与传统的感知方法类似，包含运动矢量（motion vector）和地图矢量（map vector）。具体实现方式为：通过输入地图查询（map query），经地图变换器（map transformer）处理后预测地图矢量；通过智能体查询（agent query）预测运动矢量。随后将自车查询与这两个更新后的查询进行交互，输出自车查询结果。更新后的自车查询再与车辆状态信息及指令信息结合，进行规划决策。

在规划过程中引入了矢量化的规划约束，主要包括三个约束条件。本文创新点集中在这两部分：约束条件和矢量表征。具体细节如下：

在感知部分，地图查询（Map Query）采用数百个256维的查询向量，预测得到NM×NP×2维的地图矢量及其类别分数。其中，2表示坐标点维度，NP表示每个矢量的点数，NM表示地图上的矢量总数。

在智能体部分，通过类似于地图查询的QA机制，采用可变形注意力（deformable attention）学习智能体级别的表征。具体流程为：首先通过可变形注意力与共享的鸟瞰图（BEV）特征进行交互，再利用该表征预测运动矢量。这里预测的是智能体数量及其可能的轨迹模态（K表示轨迹条数）。

这表明了每个轨迹的驾驶意图（Driving Intention）。TF代表未来的时间戳，R则表示未来轨迹点的坐标情况。通过这种Query机制，我们可以预测出相应维度的向量（Vector）。这一部分最终关联到自车的状态。

我们通过初始化的自车Query与先前的Motion Vector和Map Vector进行交互。交互过程采用纯Transformer Decoder架构，其中需要位置编码。位置编码来源于感知模块输出的自车和Agent坐标信息。

完成自车与Agent的交互后，再与Map进行交互。该结构与前述类似，但MLP编码部分采用了独立的新MLP。获得自车Vector后，进行预测，输出未来2024年12月29日时刻的确定性轨迹坐标点。

最优轨迹的输出需要考虑多个约束条件。该系统引入了三个主要约束：

自车与他车之间的碰撞约束，涉及横向和纵向距离；
自车与边界之间的距离约束，通过判断规划路径点与地图边界线之间的距离来实现；
自车方向约束，通过计算自车向量与车道线向量之间的角度差来确保行驶方向正确。

这些约束条件通过量化处理，并在规划过程中加入基于成本的抑制机制。

整个思想如下。他们的第二篇工作认为规划是一个不确定性任务，确定性方法无法处理掉头等情况。如图所示，作为红车，当前车处于此状态时，可以选择跟车或向右变道。若输出确定性轨迹，当存在两条真实轨迹（GT）时，模型会学习到中间状态的轨迹，容易导致碰撞。而本文采用概率化表征方法，将规划流视为概率分布，从而选择最优轨迹而非模糊折中方案。类似情况下，车辆可选择直行或向左变道，但确定性方法会学习中间表征导致碰撞风险。概率表征则能选择最优轨迹避免此类情况。

具体实现借鉴了类似GPT的ARP思想：首先初始化动作空间（action space），并将其离散化。连续的动作空间（如加速到10km/h、20km/h等）难以直接表征，故离散化为10、20、30等离散值。规划词汇表（planning vocabulary）可理解为字典，类似ARP中将字词存入字典供解码器选择。本文收集了4096种可能动作，如直行、加速至20km/h、刹车、左转、右转等，编码后生成planning token。通过场景token与planning token交互，结合自车状态和导航信息，预测动作分布并选择最优轨迹。

每个分布对应不同的运动概率，系统会选择概率最高的标准轨迹作为规划结果。这是该方法的核心思想。

针对左侧场景级分割部分，其动作空间采用五维连续表征。具体实现中，每个动作在规划词表中表示为一个路径点，通过将动作序列转化为路径点序列，便于后续编码处理。例如：加速至10公里/小时、加速至20公里/小时、左转、加速左转、加速右转、减速左转等不同运动状态都对应特定的路径点编码。

整个流程可以概括为：规划标记（planning token）直接与场景特征进行Transformer交互。其中，env代表场景级表征，ea表示对动作空间路径点的位置编码。位置编码函数τ的具体实现是将所有路径点与0到21维的特征拼接后进行编码，最终输出最优概率表征。

GenAD工作将自动驾驶建模为轨迹生成问题。不同于传统“感知-预测-规划”的级联方法，该方法考虑了自车与他车在未来帧中的交互，采用类似VAE的生成式建模思路：训练时学习轨迹分布，推理时采样分布并通过解码器生成路径点。关键点在于训练过程中如何构建有效的监督信号，这与VAE的训练思想一致。

将GT的track query trajectory通过编码器进行编码，得到latent space的轨迹表征。随后通过解码器重构当前轨迹，并将重构轨迹与原始真值轨迹进行监督训练。

在推理阶段，由于没有真值输入，直接利用学习得到的latent space表征作为输入，生成一个分布。通过采样该分布并解码，最终重构出轨迹。这是该方法的核心思想。

具体而言，左侧通过 token 之间的 cross attention 进行分割处理，输出以自车为中心的 BEV 场景表征，并输入到 InstanceGP Encoder 中。

在推理阶段，输出点分布采样后直接生成未来轨迹，通过 decoder 完成行为预测与规划。而在训练阶段，则利用 ground-truth 轨迹通过 encoder 编码得到分布，再经 decoder 解码生成重建轨迹，二者之间建立监督关系。

接下来，我们分析英伟达的研究成果。

在前人工作的基础上，本研究引入了更多约束条件进行训练。先前模型采用单模态规划方法，即直接通过感知信息回归预测轨迹。而本研究提出多模态规划方法，以解决轨迹预测的不稳定性问题。该方法通过预测多个候选轨迹并选择最优轨迹进行模型学习。

具体而言，单模型学习仅预测单一轨迹，而多模型学习则预测多个轨迹。本研究结合了多模态规划与多模型学习方法，并在多轨迹预测的模型学习损失基础上，增加了知识蒸馏损失。该蒸馏损失来源于多种基于规则的教师模型，这些教师模型的结果通过仿真获得。

接下来，我们将模型的预测结果用于监督学习。该研究通过引入更多监督信息来提升模型性能。具体而言，其监督框架如下：

左侧模块采用TransFuser架构进行多模态融合，生成感知token。轨迹解码器（Trajectory Decoder）部分延续了VADV2中的规划词表（Planning Vocabulary）设计，通过Q向量与KV向量的交互进行编码，这与VADV2的处理方式基本一致。

额外监督信号来源于：将统计轨迹数据置于仿真环境中，生成基于规则的教师信号（Rule-based Teachers）。多层感知机（MLP）模块主要监督以下指标： 1. 无责任碰撞（No at-fault Collisions） 2. 可行驶区域合规性（Drivable Area Compliance） 3. 驾驶舒适性（Comfort）

这些监督指标均被纳入回归损失函数进行反向传播。其中，无责任碰撞特指非系统行为导致的碰撞事件。本文可视为VADV2研究框架的扩展。

当前端到端自动驾驶算法仍主要采用模仿学习框架，但存在以下局限性： 1. 作为纯数据驱动方法，其优化过程较为困难 2. 难以学习到最优真值（Ground Truth） 3. 对异常案例（Counter Case）的处理能力有限

这些方面仍有待进一步研究探索。关于端到端算法的讨论就到这里。

#SDG-OCC

华科：基于语义和深度引导的BEV多模态OCC新方案

背景

3D 环境的准确感知是现代自动驾驶系统和机器人技术的基础，能保障高效规划和安全控制。近年来，3D 目标检测和语义分割的进展推动了 3D 感知领域发展，但目标检测依赖精准的3D框，并且难以识别开集的模板；语义分割在复杂场景（尤其是遮挡和重叠情况下）的细粒度分类表现不佳。

3D 语义占用预测作为更全面的环境建模方法，同时估计场景体素的几何结构和语义类别，为每个 3D 体素分配标签，对任意形状和动态遮挡具有更强鲁棒性，因此在自动驾驶领域中展现出了巨大潜力。

然而，现有 3D 占用预测方法存在明显局限：单模态方法中，基于相机的方法缺乏深度信息，基于激光雷达（LiDAR）的方法则受遮挡影响，难以获取完整场景细节。当前轻量级方法主要依赖 Lift-Splat-Shoot（LSS）流水线，但该方法存在显著缺陷：通过深度分布模拟每个像素的深度不确定性（深度间隔通常设为 0.5m），但稀疏的BEV表示仅让 50% 的网格接收有效图像特征（Figure 2 (a)）；增大深度间隔可提高深度估计精度以缓解稀疏性，却会显著增加计算量。同时，尽管激光雷达能提供有价值的几何先验，但同时处理点云和图像的融合方法计算负担重，影响实时应用。

为解决这些问题，本文提出一种全新多模态占用预测网络 SDG-OCC，在 Occ3D-nuScenes 数据集上实现了最先进（SOTA）的性能且能实时处理，在更具挑战性的 SurroundOcc-nuScenes 数据集上也表现出可比性能，验证了其有效性和鲁棒性。

论文标题：SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction
论文链接：https://arxiv.org/abs/2507.17083
代码：https://github.com/DzpLab/SDGOCC

本文内容已上传至xx！作为国内最大的自驾技术社区，一直在给行业和个人输送各类人才、产业学术信息。目前累积了国内外几乎所有主流自驾公司和大多数知名研究机构。如果您需要第一时间了解产业、求职和行业痛点，欢迎加入我们。

#BezierGS

ICCV 2025中稿的最新工作！自动驾驶场景的真实重建对于开发闭环仿真至关重要。大多数现有方法依赖于目标的位姿标注，使用这些位姿来重建动态目标并在渲染过程中实现动态重建。这种对高精度目标标注的依赖限制了大规模和广泛场景的重建。为了解决这一挑战，复旦大学的团队提出了Bezier curve Gaussian splatting（BezierGS），该方法使用可学习的贝塞尔曲线表示动态目标的运动轨迹。这种方法充分利用了动态目标的时间信息，并通过可学习的曲线建模自动校准位姿误差。通过引入对动态目标渲染的额外监督和曲线间一致性约束，实现了合理且准确的场景元素分离和重建。在Waymo开放数据集和nuPlan基准上的大量实验表明，BezierGS在动态和静态场景目标重建以及新视角重建方面均优于最先进的替代方法。

总结来说，这篇文章的亮点以及未来可扩展方向如下：

构建一个高质量街景世界，供自驾模型在其中训练、探索，减少数据采集的成本；
减少对bounding box精确性的依赖，目前业界以及开源自驾数据集采集的准确性不是很高，bounding box的标注不精确；
这篇是对自驾世界的学习与探索，未来会探索一个真正的自驾世界模型，该工作只能实现轨迹内插，无法轨迹外插。

论文链接：https://arxiv.org/abs/2506.22099
代码代码：https://github.com/fudan-zvg/BezierGS

引言

对动态三维街道场景的建模是现代自动驾驶的基础，因为它能够为诸如感知、预测和运动规划等任务提供真实且可控的仿真。

随着需要实时传感器反馈的端到端自动驾驶系统的兴起，现实世界仿真的闭环评估需求变得更加迫切。高质量的场景重建为闭环评估创建了仿真环境，同时使得以安全且经济高效的方式仿真关键极端场景成为可能。

尽管在实现小规模场景的真实感重建方面取得了令人鼓舞的结果，但驾驶场景却是大规模且高度动态的，这使得有效的三维场景建模更具挑战性。为了解决这些挑战，大多数现有方法依赖于手动标注的动态目标位姿，以区分静态背景和移动目标。通常动态目标在其各自的中心规范空间中进行重建，并根据已知位姿在渲染过程中放置到背景场景空间中。然而，动态目标的手动标注总是存在误差和遗漏，限制了这些方法在不同数据集中的多样化场景中的适用性。

其他不需要动态标注的方法利用自监督学习方法来学习动态目标的运动。S3Gaussian使用时空分解网络来隐式地建模目标的运动轨迹，这给优化和建模这些轨迹带来了挑战。PVG通过拼接具有周期振动的片段来构建长轨迹。然而，周期振动模式和透明度衰减并不符合现实世界的运动，而且分段轨迹使得难以充分利用单个目标随时间的一致性。

为了克服上述局限性，本文介绍了一种新的动态场景表示方法，称为贝塞尔曲线高斯Splatting（BezierGS），以实现自动驾驶应用的高保真新视角合成性能。基于高效的三维高斯渲染技术，该方法使用可学习的贝塞尔曲线显式地建模场景中动态高斯基元的运动轨迹和速度，而静态三维高斯基元则用于构建背景信息。可学习的轨迹曲线可以补偿动态目标标注中的误差。此外，显式的曲线轨迹有助于优化并充分挖掘同一目标在不同时间戳之间的时间一致性。我们根据重建的目标对动态高斯基元进行分组，并引入了一种分组的曲线间一致性损失，有效地利用了同一目标的几何约束。此外，我们还引入了对动态高斯基元渲染的额外监督，以增强动态目标的重建，促进后续的自动驾驶场景编辑任务。

我们的主要贡献总结如下：

提出了用于大规模动态城市场景重建的贝塞尔曲线高斯渲染（BezierGS）。通过显式的可学习贝塞尔曲线轨迹建模，我们优雅地表示了动态场景，消除了街景重建中对动态目标标注精度的依赖；
开发了一种全新的组内曲线一致性损失，将构成同一目标的高斯基元的轨迹联系起来，有效地利用了同一目标的几何约束；
在两个大规模基准数据集（Waymo和nuPlan）上进行了广泛的实验，结果表明，BezierGS在场景重建和新视角合成方面均优于所有先前的最先进替代方法。

相关工作回顾

用于城市场景重建的NeRF

自从NeRF问世以来，神经表示已成为三维重建和新视角合成的基础支柱。许多研究将基于NeRF的方法应用于城市场景，使得传感器能够在大型且动态的场景中实现逼真的新视角渲染。NSG采用神经场景图来分解动态场景，而SUDS则使用多分支哈希表引入了一种四维场景表示方法。自监督方法如EmerNeRF和RoDUS有效地解决了动态场景的挑战。然而，基于NeRF的方法的慢速渲染速度对其在下游任务中的应用带来了显著挑战和高成本。相比之下，BezierGS利用高效的三维高斯基元重建城市场景，在保持高渲染速度的同时实现了优越的渲染质量。

用于城市场景重建的3DGS

最近的研究利用了高效的3DGS技术进行城市场景重建，在重建质量和渲染速度方面都取得了显著提升。S3Gaussian和PVG采用自监督学习方法推断动态目标的轨迹。具体来说，S3Gaussian使用时空分解网络隐式地建模目标的运动轨迹，而PVG通过拼接具有周期振动的片段构建长轨迹。然而，这些轨迹建模方法仍然缺乏精度。与此同时，将场景显式分解为不同实体已成为一种普遍做法，如Street Gaussians、DrivingGaussian、HUGS和OmniRe等研究所示。然而，这些方法严重依赖手动标注框的准确性，当标注不精确时，其重建性能会显著下降。

算法详解

算法pipeline如图2所示。

预备知识

3DGS

3DGS利用一组三维高斯基元来表示场景。通过基于tile的光栅化过程，3DGS利用高斯基元的实时alpha混合实现场景的重建。场景由一组高斯基元建模，每个基元包含以下属性：均值位置、旋转（表示为四元数）、各向异性缩放因子、不透明度以及依赖于视图的颜色（表示为球谐函数（SH）系数）。

为了确定像素颜色，首先根据其与相机中心的距离对贡献该像素的高斯基元（按索引）进行排序，然后进行alpha混合：

这里，不透明度计算为：

其中，是图像平面上的二维像素位置，是第i个高斯的投影中心，表示二维投影协方差矩阵。

贝塞尔曲线

贝塞尔曲线是计算机图形学和计算几何中的基本参数曲线，由个控制点定义，并作为参数的函数表达如下：

其中，表示给定参数时曲线的位置，表示第i个控制点的位置，是n次伯恩斯坦基多项式，定义为：

参数在区间内变化，其中对应第一个控制点，而对应最后一个控制点。曲线构建为控制点的加权和，伯恩斯坦基多项式决定每个控制点在给定时的影响。

Bezier curve Gaussian splatting

在三维街道场景中，静态和动态场景表现出不同的运动特征，因此需要使用不同的高斯基元来表示它们。对于静态背景，由于背景在所有帧中保持一致，我们可以通过全局优化实现稳定的三维表示，而不受时间变化的影响。我们使用3DGS进行重建，其中每个高斯基元由属性表征，这在第3.1节中有详细说明。

对于动态前景，我们使用可学习的贝塞尔曲线建模高斯基元的轨迹。现有的基于框的方法严重依赖于框（方向和位置）的准确性，这可能是一个限制因素。对于其他使用自监督学习来建模动态目标运动轨迹的方法，很难同时确保轨迹的准确性和训练效率。相比之下，我们的可学习贝塞尔曲线消除了对手动标注准确性的依赖，同时有效地表示了完整的轨迹。

由于场景中不同目标遵循不同的运动轨迹，我们使用单独的一组高斯基元表示每个目标。具体来说，高斯基元的轨迹定义为其对应目标中心和相对于该中心的偏移量之和，其中偏移量以世界坐标系表示。这种表示方法使我们能够通过约束偏移量来控制组内不同高斯基元的轨迹一致性。为了区分不同的目标，我们引入了一个额外的属性，它表征了特定目标的高斯基元。

目标中心的轨迹使用可学习的贝塞尔曲线建模，由一系列控制点控制。给定，目标的中心定义为：

为了建模高斯基元相对于目标中心的偏移轨迹，我们也使用由一组控制点控制的可学习贝塞尔曲线。对于特定的高斯基元，偏移轨迹由控制点定义，其中表示第i个控制点的位置。偏移量在处给出为：

目标沿贝塞尔曲线的运动随时间非均匀变化，因此有必要建模其速度，这可以通过时间到贝塞尔映射在时间戳和贝塞尔参数之间隐式表示。此外，对于每个目标，时间到贝塞尔映射会有所不同。为了捕捉这种变化，我们始终使用额外的贝塞尔曲线来建模时间到贝塞尔映射。总之，高斯基元的运动轨迹可以表述为：

其中

同样，像静态部分一样，我们的动态目标也具有属性。

给定记录的时间戳，我们使用公式(7)计算动态高斯基元的位置并将它们与静态高斯基元组合。最终的RGB图、深度图和不透明度图通过公式(1)中的alpha混合技术实现。

由于3DGS是在欧几里得空间中定义的，因此不适合建模天空等遥远区域。为了解决这个问题，我们使用一个高分辨率立方体贴图将视图方向映射到天空颜色作为天空纹理。通过将天空图像与渲染的高斯颜色合成，最终渲染结果为：

我们注意到基于box的方法是贝塞尔GS的一个特例，其中偏移量在目标坐标系中定义并随时间保持不变，而框的方向和翻译保持固定。此外，我们可以使用分段贝塞尔曲线表示长轨迹，作为PVG中周期振动特征的更高层次替代方案。通过扩展高斯基元的动态表示能力，我们的模型灵活且准确地建模轨迹，实现了最先进的重建性能。

损失函数

总体损失公式如下：

其中和分别代表L1和SSIM损失，用于监督RGB渲染质量。深度损失被引入以增强几何感知，并定义为：，其中是由将LiDAR点投射到相机平面获得的稀疏逆深度图，表示渲染深度图的逆。此外进一步引入以减少天空区域的不透明度：

其中是由Grounded-SAM模型预测的二进制天空掩码。这一项鼓励渲染的不透明度图在天空区域内最小化，确保天空仅使用天空纹理建模。

曲线间一致性损失

在优化过程中，由于高斯基元的自由度较高，单个基元可能会不受控地偏离其所代表的动态目标。这导致在不同时间步长下，目标的不同区域由不同的基元表示，从而在从新视角渲染时产生不一致，如图3所示。为了解决这个问题，必须增强高斯基元的时间几何一致性。

对于场景中的动态目标，当它们作为一个整体移动时，特定部分的轨迹与整个目标的轨迹之间的差异保持在有限范围内。具体而言，对于如车辆这样的刚性结构，轨迹偏差的幅度倾向于保持恒定。因此，通过确保高斯基元偏移轨迹随时间的一致性，可以保持高斯基元轨迹与其对应的目标中心轨迹之间的相似性，从而保持动态高斯基元表示目标部分的时间连贯性。由于当贝塞尔曲线参数设置为0或1时，高斯基元与第一个和最后一个控制点重合，因此在给定时间戳下的偏移量可以通过偏移曲线的第一个和最后一个控制点的平均幅度进行约束：

这个损失函数有效抑制了过度的局部几何变化，增强了整体结构的一致性和稳定性。

动态渲染损失

由于方程(1)中描述的alpha混合机制，动态和静态高斯基元之间的相互作用可能会引入相互干扰，使得难以分别准确建模场景中的动态和静态元素。为了解决这个问题，我们引入了对动态高斯基元渲染结果的额外监督，确保动态场景目标的渲染仅由动态高斯基元贡献。

为了获得场景中动态目标的准确掩码，我们首先将手动或自动标记的动态3D框投影到图像中以提取动态区域，然后使用Grounded-SAM获取每个区域内的动态mask，标记为。我们使用提取真实相机图像的动态目标，然后用于监督动态高斯基元的渲染RGB图：

其中，和分别表示带掩码的地面真实相机图像和动态高斯基元渲染RGB图的L1和SSIM损失。

为了进一步增强动态和静态场景目标之间的分离，我们引入了一个额外的约束，以确保动态高斯基元的渲染alpha图与相机图像中的动态部分掩码对齐：

通过结合这两个损失函数，我们得到了动态渲染损失：

这个损失函数确保动态场景目标的渲染仅由动态高斯基元贡献，从而实现了动态和静态场景目标之间更彻底的分离，提高了从新视角合成时的渲染质量。

速度损失

为了对动态目标的重建施加多维约束，我们增加了一个额外的约束条件，即动态高斯基元渲染的速度图，确保高斯基元的运动趋势与动态目标的趋势一致，从而提高动态表示的合理性。

从方程(3)可知，贝塞尔曲线上位置关于参数的导数为：

其中，

由于目标中心轨迹和偏移量都使用贝塞尔曲线建模，因此在给定时间戳下的高斯基元速度为：

随后，使用以下方式渲染动态高斯基元的速度图：

为了确保动态高斯基元的运动严格限定在动态区域内，我们引入以下损失函数：

通过合理控制动态高斯基元的速度，我们隐式地防止动态高斯基元漂移到静态区域，确保它们的运动限定在动态目标内部，从而进一步增强动态表示的可靠性。

实验结果分析

实验设置

数据集

我们在Waymo开放数据集和nuPlan基准上进行实验，这两个数据集的帧率为10 Hz。值得注意的是，nuPlan是世界上首个大规模的自动驾驶规划基准。然而，由于其手动标注的不准确性，传统的基于框的方法难以实现高质量的重建，限制了基于重建的闭环仿真的发展。通过在nuPlan上展示高质量的重建和新视角合成，我们进一步验证了我们的方法消除了对城市场景重建中目标标注精度的依赖。对于Waymo，我们选择了Street Gaussians和PVG所选择的12个序列。对于nuPlan，我们选择了由NAVSIM划分的6个序列。

与Street Gaussians和OmniRe一致，我们将序列中的每第4张图像用作测试帧，其余图像用于训练。

基线方法

我们将我们的方法与最先进的方法进行了比较，包括基于框的方法HUGS、Street Gaussians、OmniRe以及基于动态高斯基元的方法DeformableGS、PVG。

实现细节

在本工作中，我们专注于标准立方贝塞尔曲线（n=3），它因其在轨迹建模中的有效性而被广泛认可。所有实验均在单块NVIDIA RTX A6000上运行30,000次迭代。我们保持学习率与原始3DGS实现相似，并将正则化系数设置为：λr=0.2，λd=1.0，λsky o=0.05，λicc=0.01，λdr=0.1，λv=1.0。有关实现的更多细节，请参见第6节。

与SOTA对比Waymo上的结果

除了标准的PSNR、SSIM和LPIPS指标外，我们还通过计算Dyn-PSNR来评估动态区域的保真度，该指标专门测量在2D图像平面上投影的真实3D框内的PSNR。这一额外评估提供了对动态元素重建的更精确评估。如表1所示，BezierGS在所有评估指标上均优于最先进的方法。具体而言，在新视角合成方面，我们的模型能够有效生成之前未见过的时间戳下的高质量视图，显著超越所有竞争方法，PSNR提高了1.87 dB，SSIM提高了0.014，LPIPS降低了8.00%。此外，我们的方法在Dyn-PSNR上也表现优异，取得了2.66 dB的显著提升，进一步验证了其在渲染动态内容方面的有效性。

我们在图4中展示了与DeformableGS、Street Gaussians、OmniRe和PVG的定性比较。值得注意的是，DeformableGS无法分离动态目标。为了解决这个问题，我们利用标注的框提取动态区域。如图4所示，DeformableGS难以有效表示动态目标，而PVG未能有效分离静态和动态目标。Street Gaussians和OmniRe在捕捉动态目标方面存在局限性，特别是在动态元素周围导致明显的模糊。

相比之下，我们的方法能够以高保真度有效地重建静态和动态元素，同时实现静态和动态目标之间的清晰分离。

nuPlan上的结果

nuPlan基准提供的框质量不佳，导致基于框的方法的渲染质量显著下降。相比之下，我们的BezierGS使用可学习的贝塞尔曲线建模动态元素，能够自动纠正位姿误差，从而提高重建和新视角合成的质量。在新视角合成方面，我们的模型能够有效捕捉场景并生成高保真渲染，PSNR提高了3.04 dB，SSIM提高了0.036，LPIPS降低了16.35%，Dyn-PSNR提高了1.22 dB。图5中的定性比较进一步说明了我们的方法在处理nuPlan基准中的复杂动态场景方面的有效性。

消融实验

在表2中，我们通过测量其对Waymo中新视角合成指标的影响来验证我们方法的关键目标的有效性。我们看到(a) 曲线间一致性损失增强了建模动态目标的能力并消除了浮点现象，显著提高了新视角合成的性能；(b) 动态渲染损失鼓励动态目标仅由动态高斯基元建模，从而实现更彻底的前景-背景分离；(c) 速度损失进一步约束了动态高斯基元的漂移，防止干扰静态高斯基元；(d) 虽然时间到贝塞尔映射带来的改进相对较小，但它是建模具有高度复杂轨迹的场景中目标所必需的。

贝塞尔的有效性

我们将动态轨迹建模替换为MLP（DeformableGS）或正弦轨迹（PVG），同时保持背景重建使用3DGS及除曲线间一致性损失外的所有损失。如图7和表2(e)(f)所示，贝塞尔曲线能够提供更显式和合理的轨迹表示。

结论

我们提出了贝塞尔曲线高斯点绘（BezierGS），一种用于动态城市街道场景重建的显式场景表示方法。通过使用显式可学习的贝塞尔曲线建模动态目标的运动轨迹，我们的模型可以自动纠正位姿误差，从而消除对手动标注精度的依赖。引入的曲线间一致性约束增强了动态高斯基元的时间和几何一致性。通过对动态目标渲染的额外监督，我们的方法实现了场景元素的合理和准确分离与重建。我们的方法在Waymo开放数据集和nuPlan基准上显著优于最先进的方法。

这里也推荐下平台打造的《面向科研&落地的3DGS全栈实战教程》，课程全面覆盖了2DGS/3DGS/4DGS和混和GS！

#2025自动驾驶方向演变

多模态大模型 & VLA

标题：ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
链接：https://arxiv.org/abs/2503.19755
主页：https://xiaomi-mlab.github.io/Orion/
单位：华科、小米

标题：All-in-One Large Multimodal Model for Autonomous Driving
链接：https://arxiv.org/abs/2412.07689
主页：https://zhijian11.github.io/DriveMM/
单位：中山&美团

标题：MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding
链接：https://arxiv.org/abs/2507.06072
代码：https://github.com/SixCorePeach/MCAM
单位：重庆大学

标题：AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving\
主页：https://github.com/ReaFly/AdaDrive
标题：VLDrive: Vision-Augmented Lightweight MLLMs for Efficient Language-grounded Autonomous Driving
主页：https://github.com/ReaFly/VLDrive
标题：ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
链接：https://arxiv.org/abs/2506.07725
主页：https://github.com/OpenDriveLab/ETA
单位：科奇大学、港大、OpenDriveLab

仿真 & 重建

标题：InvRGB+L: Inverse Rendering of Complex Scenes with Unified Color and LiDAR Reflectance Modeling
链接：https://arxiv.org/abs/2507.17613
单位：清华大学，伊利诺伊大学厄巴纳 - 香槟分校

标题：AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving
链接：https://arxiv.org/abs/2507.12137
主页：https://jiaweixu8.github.io/AD-GS-web/
单位：南开大学，伊利诺伊大学厄巴纳 - 香槟分校

标题：BézierGS: Dynamic Urban Scene Reconstruction with Bézier Curve Gaussian Splatting
链接：https://arxiv.org/abs/2506.22099
主页：https://github.com/fudan-zvg/BezierGS
单位：复旦大学，上海创新研究院

标题：RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors
链接：https://arxiv.org/abs/2506.22800
主页：https://github.com/CN-ADLab/RGE-GS
单位：清华大学，浙江大学，菜鸟网络

端到端 & 轨迹预测

标题：Epona: Autoregressive Diffusion World Model for Autonomous Driving
链接：https://arxiv.org/pdf/2506.24113
主页：https://github.com/Kevin-thu/Epona
单位：清华大学，地平线，北京大学

标题：Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics
链接：https://arxiv.org/abs/2507.12083
单位：香港科技大学，滴滴，卓驭科技

世界模型

标题：World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model
链接：https://arxiv.org/abs/2507.00603
主页：https://github.com/ucaszyp/World4Drive
单位：中国科学院自动化研究所，理想，新加坡国立大学等

标题：MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control
链接：https://arxiv.org/abs/2411.13807
主页：https://github.com/flymin/MagicDrive-V2
单位：香港中文大学，华为诺亚方舟实验室等

标题：DiST-4D: Disentangled Spatiotemporal Diffusion with Metric Depth for 4D Driving Scene Generation
链接：https://arxiv.org/pdf/2503.15208
主页：https://github.com/royalmelon0505/dist4d
单位：清华大学，旷视科技等

标题：Driving View Synthesis on Free-form Trajectories with Generative Prior
链接：https://arxiv.org/abs/2412.01717
主页：https://github.com/fudan-zvg/DriveX
单位：复旦大学，萨里大学

标题：Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model
链接：https://arxiv.org/abs/2412.05280
主页：https://github.com/wzzheng/Stag
单位：北京大学，清华大学，北京航空航天大学

标题：HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
链接：https://arxiv.org/abs/2501.14729
主页：https://github.com/LMD0311/HERMES
单位：华中科技大学，香港大学等

标题：InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models
链接：https://arxiv.org/abs/2412.03934
主页：https://github.com/nv-tlabs/InfiniCube
单位：NVIDIA，上海交通大学，多伦多大学

占用网络

标题：From Binary to Semantic: Utilizing Large-Scale Binary Occupancy Data for 3D Semantic Occupancy Prediction
链接：https://arxiv.org/abs/2507.13387
主页：https://github.com/ToyotaInfoTech/b2s-occupancy
单位：丰田汽车公司

标题：Disentangling Instance and Scene Contexts for 3D Semantic Scene Completion
链接：https://arxiv.org/abs/2507.08555
主页：https://github.com/Enyu-Liu/DISC
单位：华中科技大学

标题：Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
链接：https://arxiv.org/abs/2507.06230
主页：https://visinf.github.io/scenedino
单位：慕尼黑工业大学，牛津大学等

标题：GaussRender: Learning 3D Occupancy with Gaussian Rendering
链接：https://arxiv.org/abs/2502.05040
主页：https://github.com/valeoai/GaussRender
单位：Valeo AI，索邦大学

标题：GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting
链接：https://arxiv.org/abs/2408.11447
主页：https://ganwanshui.github.io/GaussianOcc/
单位：东京大学，华南理工大学等

标题：Language Driven Occupancy Prediction
链接：https://arxiv.org/abs/2411.16072
主页：https://github.com/pkqbajng/LOcc
单位：浙江大学、菜鸟网络等

标题：ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction
链接：https://arxiv.org/abs/2411.07725
主页：https://github.com/cdb342/ALOcc
单位：澳门大学，阿卜杜拉国王科技大学

目标检测

标题：Perspective-Invariant 3D Object Detection
链接：https://arxiv.org/abs/2507.17665
主页：https://pi3det.github.io
单位：新加坡国立大学，复旦大学，中国科学院大学

标题：SFUOD: Source-Free Unknown Object Detection
链接：https://arxiv.org/abs/2507.17373
主页：https://github.com/KU-VGI/SFUOD
单位：韩国庆熙大学，韩国高丽大学

标题：MambaFusion: Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection
链接：https://arxiv.org/abs/2507.04369
主页：https://github.com/AutoLab-SAI-SJTU/MambaFusion
单位：中国科学院自动化研究所、中国科学院大学、上海交通大学

标题：Towards Accurate and Efficient 3D Object Detection for Autonomous Driving: A Mixture of Experts Computing System on Edge
链接：https://arxiv.org/abs/2507.04123
主页：https://github.com/LinshenLiu622/EMC2
单位：约翰霍普金斯大学，杜克大学，香港科技大学

标题：OcRFDet: Object-Centric Radiance Fields for Multi-View 3D Object Detection in Autonomous Driving
链接：https://arxiv.org/abs/2506.23565
主页：https://github.com/Mingqj/OcRFDet
单位：南京理工大学

数据集

标题：ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones
链接：https://arxiv.org/abs/2406.07661
主页：https://www.cs.cmu.edu/~ILIM/roadwork_dataset/
单位：卡内基梅隆大学

标题：Where, What, Why: Towards Explainable Driver Attention Prediction
链接：https://arxiv.org/abs/2506.23088
主页：ttps://github.com/yuchen2199/Explainable-Driver-Attention-Prediction
单位：中山大学，新加坡国立大学

标题：Interaction-Merged Motion Planning: Effectively Leveraging Diverse Motion Datasets for Robust Planning
链接：https://arxiv.org/abs/2507.04790
单位：韩国科学技术院，DGIST

标题：ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
链接：https://arxiv.org/abs/2506.07725
主页：https://github.com/opendrivelab/ETA
单位：科奇大学，香港大学（中国）等

标题：Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving
链接：https://arxiv.org/pdf/2503.21505
主页：https://github.com/Depth2World/VLADBench
单位：中国科学技术大学，华为诺亚方舟实验室，加州大学伯克利分校

标题：DATAD: Driver Attention in Takeover of Autonomous Driving
主页：https://github.com/OOPartsfili/DATAD-driver-attention-in-takeover-of-autonomous-driving

其他

标题：Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection
链接：https://arxiv.org/abs/2507.17436
单位：浙江大学，中兴通讯

标题：Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching
链接：https://arxiv.org/abs/2507.10318
单位：西安交通大学

标题：Beyond One Shot, Beyond One Perspective: Cross-View and Long-Horizon Distillation for Better LiDAR Representations
链接：https://arxiv.org/abs/2507.05260
主页：http://github.com/Xiangxu-0103/LiMA
单位：新加坡国立大学&南京航空航天大学&浙大&南邮

标题：Stronger, Steadier & Superior: Geometric Consistency in Depth VFM Forges Domain Generalized Semantic Segmentation
链接：https://arxiv.org/abs/2504.12753
主页：https://github.com/anonymouse-xzrptkvyqc/DepthForge
单位：集美大学，中山大学，西安电子科技大学等

#基于3DGS和Diffusion的自动驾驶闭环仿真论文总结

浅读了近期来自cvpr2025的一些工作，浅显总结一下:

自动驾驶仿真器 = 场景渲染 + 场景外推 + 3D资产重建 + Relighting + 智能体 + 天气 + 其他狠活

HUGSIM HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

https://doi.org/10.48550/arXiv.2412.01718

第一步：搭个静态环境（建模篇）

用 3D Gaussian Splatting（3DGS）和 Diffusion Model 打造一个逼真的城市，细节到连路边的奶茶杯都看得清清楚楚

OmniRe https://arxiv.org/abs/2408.16760Street Gaussians https://arxiv.org/pdf/2401.01339ReconDreamer https://arxiv.org/abs/2411.19548StreetCrafter https://arxiv.org/abs/2412.13188

第二步：环视采集数据，搞点动态资产（素材收集篇）

从环视采集数据中抠出汽车、行人、猫猫狗狗……甚至还有突然跳出来的广场舞阿姨

MADrive https://arxiv.org/abs/2506.215203DRealCar https://arxiv.org/pdf/2406.04875

第三步：重打光（Relighting）让它们更自然（视觉润色篇）

为了让这些资产看起来不是P上去的，还得给它们重新打光。不然就像AI换脸一样，一眼假。
模拟清晨、黄昏、夜晚、暴雨天、反光强光等复杂光照条件，确保每一根毛发都闪闪发光

R3D2 https://arxiv.org/pdf/2506.07826DiPIR https://arxiv.org/abs/2408.09702

第四步：智能体登场（Behavior篇）

每个资产都是一个智能体，有自己的大脑和脾气比如，甚至可以操作其他智能体：

汽车可以“变道不打灯，打灯变三道”，完美复刻现实中的老司机操作
行人可以“马路中间拍照发朋友圈”
高速电子指示牌可以显示“高速路况复杂，慎用辅助驾驶”

BehaviorGPT https://arxiv.org/abs/2405.17372SMART https://arxiv.org/pdf/2405.15677DFTO-FW https://arxiv.org/abs/2412.01468

第五步：天气系统上线（氛围感拉满）

想下雨就下雨，想下冰雹就下冰雹，想下彩虹雨也没问题。
雨刮器动不动就罢工，摄像头一沾水就模糊，仿佛在说：“老子不想干了！”
雾霾天能让激光雷达“看不清远方”，雪天能让摄像头“白茫茫一片真干净”。

Weather-Magician https://arxiv.org/abs/2505.19919RainyGS https://arxiv.org/abs/2503.21442

第六步：其他狠活（黑科技彩蛋）

开启“地狱副本”，让一辆自动驾驶车面对“外卖小哥+快递电瓶车+遛狗大妈+抛洒钉子的神秘男子”组成的终极BOSS组合。

#HERMES

华科提出：首个统一驾驶世界模型！概述

自动驾驶领域中，驾驶世界模型（DWMs）已成为核心工具，但现有模型存在明显割裂：一类专注于场景生成，能预测环境演化（figure 1(a)），却难以解读、描述环境或回答相关问题；另一类以视觉语言模型（VLMs）为代表，擅长场景理解，可处理复杂查询、生成描述（figure 1(b)），但缺乏对未来场景的预测能力。

为打破这种割裂，本文提出HERMES——一个能同时实现3D场景理解与未来场景生成的统一框架（figure 1(d)）。其核心创新在于通过BEV表示整合多视图空间信息，并引入“世界查询”机制，将世界知识注入生成过程，实现理解与生成的深度协同。在nuScenes和OmniDrive-nuScenes数据集上，该模型表现显著：生成任务误差较现有最优方法降低32.4%，理解任务中CIDEr指标提升8.0%。

核心挑战与解决方案

多视图的大空间性问题

自动驾驶场景中，多视图图像（如nuScenes的六视图）直接转换为 tokens 会超出大语言模型（LLM）的长度限制，且难以捕捉视图间交互。

解决方案是采用BEV-based世界分词器：将多视图图像编码为压缩的BEV特征。这一做法有两大优势：一是将多视图信息压缩到统一潜在空间，突破token长度限制的同时保留关键空间信息；二是保留视图间的几何空间关系，便于捕捉跨视角的物体与智能体交互（figure 2）。

理解与生成的整合问题

简单的统一方式（共享BEV特征，分别用LLM和未来生成器处理理解与生成，figure 1(c)）无法利用两者间的潜在交互，且会阻碍优化过程。

解决方案引入世界查询：从原始BEV特征初始化一组世界查询，通过LLM中的因果注意力，用文本token的世界知识增强这些查询。再通过“当前到未来链接”模块，让增强后的查询与LLM处理后的BEV特征交互，使生成的场景演化富含世界知识，从而桥接理解与生成（figure 2）。

HERMES框架细节

世界分词器与渲染器

BEV-based世界分词器：将多视图图像编码为连续的BEV表示。具体而言，多视图图像经CLIP图像编码器和BEVFormer处理，得到包含语义和几何信息的BEV特征，再通过下采样块压缩，最终展平为适合LLM输入的特征。
BEV-to-Point渲染器：将压缩的BEV特征转换为场景点云。先通过最近邻插值和卷积将特征上采样，添加高度维度后用3D卷积重建体素特征，再根据数据集的激光雷达设置构建射线，利用可微分体渲染计算每条射线的深度。

可微分体渲染基于隐式符号距离函数（SDF）场，对于射线，离散化为采样点，通过三线性插值从体素特征中获取局部特征嵌入，再用浅层MLP预测SDF值，最终渲染深度为：

其中，为透射率，为不透明度（figure 2）。

统一模块

LLM的理解任务：将展平的BEV特征通过两层MLP投影到LLM的特征空间，文本提示被 token 化为文本token，LLM通过自回归下一个token预测，实现场景描述、视觉问答（VQA）等理解任务。
生成任务与世界查询：引入组世界查询，从BEV特征经最大池化初始化，复制次后，添加 ego 运动信息和帧嵌入，与展平的BEV特征共享语言空间投影层。经LLM处理后，通过“当前到未来链接”模块（含3个交叉注意力块）生成未来BEV特征，最终由共享渲染器生成未来点云（figure 2）。

训练目标

文本生成损失：采用下一个token预测（NTP），最大化文本token的似然：
点云生成损失：对各射线深度采用L1损失：

总损失为，其中和为平衡系数。

实验验证

数据集与指标

数据集：采用nuScenes（含700训练场景、150验证场景、150测试场景）、NuInteract（含150万标注）、OmniDrive-nuScenes（含GPT-4标注的VQA数据）。
指标：理解任务用METEOR、CIDEr、ROUGE；生成任务用Chamfer距离（评估点云精度）。

主要结果

与现有方法对比，HERMES在两任务上均表现优异：生成任务中，3s内的Chamfer距离显著低于4D-Occ和ViDAR；理解任务中，CIDEr指标超过OmniDrive等方法8.0%（table 1）。

消融实验

理解与生成交互：统一框架优于单独训练或分离式统一（table 2），证明两者交互的重要性。

世界查询的作用：引入世界查询使3s点云预测的Chamfer距离降低10%，经LLM处理的查询进一步提升生成性能（figure 3）。

世界查询的来源：从BEV特征经最大池化初始化的查询表现最优，能有效捕捉峰值响应（table 4）。

BEV大小：50×50的BEV特征在CIDEr和0s生成上较25×25分别提升7.3%和10%，平衡了信息保留与LLM处理限制（table 5）。

定性结果

在复杂场景中，能准确生成未来点云演化（如跟踪车辆运动），并精准理解场景（如识别“星巴克”等物体），但在复杂转向、遮挡及夜间场景中仍有挑战。

参考

[1]HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation

#我很想买一台小米汽车！

最近自动驾驶行业又发生了不少新鲜事，英伟达CEO黄仁勋来华，小鹏汽车26届校招开启、P7+即将发布等等

认识雷军的第一天起，就知道他会取得非凡成功

近期英伟达CEO黄仁勋来华，表示他很想买一辆小米汽车，英伟达在很多方面都与小米有着紧密的合作。过去五年里，中国的电动汽车可能是最让世界惊讶的存在。此外，黄仁勋还称，“小米是一个很棒的合作伙伴。我认识小米的时候，雷军还很年轻。那时候我也更年轻些，但他确实更年轻。从第一天起，我就看得出来，他将来一定会取得非凡的成功”。

英伟达与小米的合作聚焦智能驾驶领域。小米旗舰车型SU7 Ultra已搭载英伟达Thor芯片，算力高达700 TOPS，支持高阶自动驾驶与智能座舱功能。黄仁勋的一番话，让港股小米集团短线拉升，抹去日内跌幅。黄仁勋此次不仅表达了购车意愿，还为雷军送上了极高赞誉。此前，黄仁勋已经和小米集团创始人雷军进行了见面，并在小米汽车SU7旁边合影。目前小米汽车有三款在售车型：小米SU7、SU7 Ultra、YU7。黄仁勋的“带货”恰逢小米汽车高光时刻，新车型YU7上市1小时大定突破28.9万辆。

黄仁勋在第三届中国供应链博览会开幕式上发表演讲。他在演讲中提到，DeepSeek、阿里、腾讯、MiniMax、百度等世界一流企业的开源模型，正推动全球AI发展。黄仁勋演讲中一共提及11家中国公司：腾讯、网易、米哈游、游戏科学、字节跳动、DeepSeek、阿里巴巴、MiniMax、百度、小米、美团等。（电动内参、扬子晚报）

小鹏汽车扩招8000人！

年内员工规模将达3万人！

近期小鹏汽车最近宣布启动2026届校园招聘，这次校招是小鹏史上最大规模的AI人才招聘，重点在智能驾驶和AI大模型这些核心领域。年初的时候，小鹏已经推出了6000人的招聘计划，半年后又新增了2000人的编制，特别是智能驾驶领域，大量岗位都投向了AI大模型（比如VLA、VLM）这些前沿方向。

小鹏汽车的董事长兼CEO何小鹏在内部讲话里提到，今年的招聘计划已经从原来的6000人调整到了8000人。算下来，今年年底小鹏的员工规模估计得接近3万人了。他还特别强调，公司会更加关注毕业生，尤其是优秀的本科毕业生，同时继续推进“探索者计划”，重点培养内部的年轻人才，帮助更多年轻人在公司里成长起来。

现在智能驾驶领域的人才竞争特别激烈，小鹏招来的这些AI人才，未来会支撑小鹏的自动驾驶技术从L3向L4进阶，他们研发的模型也会成为小鹏全系AI终端的核心基础。（快科技）

全新小鹏P7实车曝光：首次亮灯了

赛博未来感十足！

小鹏全新一代P7发布在即，近日，网络上频繁曝光该车的实车。从最新的照片看，新车日行灯已经点亮，车头为贯穿式，两侧则有向上下分别延伸的短条灯带。而主灯隐藏在车头黑色饰条内部，不点亮时与车头融为一体，强化整车的赛博科技感。前包围采用倒梯形的散热开口设计，整体前下唇的设计形成一个外突的造型，增添运动感，也提升了整车特色。

车身尺寸方面，新车长宽高分别为5017/1970/1427mm，轴距为3008mm，定位于中大型轿车。这款车最显著的特征之一就是A柱几乎平直向后延伸，在与车顶接触后，线条迅速开始下滑，这样的设计如今确实罕见。熏黑A柱营造出悬浮式的车顶，外后视镜同样进行了熏黑处理，并且目测为无框样式，隐藏式门把手同样没有缺席。

参考申报信息，四驱版还可选装碳纤维外后视镜外壳、碳纤维侧翼子板装饰件、主动格栅等配置，配置不俗。（快科技）

#Delving into Mapping Uncertainty for Mapless Trajectory Prediction

清华等提出“本体感知”新方法，让无图自动驾驶"轨迹预测"准确率提升23.6%

近日，一篇被机器人顶会 IROS 2025 接收的论文《Delving into Mapping Uncertainty for Mapless Trajectory Prediction》引发了业内的广泛关注。该研究由清华大学、博世中央研究院、多伦多大学和香港大学的研究者们共同完成，旨在解决无地图（Mapless）自动驾驶中的一个核心难题：如何有效利用在线生成地图的不确定性，来提升对场景中车辆、行人等目标的轨迹预测能力。

研究团队通过深入分析发现了一个被长期忽视的关键因素——车辆自身的运动状态，并基于此提出了一种新颖的“本体感知场景门控”（Proprioceptive Scenario Gating）方法。该方法能够智能地、自适应地决定何时利用地图的不确定性信息，最终在真实的nuScenes数据集上，将无地图轨迹预测的性能提升了高达23.6%，效果显著。

论文标题： Delving into Mapping Uncertainty for Mapless Trajectory Prediction
作者团队： Zongzheng Zhang, Xuchong Qiu, Boran Zhang, Guantian Zheng, Xunjiang Gu, Guoxuan Chi, Huan-ang Gao, Leichen Wang, Ziming Liu, Xinrun Li, Igor Gilitschenski, Hongyang Li, Hang Zhao, Hao Zhao
所属机构： 清华大学、博世中央研究院、多伦多大学、香港大学
论文地址： https://arxiv.org/pdf/2507.18498v1
项目地址： https://github.com/Ethan-Zheng136/Map-Uncertainty-for-Trajectory-Prediction
项目主页： https://ethan-zheng136.github.io/Dev-Unc/
录用会议： IROS 2025

，时长02:52

研究背景与意义

自动驾驶技术正朝着“轻地图”甚至“无地图”的方向发展。传统的自动驾驶严重依赖高精地图（HD Maps），但高精地图的制作、维护成本高昂，且更新不及时。因此，直接通过车载传感器（如摄像头、激光雷达）实时在线生成局部地图，并基于此进行感知和决策的“无地图”方案，成为了行业热点。

然而，在线生成的地图天生就存在“不确定性”——它可能不完美、有噪声，甚至存在错误。如何处理这种不确定性，是无地图系统走向鲁棒的关键。之前的研究已经尝试将这种不确定性信息融入下游的轨迹预测任务中，并发现有一定潜力。但这些方法通常是“一刀切”地融入，缺乏对一个根本问题的回答：到底在哪些场景下，考虑地图的不确定性才是有益的？