HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder

GitHub地址：https://github.com/nullmax-vision/HiP-AD

在自动驾驶技术飞速发展的今天，端到端自动驾驶（E2E-AD）凭借其直接从原始传感器数据预测规划轨迹的能力，成为了研究的热点方向。众多研究人员致力于提升 E2E-AD 的性能，期望能在实际应用中实现更安全、高效的自动驾驶。然而，当前的 E2E-AD 技术在闭环评估中仍存在明显不足，距离理想的自动驾驶目标还有一定差距。在这样的背景下，Nullmax提出一种名为 HiP-AD（Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder）的新型端到端自动驾驶框架应运而生，它的出现为自动驾驶技术的发展带来了新的思路和希望。

一、端到端自动驾驶的现状与挑战

目前，端到端自动驾驶技术已经取得了显著的进展，主流方法是将感知、预测和规划等所有任务整合到一个完全可微的单一模型中。这种方式相较于传统的独立或多任务范式，极大地减轻了累积误差，使得各个任务模块能够协同工作，在大规模数据的支持下展现出了良好的性能。

但不可忽视的是，开环和闭环评估之间存在着巨大的性能差距。开环方法侧重于规划轨迹与真实轨迹之间的位移误差，而闭环方法更关注安全驾驶性能。从实际数据来看，以往的 E2E-AD 方法在开环基准测试（如 nuScenes 数据集）中，在碰撞率指标上表现出色，部分方法的碰撞率可低至 0.1% 。然而，在综合闭环评估数据集 Bench2Drive 上，这些方法的成功率却不尽人意，始终低于 35% ，即使仅关注紧急制动情况，成功率也低于 55%。这表明当前的 E2E-AD 方法在实际驾驶场景中的安全性和可靠性仍需大幅提升。

深入分析发现，这些方法在查询设计和交互中对规划的潜力挖掘不足。一方面，大多数方法将 E2E-AD 视为轨迹回归的模仿学习任务，过于关注轨迹拟合，而忽视了闭环控制；另一方面，现有的交互方式缺乏规划与感知、场景特征之间的全面交互，使得模型难以有效提取有价值的信息。

nuScenes 数据集上碰撞率的开环指标和 Bench2Drive 数据集上成功率的闭环指标的现有最新工作比较，其中左上角更好。图例指示不同的计划交互方法。

二、HiP-AD 框架的核心设计

HiP-AD 框架的出现，旨在解决上述问题，其核心设计包含多个创新点，从多个维度提升了自动驾驶的性能。

（一）统一解码器实现多任务协同

HiP-AD 的整体网络架构由骨干网络、特征金字塔网络（FPN）、统一解码器和多个特定任务头组成。骨干网络和 FPN 用于从多视图图像中提取多尺度特征，而统一解码器则是整个框架的关键部分。它以混合任务锚点和查询作为输入，这些查询包括用于对象检测和运动预测的代理查询、用于在线映射的地图查询，以及用于轨迹预测的多粒度规划查询。统一解码器由三个模块构成：时间交互模块、协同交互模块和任务可变形聚合模块。时间交互模块通过 top - k 选择机制保留历史任务特征，建立当前任务与历史任务之间的通信，特别是增强了规划查询与时间感知查询之间的交互，使模型能够更好地利用历史信息。协同交互模块通过三个独立的自注意力机制和一个统一的自注意力模块实现跨任务交互，构建几何注意力图聚焦局部和相对元素，避免使用全局注意力带来的信息冗余，同时让规划查询能够获取所有任务的信息。任务可变形注意力模块摒弃了传统的全局注意力，采用独立的可变形注意力模块针对每个任务查询采样局部稀疏特征。对于规划任务，将参考路标点分布在不同预设高度值上并投影到多视图图像，通过多层感知器学习空间偏移和权重来采样相邻点的特征，从而整合未来轨迹周围的特征，学习稀疏场景表示，有效避免碰撞。

（二）分层多粒度规划提升控制精度

HiP-AD 引入了分层多粒度规划的概念，与以往的路标点设计不同，它不仅利用了时间和空间路标点，还创新性地引入了驾驶风格路标点。时间路标点用于控制车辆的行驶时间，空间路标点规划车辆的行驶路径，而驾驶风格路标点则结合速度信息，使车辆能够在复杂环境中学习合适的驾驶行为。

为了实现更精确的控制和丰富的轨迹监督，HiP-AD 采用了多采样策略。对于空间路标点，采用密集和稀疏间隔采样；对于时间和驾驶风格路标点，采用高、低频率采样，并为驾驶风格路标点设置不同的速度区间。这样，稀疏间隔的路标点提供全局信息，有助于车辆进行高级决策；密集间隔的路标点则实现精细控制，确保车辆的精准操作。不同速度的驾驶风格路标点能够使车辆更好地应对超车、紧急制动等场景，在闭环评估中实现灵活的纵向控制。

在构建多粒度规划查询时，HiP-AD 设置了多种粒度的规划查询，包括时间、空间和驾驶风格规划查询，每个粒度规划查询又包含多种模态，代表不同的行驶轨迹。经过统一解码器处理后，同一模态内不同粒度的规划查询进行对齐和聚合，形成融合查询，以增强信息互补性，优化轨迹预测。在训练过程中，采用对齐匹配策略，指定一组路标点作为参考路标点与真实标签进行匹配，其他组共享匹配结果，确保最优匹配模态的梯度能够有效反向传播。同时，根据时间路标点的真实标签选择合适的驾驶风格路标点，每个驾驶风格路标点负责特定的速度区域，确保每个粒度的路标点都能学习到对应复杂驾驶场景的动作。

该图将早期预测航点的方法（a-b）与我们提出的多粒度规划设计（c）进行了比较，其中 nt、ns 和 nd 表示每种航路点类型在频率、间隔和速度方面的不同粒度数。（d）部分说明了基于不同采样策略的具有实例化粒度的分层 waypoint 的演变。

HiP-AD 的总体框架由sofaBackbone和FPN用于提取图像特征，aunifieddecoder用于迭代更新查询，以及各种heads用于多任务预测。unifieddecoderaretaskanchorsandqueries（agent， map，andplanning）的inputsof，其中planningquery包含多粒度waypoints表示。在每个统一的解码器中，任务查询首先分别与时间查询交互，然后相互协作，最后以交互方式参与图像特征。最后，将更新的任务查询发送到相应的 headsfor perception、prediction 和 planning，其中 planningresults 包括具有不同粒度的各种 waypoints，用于精确动作控制

（三）路标点选择与动作控制策略

在推理阶段，HiP-AD 通过两步选择过程确定最终的路标点。首先，根据预测的模态分数选择最优模态；然后，按照预定义规则选择特定粒度的路标点，如为空间路标点选择密集间隔，为时间粒度选择高频路标点，为驾驶风格路标点选择预测风格分类得分最高的。在控制方面，与 CarLLaVA 类似，使用空间路标点进行横向控制。对于纵向控制，先评估计算出的驾驶风格路标点的速度，若与所选驾驶风格的预设速度范围一致，则使用驾驶风格路标点控制车辆；否则，切换回时间路标点进行控制。

（四）损失函数设计

HiP-AD 可以以完全可微的方式进行端到端训练和优化，其整体优化函数涵盖检测、运动预测、映射和规划四个主要任务。每个主要任务都使用分类和回归损失进行优化，并分配相应的权重。规划损失包括多粒度路标点回归损失以及模态和驾驶风格的分类损失，通过这种方式，模型能够在训练过程中不断调整参数，提高预测的准确性和可靠性。

说明了统一解码器层中三个子模块的详细架构，以实现全面的交互。

基于路径点预测的多粒度查询体系结构。为了清楚起见，我们省略了分类头。

三、实验验证 HiP-AD 的卓越性能

为了全面评估 HiP-AD 的性能，研究人员在具有挑战性的闭环基准测试 Bench2Drive 数据集和现实数据集 nuScenes 上进行了大量实验。

（一）实验设置

在 Bench2Drive 数据集上，实验采用 ResNet50 作为骨干网络，设置 6 个解码器层，输入分辨率为 640×352。混合任务查询数量固定，包括 900 个代理查询、100 个地图查询和 480 个规划查询，每个规划查询包含 48 种模态，10 种粒度。训练过程分为两个阶段，先禁用驾驶风格头训练 12 个 epoch，再启用驾驶风格头进行 6 个 epoch 的微调，使用 8 个 NVIDIA 4090 GPU，总批量大小为 32，采用 AdamW 优化器和余弦退火调度器，初始学习率为 2×10⁻⁴，权重衰减为 0.01 。在 nuScenes 数据集上的训练参数与 Bench2Drive 类似，但输入分辨率调整为 704×256，且由于开环和闭环评估的目的不同，训练过程有所差异，训练时禁用驾驶风格路标点，使用时间路标点进行性能评估，并采用类似 SparseDrive 的训练方法以最大化感知性能。

（二）实验结果

在 Bench2Drive 数据集上，HiP-AD 展现出了优异的闭环性能，其驾驶分数和成功率远超其他先进的端到端自动驾驶方法，与排名第二的方法相比，驾驶分数提高了 20% 以上，成功率提高了 30% 以上，同时在 L2 误差分数上与其他领先方法相当。在多能力评估中，HiP-AD 在合并、超车、紧急制动和交通标志识别等场景下的能力显著提升，整体分数提高了 25% 以上。在 nuScenes 数据集的开环评估中，HiP-AD 实现了最低的碰撞率，同时保持了具有竞争力的 L2 误差，在感知和预测任务上也表现出色，证明了其统一框架的稳健性和有效性。

（三）消融实验

为了深入分析 HiP-AD 各部分的作用，研究人员进行了消融实验。实验结果表明，规划可变形注意力和多粒度表示对整体性能提升至关重要，多粒度规划尤其在提供更好的控制方面表现突出。同时，对比统一框架和顺序变体发现，统一框架中感知和规划任务的并行迭代运行方式明显优于顺序执行，充分体现了统一框架的优势。在对多粒度规划查询设计的消融研究中发现，不同的设置对性能有显著影响，结合多种采样策略和驾驶风格的设置能够实现最佳性能，并且多粒度规划有效减少了车辆在某些场景下的犹豫现象，鼓励车辆在复杂场景中学习合适的行为。

四、HiP-AD 的优势、局限与未来展望

HiP-AD 在闭环路线上的定性结果，包括感知、运动和规划轨迹。空间航路点为天蓝色，而驾驶式航路点为红色。重要对象在黄色圆圈中突出显示。

HiP-AD 通过统一解码器实现了感知、预测和规划任务的高效协同，分层多粒度规划策略为车辆控制提供了丰富的信息和精确的监督，规划可变形注意力机制有效利用规划轨迹的几何信息提取相关图像特征，这些创新设计使得 HiP-AD 在自动驾驶性能上取得了显著提升。无论是在闭环评估中的安全驾驶性能，还是在开环评估中的轨迹预测准确性和感知能力，HiP-AD 都展现出了超越现有方法的优势。

然而，HiP-AD 也存在一些局限性。尽管在开环和闭环评估中表现出色，但仍需要进行大量的实际道路测试，以确保其在各种复杂真实场景下的可靠性和稳定性。此外，如何避免与后方快速接近的车辆发生碰撞，仍然是一个亟待解决的挑战。

展望未来，HiP-AD 为自动驾驶技术的发展提供了新的方向和思路。研究人员可以在此基础上，进一步优化框架结构，探索更有效的多粒度规划策略和注意力机制，提高模型对复杂场景的适应性和决策能力。随着技术的不断进步和完善，HiP-AD 有望在未来的自动驾驶领域发挥更大的作用，推动自动驾驶技术向更安全、更智能的方向发展，为人们的出行带来更多的便利和安全保障。