HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder

GitHub地址:​https://github.com/nullmax-vision/HiP-AD​

在自动驾驶技术飞速发展的今天,端到端自动驾驶(E2E-AD)凭借其直接从原始传感器数据预测规划轨迹的能力,成为了研究的热点方向。众多研究人员致力于提升 E2E-AD 的性能,期望能在实际应用中实现更安全、高效的自动驾驶。然而,当前的 E2E-AD 技术在闭环评估中仍存在明显不足,距离理想的自动驾驶目标还有一定差距。在这样的背景下,Nullmax提出一种名为 HiP-AD(Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder)的新型端到端自动驾驶框架应运而生,它的出现为自动驾驶技术的发展带来了新的思路和希望。​

一、端到端自动驾驶的现状与挑战​

目前,端到端自动驾驶技术已经取得了显著的进展,主流方法是将感知、预测和规划等所有任务整合到一个完全可微的单一模型中。这种方式相较于传统的独立或多任务范式,极大地减轻了累积误差,使得各个任务模块能够协同工作,在大规模数据的支持下展现出了良好的性能。​

但不可忽视的是,开环和闭环评估之间存在着巨大的性能差距。开环方法侧重于规划轨迹与真实轨迹之间的位移误差,而闭环方法更关注安全驾驶性能。从实际数据来看,以往的 E2E-AD 方法在开环基准测试(如 nuScenes 数据集)中,在碰撞率指标上表现出色,部分方法的碰撞率可低至 0.1% 。然而,在综合闭环评估数据集 Bench2Drive 上,这些方法的成功率却不尽人意,始终低于 35% ,即使仅关注紧急制动情况,成功率也低于 55%。这表明当前的 E2E-AD 方法在实际驾驶场景中的安全性和可靠性仍需大幅提升。​

深入分析发现,这些方法在查询设计和交互中对规划的潜力挖掘不足。一方面,大多数方法将 E2E-AD 视为轨迹回归的模仿学习任务,过于关注轨迹拟合,而忽视了闭环控制;另一方面,现有的交互方式缺乏规划与感知、场景特征之间的全面交互,使得模型难以有效提取有价值的信息。

nuScenes 数据集上碰撞率的开环指标和 Bench2Drive 数据集上成功率的闭环指标的现有最新工作比较,其中左上角更好。图例指示不同的计划交互方法。

二、HiP-AD 框架的核心设计​

HiP-AD 框架的出现,旨在解决上述问题,其核心设计包含多个创新点,从多个维度提升了自动驾驶的性能。​

(一)统一解码器实现多任务协同​

HiP-AD 的整体网络架构由骨干网络、特征金字塔网络(FPN)、统一解码器和多个特定任务头组成。骨干网络和 FPN 用于从多视图图像中提取多尺度特征,而统一解码器则是整个框架的关键部分。它以混合任务锚点和查询作为输入,这些查询包括用于对象检测和运动预测的代理查询、用于在线映射的地图查询,以及用于轨迹预测的多粒度规划查询。​统一解码器由三个模块构成:时间交互模块、协同交互模块和任务可变形聚合模块。时间交互模块通过 top - k 选择机制保留历史任务特征,建立当前任务与历史任务之间的通信,特别是增强了规划查询与时间感知查询之间的交互,使模型能够更好地利用历史信息。协同交互模块通过三个独立的自注意力机制和一个统一的自注意力模块实现跨任务交互,构建几何注意力图聚焦局部和相对元素,避免使用全局注意力带来的信息冗余,同时让规划查询能够获取所有任务的信息。任务可变形注意力模块摒弃了传统的全局注意力,采用独立的可变形注意力模块针对每个任务查询采样局部稀疏特征。对于规划任务,将参考路标点分布在不同预设高度值上并投影到多视图图像,通过多层感知器学习空间偏移和权重来采样相邻点的特征,从而整合未来轨迹周围的特征,学习稀疏场景表示,有效避免碰撞。​

(二)分层多粒度规划提升控制精度​

HiP-AD 引入了分层多粒度规划的概念,与以往的路标点设计不同,它不仅利用了时间和空间路标点,还创新性地引入了驾驶风格路标点。时间路标点用于控制车辆的行驶时间,空间路标点规划车辆的行驶路径,而驾驶风格路标点则结合速度信息,使车辆能够在复杂环境中学习合适的驾驶行为。​

为了实现更精确的控制和丰富的轨迹监督,HiP-AD 采用了多采样策略。对于空间路标点,采用密集和稀疏间隔采样;对于时间和驾驶风格路标点,采用高、低频率采样,并为驾驶风格路标点设置不同的速度区间。这样,稀疏间隔的路标点提供全局信息,有助于车辆进行高级决策;密集间隔的路标点则实现精细控制,确保车辆的精准操作。不同速度的驾驶风格路标点能够使车辆更好地应对超车、紧急制动等场景,在闭环评估中实现灵活的纵向控制。​

在构建多粒度规划查询时,HiP-AD 设置了多种粒度的规划查询,包括时间、空间和驾驶风格规划查询,每个粒度规划查询又包含多种模态,代表不同的行驶轨迹。经过统一解码器处理后,同一模态内不同粒度的规划查询进行对齐和聚合,形成融合查询,以增强信息互补性,优化轨迹预测。在训练过程中,采用对齐匹配策略,指定一组路标点作为参考路标点与真实标签进行匹配,其他组共享匹配结果,确保最优匹配模态的梯度能够有效反向传播。同时,根据时间路标点的真实标签选择合适的驾驶风格路标点,每个驾驶风格路标点负责特定的速度区域,确保每个粒度的路标点都能学习到对应复杂驾驶场景的动作。​

该图将早期预测航点的方法 (a-b) 与我们提出的多粒度规划设计 (c) 进行了比较,其中 nt、ns 和 nd 表示每种航路点类型在频率、间隔和速度方面的不同粒度数。(d) 部分说明了基于不同采样策略的具有实例化粒度的分层 waypoint 的演变。

HiP-AD 的总体框架由sofaBackbone和FPN用于提取图像特征,aunifieddecoder用于迭代更新查询,以及各种heads用于多任务预测。unifieddecoderaretaskanchorsandqueries(agent, map,andplanning)的inputsof,其中planningquery包含多粒度waypoints表示。在每个统一的解码器中,任务查询首先分别与时间查询交互,然后相互协作,最后以交互方式参与图像特征。最后,将更新的任务查询发送到相应的 headsfor perception、prediction 和 planning,其中 planningresults 包括具有不同粒度的各种 waypoints,用于精确动作控制

(三)路标点选择与动作控制策略​

在推理阶段,HiP-AD 通过两步选择过程确定最终的路标点。首先,根据预测的模态分数选择最优模态;然后,按照预定义规则选择特定粒度的路标点,如为空间路标点选择密集间隔,为时间粒度选择高频路标点,为驾驶风格路标点选择预测风格分类得分最高的。在控制方面,与 CarLLaVA 类似,使用空间路标点进行横向控制。对于纵向控制,先评估计算出的驾驶风格路标点的速度,若与所选驾驶风格的预设速度范围一致,则使用驾驶风格路标点控制车辆;否则,切换回时间路标点进行控制。​

(四)损失函数设计​

HiP-AD 可以以完全可微的方式进行端到端训练和优化,其整体优化函数涵盖检测、运动预测、映射和规划四个主要任务。每个主要任务都使用分类和回归损失进行优化,并分配相应的权重。规划损失包括多粒度路标点回归损失以及模态和驾驶风格的分类损失,通过这种方式,模型能够在训练过程中不断调整参数,提高预测的准确性和可靠性。​

说明了统一解码器层中三个子模块的详细架构,以实现全面的交互。

基于路径点预测的多粒度查询体系结构。为了清楚起见,我们省略了分类头。

三、实验验证 HiP-AD 的卓越性能​

为了全面评估 HiP-AD 的性能,研究人员在具有挑战性的闭环基准测试 Bench2Drive 数据集和现实数据集 nuScenes 上进行了大量实验。​

(一)实验设置​

在 Bench2Drive 数据集上,实验采用 ResNet50 作为骨干网络,设置 6 个解码器层,输入分辨率为 640×352。混合任务查询数量固定,包括 900 个代理查询、100 个地图查询和 480 个规划查询,每个规划查询包含 48 种模态,10 种粒度。训练过程分为两个阶段,先禁用驾驶风格头训练 12 个 epoch,再启用驾驶风格头进行 6 个 epoch 的微调,使用 8 个 NVIDIA 4090 GPU,总批量大小为 32,采用 AdamW 优化器和余弦退火调度器,初始学习率为 2×10⁻⁴,权重衰减为 0.01 。在 nuScenes 数据集上的训练参数与 Bench2Drive 类似,但输入分辨率调整为 704×256,且由于开环和闭环评估的目的不同,训练过程有所差异,训练时禁用驾驶风格路标点,使用时间路标点进行性能评估,并采用类似 SparseDrive 的训练方法以最大化感知性能。​

(二)实验结果​

在 Bench2Drive 数据集上,HiP-AD 展现出了优异的闭环性能,其驾驶分数和成功率远超其他先进的端到端自动驾驶方法,与排名第二的方法相比,驾驶分数提高了 20% 以上,成功率提高了 30% 以上,同时在 L2 误差分数上与其他领先方法相当。在多能力评估中,HiP-AD 在合并、超车、紧急制动和交通标志识别等场景下的能力显著提升,整体分数提高了 25% 以上 。在 nuScenes 数据集的开环评估中,HiP-AD 实现了最低的碰撞率,同时保持了具有竞争力的 L2 误差,在感知和预测任务上也表现出色,证明了其统一框架的稳健性和有效性。​

(三)消融实验​

为了深入分析 HiP-AD 各部分的作用,研究人员进行了消融实验。实验结果表明,规划可变形注意力和多粒度表示对整体性能提升至关重要,多粒度规划尤其在提供更好的控制方面表现突出。同时,对比统一框架和顺序变体发现,统一框架中感知和规划任务的并行迭代运行方式明显优于顺序执行,充分体现了统一框架的优势。在对多粒度规划查询设计的消融研究中发现,不同的设置对性能有显著影响,结合多种采样策略和驾驶风格的设置能够实现最佳性能,并且多粒度规划有效减少了车辆在某些场景下的犹豫现象,鼓励车辆在复杂场景中学习合适的行为。​

四、HiP-AD 的优势、局限与未来展望​

HiP-AD 在闭环路线上的定性结果,包括感知、运动和规划轨迹。空间航路点为天蓝色,而驾驶式航路点为红色。重要对象在黄色圆圈中突出显示。

HiP-AD 通过统一解码器实现了感知、预测和规划任务的高效协同,分层多粒度规划策略为车辆控制提供了丰富的信息和精确的监督,规划可变形注意力机制有效利用规划轨迹的几何信息提取相关图像特征,这些创新设计使得 HiP-AD 在自动驾驶性能上取得了显著提升。无论是在闭环评估中的安全驾驶性能,还是在开环评估中的轨迹预测准确性和感知能力,HiP-AD 都展现出了超越现有方法的优势。​

然而,HiP-AD 也存在一些局限性。尽管在开环和闭环评估中表现出色,但仍需要进行大量的实际道路测试,以确保其在各种复杂真实场景下的可靠性和稳定性。此外,如何避免与后方快速接近的车辆发生碰撞,仍然是一个亟待解决的挑战。​

展望未来,HiP-AD 为自动驾驶技术的发展提供了新的方向和思路。研究人员可以在此基础上,进一步优化框架结构,探索更有效的多粒度规划策略和注意力机制,提高模型对复杂场景的适应性和决策能力。随着技术的不断进步和完善,HiP-AD 有望在未来的自动驾驶领域发挥更大的作用,推动自动驾驶技术向更安全、更智能的方向发展,为人们的出行带来更多的便利和安全保障。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/89437.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/89437.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/89437.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

transformer位置编码研究相关的综述、论文

一、权威综述 《利用位置编码实现长度外推》 (腾讯云开发者社区, 2024) 系统分析绝对/相对位置编码(APE/RPE)在长序列外推中的技术演进,涵盖RoPE、Alibi、Xpos等优化方案,讨论位置插值、NTK-aware缩放等扩展…

垂直领域AI智能体开发指南:用Bright Data MCP接入智能体攻克数据难关

垂直领域AI智能体开发指南:用Bright Data MCP接入智能体攻克数据难关 一、智能体时代的数据困局1.1 AI智能体的爆发式增长1.2 开发者遭遇的"数据瓶颈" 二、Bright Data MCP:智能体的数据引擎2.1 重新定义数据获取方式2.2 支持的核心场景2.3 四…

Stable Diffusion 项目实战落地:从0到1 掌握ControlNet 第三篇: 打造光影字形的创意秘技-文字与自然共舞

上一篇,我们一起玩转了 野外光影字,是不是被那种自然和光影交织的效果惊艳到啦? 如果你错过了那篇文章,别担心,赶紧点这里补课:Stable Diffusion 项目实战落地:从0到1 掌握ControlNet:打造光影文字 第二篇 - 野外光影字。 今天,我们将一起做一个 生成的嵌入式文字【…

CppCon 2018 学习:Feather: A Modern C++ Web Development Framework

你这段内容罗列的是 Web 开发中的几个基础概念和组成模块,下面我逐一用中文进行解释,并理清它们之间的关系: 基础概念说明 1. HTTP Server(HTTP服务器) 是一个监听 HTTP 请求并返回响应的程序。主要功能&#xff1a…

武汉大学机器人学院启航:一场颠覆性的产教融合实验,如何重塑中国智造未来?

当百年学府按下“产业加速键”,教育革命的号角已经吹响 2025年7月,武汉大学一纸公告震动教育界与科技圈——成立机器人学院,携手小米、宇树等硬科技领军企业,聘请10位产业教授入驻。这绝非一次常规的校企合作,而是一场…

QT记事本4——下拉框修改值后解决乱码问题

下拉框修改值后解决乱码问题 void Widget::onCurrentIndexChanged(int index) {qDebug()<<index;//索引从0开始qDebug()<<ui->comboBox->currentText();//切换编码时&#xff0c;首先清空当前的文本框ui->textEdit->clear();if(file.isOpen()){//仅在…

““ ‘‘ C++

在C中&#xff0c;"" 和 的含义完全不同&#xff0c;只有""是空字符串&#xff0c;而既不是空字符串&#xff0c;也不能表示空字符&#xff0c;具体区别如下&#xff1a; 1. 双引号 ""&#xff1a;空字符串字面量 类型&#xff1a;const char…

电脑远程控制另一台电脑无法连接怎么办

电脑远程控制另一台电脑无法连接怎么办&#xff1f;远程桌面连接是远程管理另一台计算机时比较常用的方式&#xff0c;在进行电脑远程控制时&#xff0c;无法连接是常见的问题&#xff0c;以下将从多个方面分析原因并提供解决方法。如果涉及无公网IP目标主机需要远程桌面连接的…

springboot3.2/3.4+rocketmq5.3.3测试程序的基本例子

想测试下springboot新版中与rocketmq5.3.3的配置使用&#xff0c;今天尝试了下&#xff0c;记录如下&#xff1a; 1、首先springboot使用3.2.7&#xff0c;rocketmq使用5.3.3&#xff0c;且使用docker部署rocketmq。 docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/do…

深入剖析AI大模型:TensorFlow

今天来聊一下TensorFlow&#xff0c;任何一门技术我建议还是从它出现的背景开始。因为你这就知道它存在的原因是什么。2015 年&#xff0c;Google 开源了深度学习框架 TensorFlow&#xff0c;一经推出便在学术界和工业界引起巨大反响。当时&#xff0c;深度学习模型的复杂度与日…

【数字后端】- tcbn28hpcplusbwp30p140,标准单元库命名含义

tcbn28: 代表工艺类型是台积电28nm工艺hpcplus: 代表工艺平台是HPC BWP: 其中B代表标准单元的类型是 “standard” base cell&#xff1b;W代表N-well 工艺&#xff0c;放置在 P-substrate上&#xff1b;P表示该 cell 使用的是 P-type transistor layout orientation&#xff1…

KNN算法详解及Scikit-learn API使用指南

一、KNN算法介绍 K最近邻(K-Nearest Neighbor, KNN)算法是机器学习中最简单、最直观的分类算法之一。它既可以用于分类问题&#xff0c;也可以用于回归问题。KNN是一种基于实例的学习(instance-based learning)或懒惰学习(lazy learning)算法&#xff0c;因为它不会从训练数据…

【PMP】项目管理入门:从基础到环境的体系化拆解

不少技术管理者都有过这样的困惑&#xff1a; 明明按流程做了项目管理&#xff0c;结果还是延期、超预算&#xff1f;需求变更多到炸&#xff0c;到底是客户无理还是自己没管好&#xff1f;跨部门协作像“推皮球”&#xff0c;资源总不到位&#xff1f; 其实&#xff0c;项目失…

【Web前端】简易轮播图显示(源代码+解析+知识点)

一、简易轮播图源代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>简易轮播图显示</title><style type"text/css">*{margin: 0 auto;padding: 0;/* 全局重置边距 */}p{text-align: center;fon…

电机试验平台的用途及实验范围

电机试验平台是一种专门设计用来对各种类型的电机进行测试和分析的设备。在现代工业中&#xff0c;电机作为驱动力的重要组成部分&#xff0c;在各个领域发挥着至关重要的作用。而为了确保电机的性能、效率和可靠性达到最佳水平&#xff0c;需要进行各种试验和测试。电机试验平…

自主/智能的本质内涵及其相互关系

论文地址&#xff1a;无人机的自主与智能控制 - 中国知网 (cnki.net) 自主/智能的本质内涵及其相互关系准则是无人机设计的基本原则。从一般意义上讲。自主与智能是两个不同范畴的概念。自主表达的是行为方式&#xff0c;由自身决策完成某行为则称之为“自主”。“智能”…

nignx+Tomcat+NFS负载均衡加共享储存服务脚本

本次使有4台主机&#xff0c;系统均为centos7&#xff0c;1台nignx&#xff0c;2台tomcat&#xff0c;1台nfs 第一台配置nignx脚本 #!/bin/bash #xiexianghu 2025.6.24 #nignx配置脚本&#xff0c;centos7#关闭防火墙和SElinux systemctl stop firewalld && system…

zabbix监控Centos 服务器

1.2&#xff1a;本地安装 先使用wget下载RPM安装包 然后解压安装 >>wget https://repo.zabbix.com/zabbix/6.4/rhel/8/x86_64/zabbix-agent2-6.4.21-release1.el8.x86_64.rpm ##### CENTOS 8 使用这一条>>rpm -ivh zabbix-agent2-6.4.21-release1.el8.x86_64.r…

中科米堆三维扫描仪3D扫描压力阀抄数设计

三维扫描技术正以数字化手段重塑传统制造流程。以压力阀这类精密流体控制元件为例&#xff0c;其内部流道结构的几何精度直接影响设备运行稳定性与使用寿命。 在传统设计模式下&#xff0c;压力阀的逆向工程需经历手工测绘、二维图纸绘制、三维建模转换等多个环节。技术人员需…

Python pytz 时区使用举例

Python pytz 时区使用举例 ⏰ 一、Python代码实现&#xff1a;时区转换与时间比较 import pytz from datetime import datetime# 1. 获取当前UTC时间 utc_now datetime.now(pytz.utc)# 2. 转换为目标时区&#xff08;示例&#xff1a;上海和纽约&#xff09; shanghai_tz py…