《VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision》2024年12月发表,来自Cruise和美国东北大学的论文

人类驾驶员依靠常识推理来驾驭多样化和动态的现实世界场景。现有的端到端(E2E)自动驾驶(AD)模型通常经过优化,以模拟数据中观察到的驾驶模式,而不捕获底层推理过程。这种限制限制了他们处理具有挑战性的驾驶场景的能力。为了缩小这一差距,我们提出了VLM-AD,这是一种利用视觉语言模型(VLM)作为教师的方法,通过提供包含非结构化推理信息和结构化动作标签的额外监督来加强培训。这种监督增强了模型学习更丰富的特征表示的能力,这些特征表示捕捉了驾驶模式背后的基本原理。重要的是,我们的方法在推理过程中不需要VLM,使其适用于实时部署。当与最先进的方法集成时,VLM-AD在nuScenes数据集上的规划精度和碰撞率方面取得了显著提高。

 

研究背景与问题

现有的端到端(E2E)自动驾驶模型通过模仿数据中的驾驶模式进行优化,但缺乏人类驾驶员在复杂场景中的常识推理能力,导致在长尾事件(如罕见交通场景)中表现不佳。传统方法依赖人工标注的轨迹数据,但标注成本高且难以捕捉隐含的推理逻辑;而直接集成大语言模型(LLM)或视觉语言模型(VLM)的方法则需要大量微调,且推理时依赖大模型,计算开销大。

核心贡献

提出 VLM-AD 方法,通过以下创新点解决上述问题:

 

  1. VLM作为教师模型

    • 在训练阶段,利用VLM(如GPT-4)自动生成非结构化推理文本(如“当前动作”“未来预测”“推理逻辑”)和结构化动作标签(如“直行”“左转”)。

    • 将未来轨迹投影到前视图像中,解决VLM对时序信息理解不足的问题。

  2. 辅助任务设计

    • 特征对齐任务:通过交叉注意力机制,将模型特征与VLM生成的文本特征对齐。

    • 动作分类任务:直接预测结构化动作标签。

    • 通过多任务学习联合优化,提升模型对驾驶逻辑的理解。

  3. 无需推理时依赖VLM:仅在训练阶段使用VLM生成标注,实际部署时无需大模型,保证实时性。


方法细节

 

  1. 数据标注流程

    • 输入:前视图像 + 投影的未来轨迹(解决时序问题)。

    • 标注生成

      • 自由文本(Q1):通过开放式问题(如“当前动作是什么?”“未来会做什么?”“推理逻辑?”)生成非结构化文本。

      • 结构化动作(Q2):从预定义动作列表(如“直行”“左转”)中选择标签。

    • 标注编码:使用CLIP将文本转为特征向量,动作标签转为one-hot编码。

  2. 模型架构

    • 辅助任务头

      • 特征对齐头:通过多头交叉注意力(MHCA)将模型特征与文本特征对齐,使用温度参数控制特征分布平滑度。

      • 动作分类头:直接预测结构化动作,使用交叉熵损失优化。

    • 损失函数:加权结合特征对齐损失(LalignLalign​)和动作分类损失(LactionLaction​)。


实验结果
  1. 性能提升

    • 在nuScenes数据集上,VLM-AD显著降低了规划误差(L2误差降低14.6%-33.3%)和碰撞率(降低38.7%-57.4%)。

    • 集成到UniAD和VAD模型后,均优于基线方法和对比方法(如VLP)。

  2. 消融实验

    • 子问题贡献:推理问题(Q1-3)对性能提升最大,说明推理逻辑是关键。

    • 特征对齐方法:提出的温度归一化方法优于MSE、KL散度等传统对齐方式。

    • 模型设计:使用MHCA块和CLIP编码效果最佳。

  3. 可视化分析

    • VLM-AD生成的轨迹更平滑且符合道路结构,而基线模型(如UniAD)轨迹抖动较大。

    • 动作预测头提供了可解释性(如正确输出“直行”而非错误转向指令)。


局限性及未来方向
  1. 标注质量依赖VLM

    • VLM可能误判动作(如将右转误标为左转)或环境状态(如混淆交通灯与行人灯)。

    • 改进方向:设计更精细的提示(Prompt)或引入多模态输入(如激光雷达)。

  2. 数据集多样性不足

    • nuScenes数据集中97%的样本为“直行”,限制了模型对复杂动作的学习。

    • 改进方向:引入更多长尾场景数据或合成数据增强。

  3. 实时性挑战

    • 当前方法在训练阶段需调用VLM生成标注,未来可探索轻量化VLM或离线标注加速流程。


总结

VLM-AD通过VLM生成的推理监督信号,显著提升了端到端自动驾驶模型的规划能力和鲁棒性,同时避免了推理时的高计算开销。其核心价值在于:

  1. 低成本标注:利用VLM自动生成高质量监督信号,减少对人工标注的依赖。

  2. 可解释性:通过动作分类头提供人类可理解的决策逻辑。

  3. 通用性:可灵活集成到现有E2E框架(如UniAD、VAD),具有广泛适用性。

未来工作可进一步优化VLM标注的准确性,并结合多模态感知提升复杂场景的泛化能力。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/80112.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/80112.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/80112.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

目标检测中的损失函数(三) | SIoU WIoUv1 WIoUv2 WIoUv3

🚀该系列将会持续整理和更新BBR相关的问题,如有错误和不足恳请大家指正,欢迎讨论!!! SCYLLA-IoU(SIoU)来自挂在2022年arxiv上的文章:《SIoU Loss: More Powerful Learnin…

http Status 400 - Bbad request 网站网页经常报 HTTP 400 错误,清缓存后就好了的原因

目录 一、HTTP 400 错误的常见成因(一)问题 URL(二)缓存与 Cookie 异常(三)请求头信息错误(四)请求体数据格式不正确(五)文件尺寸超标(六)请求方法不当二、清缓存为何能奏效三、其他可以尝试的解决办法(一)重新检查 URL(二)暂时关闭浏览器插件(三)切换网络环…

【DeepMLF】具有可学习标记的多模态语言模型,用于情感分析中的深度融合

这是一篇我完全看不懂的论文,写的好晦涩,适合唬人,所以在方法部分我以大白话为主 abstract 在多模态情感分析(MSA)中,多模态融合已经得到了广泛的研究,但融合深度和多模态容量分配的作用还没有得到充分的研究。在这项工作中,我们将融合深度、可扩展性和专用多模容量作…

【ASP.net】在Windows 11上安装IIS并测试C# Web项目的踩坑实录

摘要 多年未接触.NET技术栈的田辛老师,最近因项目需求重新搭建测试环境。本文记录了Windows 11环境下安装IIS服务的全过程,以及一个让开发者抓狂的“空白页面”问题的解决方案。 1. 基础环境配置 工欲善其事,必先利其器。本次环境搭建选择…

【IP101】图像特征提取技术:从传统方法到深度学习的完整指南

🌟 特征提取魔法指南 🎨 在图像处理的世界里,特征提取就像是寻找图像的"指纹",让我们能够识别和理解图像的独特性。让我们一起来探索这些神奇的特征提取术吧! 📚 目录 基础概念 - 特征的"体…

HybridCLR 详解:Unity 全平台原生 C# 热更新方案

HybridCLR(原 Huatuo)是 Unity 平台革命性的热更新解决方案,它通过扩展 Unity 的 IL2CPP 运行时,实现了基于原生 C# 的完整热更新能力。下面从原理到实践全面解析这一技术。 一、核心原理剖析 1. 技术架构 原始 IL2CPP 流程&am…

机器学习——逻辑回归ROC练习

一、 题目要求: 给定以下二分类模型的预测结果,手动绘制ROC曲线并计算AUC值: y_true [0, 1, 0, 1, 0, 1] # 真实标签(0负类,1正类) y_score [0.2, 0.7, 0.3, 0.6, 0.1, 0.8] # 模型预测得分 代码展示…

Python项目源码69:Excel数据筛选器1.0(tkinter+sqlite3+pandas)

功能说明:以下是一个使用Tkinter和Pandas实现的完整示例,支持Excel数据读取、双表格展示和高级条件筛选功能: 1.文件操作:点击"打开文件"按钮选择Excel文件(支持.xlsx和.xls格式),自…

php8 枚举使用教程

简介 PHP 从 8.1 开始原生支持枚举(enum),这是 PHP 向类型安全和现代语言特性迈进的重要一步。枚举可以定义一组有穷的、不可变的常量集合,常用于表示状态值、选项类型等。 基础语法 PHP 支持两种类型的枚举: 纯枚…

【Linux】Linux环境基础开发工具

前言 本篇博客我们来了解Linux环境下一些基础开发工具 💓 个人主页:zkf& ⏩ 文章专栏:Linux 若有问题 评论区见📝 🎉欢迎大家点赞👍收藏⭐文章 目录 1.Linux 软件包管理器 yum 2.Linux开发工具 2.1…

vue2开发者sass预处理注意

vue2开发者sass预处理注意 sass的预处理器,早年使用node-sass,也就是vue2最初默认的编译器。 sass官方推出了dart-sass来替代。 node-sass已经停维很久了。 vue3默认使用的是dart-sass。 Uniapp的官方文档截图 从 HBuilderX 4.56 ,vue2 …

Spring MVC Controller 方法的返回类型有哪些?

Spring MVC Controller 方法的返回类型非常灵活,可以根据不同的需求返回多种类型的值。Spring MVC 会根据返回值的类型和相关的注解来决定如何处理响应。 以下是一些常见的 Controller 方法返回类型: String: 最常见的类型之一,用于返回逻辑…

[ctfshow web入门] web55

信息收集 这里把小写字母都过滤了&#xff0c;众所周知linux是大小写区分的&#xff0c;没有小写字母根本整不出来命令 if(isset($_GET[c])){$c$_GET[c];if(!preg_match("/\;|[a-z]|\|\%|\x09|\x26|\>|\</i", $c)){system($c);} }else{highlight_file(__FILE…

2021-11-11 C++泰勒sin(x)以2步进乘方除以阶乘加减第N项

缘由c书本题&#xff0c;求解了&#xff0c;求解-编程语言-CSDN问答 int n 10, d 3, z -1; double x 2.5, xx x;while (n){xx (乘方(x, d) / 阶乘(d)) * z;d 2, --n, z * -1;}std::cout << xx << std::endl;

湖仓一体化介绍

目录 一、湖仓一体化的定义与核心概念 二、湖仓一体化出现的背景 (一)数据仓库的局限性 (二

仓颉编程语言快速入门:从零构建全场景开发能力

在万物互联的智能时代,编程语言的演进始终与计算范式的革新紧密相连。华为推出的仓颉编程语言(Cangjie Programming Language)以“原生智能化、天生全场景”为核心理念,为开发者提供了一种兼顾高效开发与极致性能的新选择。本文将带你从零开始,快速掌握这门面向未来的语言…

AI教你学VUE——Deepseek版

一、基础阶段&#xff1a;打好Web开发基础 HTML/CSS基础 学习HTML标签语义化、CSS布局&#xff08;Flex/Grid&#xff09;、响应式设计&#xff08;媒体查询、REM/VW单位&#xff09;。资源推荐&#xff1a; MDN Web文档&#xff08;免费&#xff09;&#xff1a;HTML | CSS实战…

DeepSeek智能时空数据分析(八):NL2SQL绘制河流-轨迹缓冲区如何生成

序言&#xff1a;时空数据分析很有用&#xff0c;但是GIS/时空数据库技术门槛太高 时空数据分析在优化业务运营中至关重要&#xff0c;然而&#xff0c;三大挑战仍制约其发展&#xff1a;技术门槛高&#xff0c;需融合GIS理论、SQL开发与时空数据库等多领域知识&#xff1b;空…

推导部分和-图论+dfs+连通块

先研究一下&#xff0c;感觉有点像lca里的树上前缀和&#xff0c;不过树有多颗&#xff0c;用color区分一下 https://www.luogu.com.cn/problem/P8779 #include<bits/stdc.h> using namespace std; #define N 100011 typedef long long ll; typedef pair<int,int&g…

WPF MVVM入门系列教程(六、ViewModel案例演示)

&#x1f9ed; WPF MVVM入门系列教程 一、MVVM模式介绍二、依赖属性三、数据绑定四、ViewModel五、命令和用户输入六、ViewModel案例演示 在前面的文章中&#xff0c;介绍了ViewModel的基础概念 本文会使用一些实例来进行ViewModel的演示 一个基础的数据展示示例 假设我们要…