地址:LLM4Drive: A Survey of Large Language Models for Autonomous Driving

摘要翻译

自动驾驶技术作为推动交通和城市出行变革的催化剂,正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。相比之下,端到端自动驾驶系统因其完全数据驱动的训练过程有望避免误差累积,但其 “黑箱” 特性往往导致透明度不足,使得决策的验证和追溯复杂化。最近,大型语言模型(LLMs)已展现出上下文理解、逻辑推理和生成答案等能力。一个自然的想法是利用这些能力为自动驾驶赋能。通过将 LLM 与基础视觉模型相结合,有望实现当前自动驾驶系统所缺乏的开放世界理解、推理和小样本学习能力。本文系统综述了用于自动驾驶的(视觉)大型语言模型((V) LLM4Drive)的研究路线,评估了当前的技术进展状态,明确概述了该领域的主要挑战和未来方向。为了方便学术界和工业界的研究人员,我们通过指定链接(GitHub - Thinklab-SJTU/Awesome-LLM4AD)提供该领域最新进展的实时更新以及相关开源资源。

总结

1. 背景
  • 传统模块化系统:由感知、预测、规划等独立模块组成,虽在多种场景中提供可靠性和安全性,但存在信息丢失、计算冗余和模块间误差累积等问题。
  • 端到端系统:通过消除模块间的集成误差和减少冗余计算,增强了视觉和感官信息的表达,但决策过程缺乏透明度(“黑箱” 问题),解释和验证困难。
  • LLMs 的潜力:凭借强大的上下文理解、推理和生成能力,结合多模态模型(如图像、文本、点云等),可提升系统的泛化能力,支持零 / 小样本学习,有望解决自动驾驶的长尾问题并提供决策解释。
2. 动机
  • 数据与仿真的局限性:传统方法依赖大量数据和仿真,但仿真与现实存在差距(sim2real gap),且离线数据难以覆盖自动驾驶的长尾场景。
  • LLMs 的补充作用:利用 LLMs 内置的常识知识,可缩小数据缺口,提升系统在复杂场景下的推理能力,推动自动驾驶向人类专家水平靠近。

3. 应用场景
  • 规划与控制
    • 微调预训练模型:如 MTDGPT 将多任务决策转化为序列建模问题;DriveGPT4 基于多模态 LLM 生成控制信号并解释决策。
    • 提示工程:如 DiLu 通过记忆模块和 LLM 推理实现闭环驾驶;SurrealDriver 利用人类驾驶行为描述作为提示开发 “教练代理”。
  • 感知:LLMs 通过跨模态特征融合(如 PromptTrack 的语言提示与 3D 检测结合)或提示推理(如 HiLM-D 的风险目标定位)提升感知能力,尤其在数据稀缺场景下表现突出。
  • 问答(QA):涵盖传统 QA(如 Tang 等人的领域知识蒸馏)和视觉 QA(如 DriveLM 的图结构推理),支持实时场景理解和用户交互。
  • 生成:利用扩散模型(如 DriveDreamer、DrivingDiffusion)生成驾驶视频、交通场景或轨迹,用于数据增强和场景仿真,降低数据收集成本。
4. 数据集与评估基准
  • 数据集:如 BDD-X、NuScenes-QA、LingoQA 等,提供多模态标注(文本描述、QA 对、3D 边界框等),支持 LLMs 在自动驾驶中的训练和评估。
  • 评估基准:包括 LangAuto(CARLA-based)、LingoQA、DriveSim 等,覆盖场景理解、决策逻辑、安全性等多维度评估。
5. 挑战与未来方向
  • 挑战:计算效率(LLMs 推理时间长)、实时性要求、可解释性不足、数据质量(标注成本高)、安全性(对抗攻击)和伦理问题(隐私、偏见)。
  • 未来方向:轻量级 LLMs 优化、多模态融合(视觉 - 语言 - 传感器)、边缘计算部署、标准化评估指标、安全对齐(如形式化验证)和伦理框架建设。

一、相关技术方法

1. 规划与控制方法
  • 微调预训练模型
    • 核心思路:在预训练 LLMs 基础上,针对驾驶场景(如无信号交叉口决策、轨迹预测)进行微调,将驾驶任务转化为序列建模或语言生成问题。
    • 代表方法:MTDGPT 通过混合多任务数据集训练处理复杂决策;Agent-Driver 引入工具库和认知记忆增强推理;RAG-Driver 结合检索增强上下文学习,实现可解释的端到端驾驶。
  • 提示工程
    • 核心思路:通过设计特定提示(如 “思维链”、安全准则)激活 LLMs 的推理能力,无需大规模训练。
    • 代表方法:DiLu 利用记忆模块记录经验,通过多轮 QA 实现推理和反思;TrafficGPT 融合 ChatGPT 与交通基础模型,处理复杂交通问题;LanguageMPC 将 LLMs 与低级控制器结合,通过参数矩阵适应优化控制。
2. 感知方法
  • 跨模态融合:如 PromptTrack 将语言提示作为语义线索,融合到 3D 检测和跟踪任务中;LC-LLM 利用 LLMs 理解复杂场景,提升车道变更预测的可解释性。
  • 提示推理:如 HiLM-D 将高分辨率视觉信息输入多模态 LLMs,实现风险目标定位和意图预测;Context-aware Motion Prediction 结合 GPT-4V 的场景描述与传统模型,增强运动预测准确性。
3. 问答与生成方法
  • 问答
    • 传统 QA:通过 “聊天” 与 LLMs 构建领域知识本体(如 Tang 等人的交通规则蒸馏),支持实时交互和干预。
    • 视觉 QA:如 DriveMLM 利用多视图图像和点云生成高层决策命令;EM-VLM4AD 设计轻量级多帧视觉语言模型,提升问答效率。
  • 生成
    • 扩散模型:如 DriveDreamer 基于文本、图像和 HD 地图生成驾驶视频;CTG++ 通过 LLMs 将用户查询转化为损失函数,驱动扩散模型生成可控交通场景。
    • 场景仿真:ChatScene 利用 LLMs 生成安全关键场景,提升自动驾驶系统的鲁棒性;GenAD 利用网络数据和时间推理块,实现零样本场景泛化。
4. 评估与基准
  • 仿真环境:如 CARLA、nuPlan、HighwayEnv,用于测试 LLMs 在闭环驾驶中的性能(如碰撞率、轨迹拟合度)。
  • 指标体系:涵盖传统指标(如 L2 误差、mAP)和语言评估指标(如 BLEU-4、ChatGPT 评分),但缺乏统一标准,需进一步标准化。

二、评价指标

1. 传统指标
  • 规划与控制:轨迹跟踪误差(RMSE)、碰撞率、速度方差(SV)、时间效率(TE)。
  • 感知:mAP(平均精度均值)、3D检测准确率、目标定位误差(L2误差)。
2. 语言与多模态指标
  • 问答:BLEU-4、METEOR、CIDEr、SPICE(用于评估生成文本的语义准确性)。
  • 生成:FID(Fréchet Inception Distance)、CLIP分数(用于评估生成图像/视频的质量)。
3. 综合指标
  • 实时性:推理速度(如LLM-MPC在Jetson Orin上5.52秒/次)、控制频率(如MPC保持20Hz)。
  • 安全性:碰撞时间(TTC)、违规处罚(IP)、形式化验证通过率。

三、数据集

四、亟待解决的核心问题

1. 计算效率与实时性瓶颈
  • 挑战:LLM推理延迟高(如GPT-4V在复杂场景中需数秒),难以满足自动驾驶20Hz以上的控制频率需求。
  • 解决方案
    • 异步架构:如AsyncDriver将LLM推理与实时规划解耦,通过低频率高层决策指导高频控制。
    • 模型压缩:结合量化(如INT8量化)和知识蒸馏(如CoT-Drive),在保持性能的同时减少计算量。
2. 多模态融合的动态适应性
  • 挑战:静态融合方法无法应对数据分布变化(如传感器故障、极端天气),导致性能下降。
  • 解决方案
    • 动态融合机制:如DynMM通过门控函数动态选择模态组合,QMF利用不确定性估计实现质量感知融合。
    • 跨模态对齐:如3D MLLM架构通过稀疏查询统一视觉与语言的3D表示,提升场景理解一致性。
3. 数据质量问题
  • 挑战:合成数据的真实性不足(如纹理、物理特性差异),导致模型在真实场景中泛化能力弱。
  • 解决方案
    • 生成式仿真优化:如ChatSim结合神经渲染与扩散模型,提升场景的视觉和物理真实性。
    • 域适应技术:通过对抗训练(如CycleGAN)或元学习,缩小合成数据与真实数据的分布差异。
4. 可解释性与安全验证
  • 挑战:LLM的“黑箱”特性导致决策逻辑难以追溯,且存在幻觉问题(如错误识别障碍物)。
  • 解决方案
    • 可解释性增强:如DriveGPT4通过自然语言生成决策依据,GenFollower结合思维链(CoT)提示输出显式推理过程。
    • 形式化验证:如Hybrid Reasoning框架将LLM决策与传统控制器结合,通过逻辑推理验证安全性。
5. 伦理与社会接受度
  • 挑战:自动驾驶系统的决策可能引发伦理争议(如紧急避险时的优先级选择),且用户对AI驾驶的信任度不足。
  • 解决方案
    • 伦理框架设计:建立多利益相关方参与的评估体系,如SurrealDriver通过人类用户实验评估驾驶行为的人性化程度。
    • 透明交互界面:如Tang等人的领域知识蒸馏系统,通过实时问答增强用户对系统的理解与控制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/908256.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/908256.shtml
英文地址,请注明出处:http://en.pswp.cn/news/908256.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WebRTC中的几个Rtp*Sender

一、问题: webrtc当中有几个比较相似的类,看着都是发送RTP数据包的,分别是:RtpPacketToSend 和RtpSenderVideo还有RtpVideoSender以及RTPSender,这说明什么呢?首先,说明我会很多连词&#xff0…

EFI(x64)简易开发环境

文章目录 1 必须文件2 运行环境3 构建应用 (Visual Studio)4 引用 EDK2 头文件 1 必须文件 EDK2: 可以只拉取仓库本身, 不拉取其子仓库(完整构建才需要) qemu: qemu 以源码发布, QEMU for Windows – Installers (64 bit) 这里有民间构建的安装包 2 运行环境 创建一个 root …

八皇后问题深度解析

八皇后问题深度解析 一、八皇后问题的起源与背景1.1 问题起源1.2 历史发展 二、问题描述与约束条件2.1 问题描述2.2 约束条件 三、算法原理:回溯算法3.1 回溯算法概述3.2 八皇后问题的回溯算法实现思路 四、八皇后问题的多语言实现4.1 Python实现4.2 C实现4.3 Java实…

Cursor 工具项目构建指南: Python 3.8 环境下的 Prompt Rules 约束

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 Cursor 工具项目构建指南: Python 3.8 环境下的 Prompt Rules 约束前言项目简介技术栈…

Java中的阻塞队列

阻塞队列是什么? 一、阻塞队列的核心概念与特性 1.1 阻塞队列是什么? 简单来说,阻塞队列是一种特殊的队列,它具备普通队列先进先出(FIFO)的特性,同时还支持两个额外的重要操作: 当…

v1.0.1版本更新·2025年5月22日发布-优雅草星云物联网AI智控系统

v1.0.1版本更新2025年5月22日发布-优雅草星云物联网AI智控系统 开源地址 星云智控官网: 优雅草星云物联网AI智控软件-移动端vue: 优雅草星云物联网AI智控软件-移动端vue 星云智控PC端开源: 优雅草星云物联网AI智控软件-PC端vue: 优雅草星云物联网AI…

Java-IO流之转换流详解

Java-IO流之转换流详解 一、转换流概述1.1 什么是转换流1.2 转换流的作用1.3 转换流的位置 二、InputStreamReader详解2.1 基本概念2.2 构造函数2.3 核心方法2.4 使用示例:读取不同编码的文件 三、OutputStreamWriter详解3.1 基本概念3.2 构造函数3.3 核心方法3.4 使…

android lifeCycleOwner生命周期

一 Fragment中 viewLifecycleOwner.repeatOnLifecycle(Lifecycle.State.STARTED) 什么时候执行? 让我分析一下相关问题: 关于 onPause 时的数据更新: viewLifecycleOwner.lifecycleScope.launch {viewLifecycleOwner.repeatOnLifecycle(Lifecycle.Sta…

Liunx进程替换

文章目录 1.进程替换2.替换过程3.替换函数exec3.1命名解释 4.细说6个exe函数execl函数execvexeclp、execvpexecle、execve 1.进程替换 fork()函数在创建子进程后,子进程如果想要执行一个新的程序,就可以使用进程的程序替换来完成…

【华为云Astro-服务编排】服务编排中图元的使用与配置

目录 子服务编排图元 子服务编排图元的作用 如何使用子服务编排图元 脚本图元 脚本图元的作用 如何使用脚本图元 记录创建图元 记录创建图元的作用 如何使用记录创建图元 记录删除图元 记录删除图元的作用 如何使用记录删除图元 记录查询图元 记录查询图元的作用…

SQL Server相关的sql语句

目录 一、数据定义语言(DDL)1. 创建数据库2. 修改数据库3. 删除数据库4. 创建表5. 修改表结构6. 删除表 二、数据操作语言(DML)1. 插入数据2. 更新数据3. 删除数据 三、数据查询语言(DQL)1. 基础查询2. 去重…

【Hot 100】55. 跳跃游戏

目录 引言跳跃游戏我的解题 🙋‍♂️ 作者:海码007📜 专栏:算法专栏💥 标题:【Hot 100】55. 跳跃游戏❣️ 寄语:书到用时方恨少,事非经过不知难! 引言 跳跃游戏 &#x…

基于51单片机的车内防窒息检测报警系统

目录 具体实现功能 设计介绍 资料内容 全部内容 资料获取 具体实现功能 具体实现功能: (1)检测车内温度及二氧化碳浓度并用lcd1602实时显示。 (2)当人体红外传感器检测到车内有人,且温度或二氧化碳浓度…

关于智能体API参考接口

关于智能体在Flask的源码:请求体(在payload里的是请求体)、请求头(在headers里的i局势请求头)。 我的例子: 我的疑问:为什么没按Coze官方API文档格式,在Apifox里发POST请求却能收到回复? 1. 你…

Excel 批量下载PDF、批量下载考勤图片——仙盟创梦IDE

在办公场景中,借助应用软件实现 Excel 批量处理考勤图片、电子文档与 PDF,具有诸多显著优势。 从考勤图片处理来看,通过 Excel 批量操作,能快速提取图片中的考勤信息,如员工打卡时间、面部识别数据等,节省…

Apache Doris + MCP:Agent 时代的实时数据分析底座

一、Apache Doris:面向 Agent 时代的智能数据平台 当我们谈论 2025 年时,业界普遍认为这将是"Agent 革命年"(Agentic Revolution)的开端。与传统的人机交互模式不同,AI Agent 作为一个全新的"用户角色…

能不能用string接收数据库的datetime类型字段

在Java中使用String类型通过MyBatis接收MySQL的datetime类型字段时,​可以正常工作,但需注意格式和潜在问题。以下是关键点: 1. ​直接转换是可行的​ MySQL的datetime字段(如 2023-10-05 12:34:56)会被MyBatis自动转…

【Python训练营打卡】day44 @浙大疏锦行

DAY 44 预训练模型 知识点回顾: 1. 预训练的概念 2. 常见的分类预训练模型 3. 图像预训练模型的发展史 4. 预训练的策略 5. 预训练代码实战:resnet18 作业: 1. 尝试在cifar10对比如下其他的预训练模型,观察差异,…

MySQL中关于事务和锁的常见执行命令整理包括版本区别

MySQL中关于事务和锁的常见执行命令实例整理,并标注了不同版本下的区别(如MySQL 8.0与旧版本的差异): 一、事务相关命令 1. 事务控制 命令描述版本差异START TRANSACTION; 或 BEGIN;显式开启事务通用语法,无版本差异…

PyTorch-Transforms的使用(二)

对图像进行处理 安装open cv ctrlP 看用法 ToTensor的使用 常见的Transforms 归一化的图片 两个长度为三的数组,分别表示三个通道的平均值和标准差 Resize() Compose() 合并执行功能,输入进去一个列表&a…