26年6月来自UCLA的论文“AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning”。
视觉-语言-动作 (VLA) 模型的最新进展通过利用世界知识和推理能力为端到端自动驾驶带来了希望。然而,当前的 VLA 模型常常难以应对物理上不可行的动作输出、复杂的模型结构或不必要的冗长推理。本文提出 AutoVLA,一种 VLA 模型,将推理和动作生成统一在一个自回归生成模型中,用于端到端自动驾驶。AutoVLA 直接从原始视觉输入和语言指令执行语义推理和轨迹规划。将连续轨迹 token 化离散的可行动作,从而能够直接集成到语言模型中。在训练方面,采用监督微调,使模型具备两种思维模式:快速思维(仅轨迹)和慢速思维(通过思维链推理增强)。为了进一步提升规划性能和效率,引入了一种基于组相对策略优化 (GRPO) 的强化微调方法,以减少简单场景中不必要的推理。在 nuPlan、nuScenes、Waymo 和 CARLA 等真实世界和模拟数据集及基准测试中开展的大量实验,证明 AutoVLA 在开环和闭环设置下均具有卓越的性能。定性结果展现 AutoVLA 在各种场景下的自适应推理和精准规划能力。
尽管近年来 VLA 模型取得了一些进展,其在自动驾驶领域仍面临两个关键限制,如图所示。1)动作生成结构复杂或物理上不可行。一些模型直接使用 VLM [35–37] 生成文本动作或航点,但这些输出可能在物理上不可行,并容易出现模式崩溃。为了解决这个问题,最近的方法引入中间元动作 [38–40] 或潜动作 tokens [41–43],然后由下游规划器或解码器处理以生成物理上可行的轨迹。然而,中间表示要么破坏了端到端优化范式,要么增加了模型复杂度和训练开销。2)跨不同场景的推理不够灵活且效率低下。大多数现有模型 [44, 45] 采用固定的推理策略,缺乏在简单场景的直接动作输出和复杂场景的思维链 (CoT) 推理之间自适应切换的能力。尽管 DriveVLM [46] 引入了双-过程范式,但它依赖于单独的模块(即用于慢速推理的 VLM 和用于快速响应的传统端到端模型),这导致了复杂的架构、增加了训练开销,并且可扩展性有限 [47]。
AutoVLA 是一个端到端自动驾驶框架,它将物理动作 tokens 直接集成到预训练的 VLM 主干网络中,从而支持直接学习自回归规划策略,如上图(b)和下图所示细节。其统一架构无缝集成了推理和动作生成,允许在直接轨迹生成和 CoT 推理之间进行自适应切换。在监督微调 (SFT) 中,利用轨迹数据和 CoT 推理数据,使模型具备双处理能力(快速和慢速思维)。此外,提出强化微调 (RFT) [48],利用具有可验证规划奖励函数的组相对策略优化 (GRPO) [49]。这使得自适应推理能够在规划准确性和效率之间取得平衡。RFT 方法不仅提高规划性能,还通过最大限度地减少不必要的推理来提高运行效率。
如上图所示,AutoVLA 框架由两个主要组件组成:1)VLM 主干:它能够处理视觉和文本输入,并生成相应的 token(推理和动作),采用统一的自回归 Transformer 解码器。2)物理动作 token 生成:扩展语言模型解码器,使其能够输出与车辆运动直接对应的物理动作 token。这些 token 的设计遵循物理约束,可以可靠地转换为物理上可行的规划轨迹。
AutoVLA 的训练分两个阶段进行,如图所示。1)监督微调使用真实轨迹数据,并从大规模 VLM 中提取高质量的推理数据。2)强化微调使用特定于任务的奖励函数来优化规划性能,同时通过最小化不必要的推理来提高运行效率。
AutoVLA 框架
模型输入。AutoVLA 将车载摄像头的多视角、多帧摄像头数据 C、高级导航指令 I 以及车辆自身状态 S 作为输入,并执行场景推理和轨迹规划。具体而言,利用三个 RGB 摄像头,分别位于车辆的前部、左前部和右前部。每个摄像头数据流 ci = [ci_t−3, ci_t−2, ci_t−1, ci_t] 以 2 Hz 的频率捕获四个连续帧,包括当前帧和前三个帧,为场景动态提供时间信息。此外,该模型使用高级导航指令 I(例如,左转和直行)来明确指定预期方向。车辆自身状态 S 包含当前速度、加速度和历史动作。
基础 VLM 模型。采用 Qwen2.5-VL-3B [21] 作为 AutoVLA 的视觉语言主干。 Qwen2.5-VL 是一系列强大的多模态大语言模型,具备强大的视觉理解能力。Qwen2.5-VL 模型的开源特性使其能够针对特定任务进行微调。3B 版本在效率和性能之间取得了良好的平衡,非常适合部署在车载设备中。
动作token化。为了在语言模型中进行轨迹规划,将连续车辆轨迹 P 离散化为一系列物理动作 token a = [a_1,…,a_T],其中 a_t∈A,T 是 token 化预测轨迹的长度,每个 token 由短期空间位置和航向运动 (∆x,∆y,∆θ) 表示。这将规划任务转化为下一个 token 预测问题,可以在语言模型中进行。构建动作码本 A = {a_1,a_2,… , a_K },该方法使用 K -盘聚类方法 [88–90],涵盖大多数车辆运动模式。最后,获得一个由 K = 2048 个离散动作 token 组成的车辆运动码本。按照 [30, 91],这些动作 tokens 作为附加 tokens 合并到 VLM 中(即 <action_0>、<action_1>、…)。在推理过程中,模型输出这些动作 tokens 的序列,随后使用动作码本将这些动作 tokens 解码为规划轨迹。
统一推理和动作。AutoVLA 在单个自回归 Transformer 框架内统一了推理和动作生成,从而能够根据驾驶场景在快速和慢速思维之间自适应切换。在快速思维模式下,AutoVLA 直接预测物理动作 tokens 而无需生成冗长的推理步骤,从而能够在简单场景中快速响应。相比之下,慢思考模式涉及结构化的CoT推理,其中模型首先分析环境,识别关键要素,并推理潜结果,然后再决定最终的驾驶行为。为了实现这种双重思考能力,AutoVLA 采用直接行动监督和推理增强数据相结合的训练方式。其设计系统提示和响应格式,一致地支持这两种模式。
推理数据
推理数据提供了高质量的驾驶任务 (CoT) 标注,这对于训练具有推理能力的视觉语言模型 (VLM) 至关重要 [42]。在驾驶任务中,推理涉及理解动态环境中的复杂语义和交互 [92–95]。尽管推理至关重要,但由于三大限制因素,开发高质量、大规模的驾驶推理数据集仍然是一项关键挑战:1)场景多样性有限且示例重复;2)关键感知线索(例如交通标志和车辆指示灯信号)的表征不足;3)推理过程质量低下,例如无正当理由在停车标志处反复停车。
为了解决这些问题,其提出一种基于先进的 Qwen2.5-VL-72B 模型 [21] 的自动推理标注流程。该流程能够自动生成高精度推理标注,并支持将知识从大模型蒸馏到更紧凑的目标模型。该流程生成涵盖四个关键组件的结构化推理注释:详细的场景描述、关键物体的识别、周围智体意图的预测以及合适驾驶行为的确定。为了规范推理结果,该方法将真实的驾驶行为作为提示,引导模型生成因果解释,将驾驶决策与场景上下文明确联系起来。这种结构化的提示方法显著减少了无意义的输出,并最大限度地减少了手动校正的需求。
利用该注释流程,构建一个全面的推理数据集,其中包含约 45.6k 条 nuPlan 数据集的 CoT 推理注释和 7.2k 条 Waymo E2E 数据集的注释。此外,还重新格式化并集成 DriveLM [96](一个基于 nuScenes 和 CARLA 模拟数据构建的视觉问答 (VQA) 数据集),以增强推理数据。
监督式微调
监督式微调 (SFT) 用于训练模型生成推理和动作序列。给定多帧摄像头图像 C、高级导航指令 I 和车辆自身状态 S,训练模型生成一系列输出 tokens。输出序列由用于推理的语言 token l = [l_1, …, l_L] 和动作 token a = [a_1, …, a_T] 组成。为了在 SFT 期间同时实现快速和慢速思考,用真实助手响应来整理训练数据,这些响应要么仅包含最终动作 token,要么将 CoT 推理与相应的动作 token 相结合。在快速思考模式下,l 是一个固定的短模板,表示不需要推理。相反,在慢速思考模式下,l 以一个引入 CoT 推理需求的模板开始,然后是结构化的推理序列。
第一个监督信号是标准因果语言模型目标函数,它最小化目标 token 序列的负对数似然,并增强推理能力。另一个监督信号侧重于规划准确性,针对动作 token a = [a_1,…,a_T] 引入辅助损失,这些 token 出现在输出序列中的位置 x_L+1 到 x_L+T。给定输出序列 x = [l_1,…,l_L,a_1,…,a_T],损失函数定义为:
为了联合优化推理和动作生成,将语言模型损失和动作损失合并为一个 SFT 损失函数。为了解决推理数据和纯动作数据之间的不平衡问题,并鼓励模型从包含 CoT 推理的示例中学习,根据真实数据中 CoT 的存在情况,为每个样本应用一个加权因子。每个训练示例的总损失计算如下:
强化微调
为了进一步提升 AutoVLA 的性能,使其与驾驶需求和特定任务的奖励保持一致,引入一种基于强化学习的训练后方法。该 RFT 阶段使模型能够进行自适应推理并优化规划性能。采用 GRPO 算法 [49],该算法可以稳定训练并提高收敛效率。此外,规划固有的多模态性(即同一场景下存在多条可行轨迹)与 GRPO [38] 基于组的优化框架自然契合。
给定一个场景输入查询 q,包括传感器图像、自车辆状态和驾驶指令,从旧策略 π_θ_old 中采样一组 G 个候选输出 O = {o_1, o_2, …, o_G}。然后使用归一化的群相对优势 A_i 来优化当前策略 π_θ,通过最大化以下目标:
最终奖励函数定义为 r = r_Driving − λ_r * r_CoT,其中 λ_r 表示平衡权重。术语 r_Driving 因基准而异。对于 nuPlan 数据集,采用预测驾驶员模型评分 (PDMS) [51] 作为驾驶奖励,该评分涵盖安全性、舒适性、行驶效率和其他驾驶质量指标等方面。对于 Waymo E2E 数据集,由于评估者反馈评分 (RFS) 注释的可用性有限 [52],使用平均位移误差 (ADE) 作为驾驶奖励。为了避免不必要的过长推理链,在奖励函数中加入 CoT 长度惩罚 r_CoT。
实验设置
数据集。用一系列多样化的真实世界和模拟数据集训练 AutoVLA 模型。nuPlan(Open-Scene)数据集 [50, 97] 包含 120 小时的大规模驾驶数据,包含八路摄像头数据流和物体标注。Waymo 端到端驾驶数据集 [52] 包含 4,021 个 20 秒的驾驶片段,包含八路摄像头视图和自主车辆轨迹,尤其关注具有挑战性和长尾场景,例如穿越施工区域或危险路况。nuScenes 数据集 [53] 提供 1,000 个城市驾驶场景,包含六个摄像头视图。CARLA-Garage 数据集 [55] 提供来自 CARLA 模拟器的超过 500,000 帧摄像头数据。除了收集的推理数据外,还利用 DriveLM 数据集 [96] 作为 nuScenes 和 CARLA 数据集,通过重新格式化 VQA 对来促进 CoT 推理。
基准测试。在真实世界和模拟环境中,基于开环和闭环基准测试对 AutoVLA 进行评估。开环性能基于两个公共基准测试进行评估:来自 nuPlan 数据集的 NAVSIM 基准测试 [51] 和 nuScenes 基准测试 [65]。NAVSIM 基准测试采用 PDMS 来评估驾驶行为的关键方面,例如碰撞和自我认知进展。nuScenes 基准测试使用 L2 距离和碰撞率作为评估指标。此外,用 RFS 指标报告模型在 Waymo 端到端驾驶基准测试中的表现,该指标反映人类判断的规划质量。闭环性能基于 CARLA 模拟器中的 Bench2Drive 基准测试 [54] 进行评估。Bench2Drive 包含 44 个在不同地点和天气条件下的交互式闭环场景,使用成功率、驾驶得分、效率和舒适度等指标。
实施细节。每个动作 token 对应 0.5 秒的移动,规划时间范围设为 5 秒。因此,模型输出 10 个动作 token,从中可以解码出 5 秒的轨迹。对于 SFT,使用 1 × 10−5 的学习率和 FSDP 训练策略。该模型使用 8 个 NVIDIA L40S GPU 训练了 5 个 epoch。使用的每个 GPU 批次大小为 1,并在 4 个步骤中累积梯度,因此有效批次大小为 32。SFT 损失函数中的加权参数设为 λ_a = 1 和 λ_cot = 40。对于 RFT,使用 LoRA 适配器 [98] 进行参数高效训练。RFT 的学习率设为 3 × 10−5,KL 正则化权重 β 设为 0.04。在每个步骤执行一次策略更新,从而允许使用简化的目标,而无需裁剪或跟踪旧策略。该模型针对下图所示:每 6,000 步的数据缩放对规划的影响进行了微调,并选择了性能最佳的检查点进行评估。
推理数据收集
拥有包含思维链 (CoT) 标注的大规模高质量推理数据集,对于实现视觉-语言-动作 (VLA) 模型的稳健推理能力至关重要。本文介绍一种基于最先进的 Qwen2.5-VL-72B 视觉-语言模型 [21] 的自动推理标注流程,如图所示。该流程显著减少对人工标注的依赖,并有助于将知识从更强大的大规模模型有效提炼到更高效、更紧凑的模型。
强化微调细节
组相对策略优化 (GRPO) 采用基于组的采样来计算优势函数,取代传统的状态值估计器或评价模型。这种设计加速了训练速度,同时自然地与规划固有的多模态性相一致,因为规划需要从一组候选轨迹中进行评估和选择。算法 1 展示整体强化微调 (RFT) 流程。
用 nuPlan 数据集的 navtrain 部分作为 NAVSIM 基准的 RFT,并使用 Waymo E2E 数据集的验证集分割作为 Waymo 基准的 RFT。预训练 AutoVLA 的视觉编码器处于冻结状态,并使用低秩自适应 (LoRA) 对模型进行微调,以降低训练成本和内存消耗。
具体而言,LoRA 的秩和 alpha 均设置为 8,dropout 率为 0.1。预训练的 SFT 模型在优化过程中用作参考策略。超参数 γ、L_tol 和学习率分别设置为 2 × 10−3、400 和 3 × 10−5。为了确保驾驶奖励信号占主导地位,正则化权重设置为相对较小的值 λ_r = 0.3。
还在 Waymo 数据集的 RFT 中设置 δ = 2,κ = 10。此外,将生成参数配置为采样温度为 1.0、top-p 为 1.0 和 top-k 为 0.0,以鼓励 GRPO 采样期间的多样化和探索性生成,从而有效涵盖更广泛的可能操作。
数据预处理
为了实现跨多个驾驶数据集的混合训练,开发了统一的数据预处理流程,以标准化所有数据集的格式。对于每个样本,提取并标准化:1)2 Hz 下自车坐标系中的地面真实轨迹坐标和航向;2)由 2 Hz 下连续 4 帧(提供 2 秒历史记录)组成的多视角摄像头图像序列的图像路径;3)CoT 推理注释;4)车辆状态(包括当前速度和加速度);5)高级驾驶指令。预处理流程处理特定数据集在数据格式、采样率和坐标系方面的差异,以创建一致的格式。最终格式化数据集的大小和分布如表所示。
nuPlan (NAVSIM)。从 nuPlan 训练集拆分中随机抽取 45.6k 个场景,并使用提出的自动注释流程生成推理数据。由此生成的推理样本,加上剩余仅包含轨迹标注的训练数据,构成 nuPlan 的完整训练集。根据 NAVSIM 基准测试,用 navtest 部分数据作为测试集。
nuScenes。对训练集中的所有样本进行预处理。对于 DriveLM 数据集中的样本,重新格式化问答 (QA) 对,并按照四步推理格式生成结构化推理标注。DriveLM 未涵盖的样本也用于训练,但仅进行轨迹监督。验证集用于测试。
Waymo。Waymo E2E 数据集提供 2037 个训练片段和 479 个验证片段,每个片段包含一段 20 秒的视频,其中包含整个行驶过程中的驾驶日志。用 4 秒滑动窗口对推理数据进行采样,并使用与推理样本偏移 1 秒的 2 秒滑动窗口提取仅包含轨迹的数据。由于位置数据中存在噪声,车辆静止时,估计的航向可能会出现突变波动。为了解决这个问题,用运动阈值来检测静止周期并相应地平滑航向。测试集包含 1505 个样本。
CARLA。CARLA-Garage 数据集用于训练模型进行闭环评估。由于只有前置摄像头图像可用,用单视图输入(包含四个连续帧)进行 CARLA 训练和测试。用偏移量为 0.5 秒的滑动窗口对数据进行采样,并将轨迹从 4 Hz 下采样至 2 Hz。对于推理注释,利用 DriveLM-CARLA 数据集(该数据集提供与 DriveLM-nuScenes 类似的 QA 对),并重新格式化 QA 对以生成带有推理注释的样本。