🔥 什么是 VLA？为什么突然火了？

在自动驾驶圈子里，最近一个词特别火：VLA。它不是某个新车的型号，也不是某家公司的新品牌，而是一种全新的智能架构，被称为“自动驾驶的大脑2.0”。

🧠 VLA 是什么？

VLA 是 Vision-Language-Action 的缩写，翻译过来就是“视觉-语言-动作”模型。它的核心理念是：让自动驾驶系统像人一样，看得懂、听得懂、做得对。

Vision（视觉）：通过摄像头等传感器“看”到路况、红绿灯、行人等；
Language（语言）：理解人类的自然语言指令，比如“前方路口左转”；
Action（动作）：根据理解做出驾驶决策，比如加速、刹车、变道。

这就像是给车装上了一个“多模态大脑”，不再是传统那种“感知-预测-规划-控制”的流水线式处理，而是一体化决策。

🧬 它的前一代是什么？

VLA 的“前身”主要有两个：

模块化架构：传统自动驾驶系统将任务拆分为多个模块（感知、定位、预测、规划、控制），每个模块独立开发、调试、优化。
端到端 + VLM 架构：即视觉语言模型（VLM）+ 控制器的组合，VLM 负责理解场景和语言，控制器负责执行动作，但两者仍是分离的。

VLA 可以理解为是“端到端2.0”，它不仅能看图做决策，还能听懂话、理解语境，甚至能解释自己为什么这么做。

🚀 为什么现在突然火了？

技术成熟：Google DeepMind 推出的 RT-2、Wayve 的 LINGO 系列模型，验证了 VLA 架构在机器人和自动驾驶中的可行性。
算力到位：NVIDIA Thor、Orin 等高性能芯片让车端部署大模型成为可能。
产业共振：车企不再满足于“能开”，而是追求“像人一样开”，VLA 正好契合这一趋势。
机器人热潮：VLA 架构不仅适用于车，也适用于人形机器人，车企造车+造机器人成为新方向。

💬 举个例子更好懂！

假设你坐在一辆搭载 VLA 的车上，对它说：“前面红绿灯左转，注意避让行人。”

传统系统可能需要多个模块协同处理这个指令，而 VLA 模型可以直接理解你的话，结合摄像头画面，判断红绿灯状态、行人位置，然后做出左转决策——就像一个老司机一样。

🛣️ VLA 在自动驾驶中怎么工作？

🎮 输入输出：从“看”和“听”到“动”

VLA 模型的输入和输出非常直观：

输入：
- 摄像头拍到的图像（视觉）
- 用户的语音或文字指令（语言）
输出：
- 控制车辆的动作指令（如加速、刹车、转向）

你说：“前方红绿灯左转。”
车看到：红绿灯、路口、行人、车道线
模型输出：减速 → 打左转灯 → 左转 → 加速

整个过程不再依赖传统的“感知 → 预测 → 规划 → 控制”四步走，而是一步到位，直接从“理解场景+语言”生成“动作”。

🧩 模型结构简析：一体化的“大脑”

VLA 模型通常由以下几个部分组成：

视觉编码器（Vision Encoder）：将摄像头图像转化为模型能理解的特征向量。
语言编码器（Language Encoder）：将语音或文字指令转化为语义向量。
融合模块（Fusion Module）：将视觉和语言信息融合，形成对当前场景的“理解”。
动作解码器（Action Decoder）：根据理解生成驾驶动作，如转向角、加速度等。

这个结构的最大优势是：信息流是统一的，不再割裂，模型可以同时考虑“我看到了什么”和“你让我干什么”。

🧪 示例场景：VLA 是怎么“开车”的？

场景	用户指令	视觉输入	模型输出
城区路口	“前方红绿灯左转”	红灯、路口、车道线	减速 → 等红灯 → 左转
高速变道	“超车后回到右侧车道”	前车慢、右侧有空位	加速 → 左变道 → 超车 → 右变道
停车场	“找个空位停下”	停车线、空车位	减速 → 调整方向 → 停车

这些动作不再是靠规则硬编码，而是模型“理解”后自主决策，更像人类司机的思维方式。

🏎️ 谁在用 VLA？车企们为什么集体下注？

在过去一年，自动驾驶行业经历了从“模块化”到“端到端”的技术跃迁，但很快又遇到了瓶颈。于是，VLA（视觉-语言-动作）模型成为新一代“智驾大脑”的热门选择。理想、小鹏、华为、蔚来，甚至供应商元戎启行，都在积极布局。

🇨🇳 车企的 VLA 战略

🚗 理想：MindVLA，从“懂你”开始

架构亮点：融合空间智能（3D场景重建）与语言智能，支持语音指令动态决策
硬件支持：NVIDIA Thor芯片（1000TOPS算力）+ 激光雷达 + 4D毫米波雷达
应用场景：无地图城区NOA、语音控车、复杂场景掉头、找电梯口停车
代表车型：理想 i8（2025年7月发布）

理想的策略是：用 VLA 打造“家庭友好型”智能驾驶体验，强调温柔、理解和安全。

🚗 小鹏：VLA-OL，算力驱动创新

架构亮点：基于图灵芯片的超大规模 VLA 模型，采用在线强化学习（OL）训练
部署方式：云端训练 → 蒸馏压缩 → 车端部署
代表车型：小鹏 G7 Ultra（搭载3颗图灵芯片，2200TOPS算力）
特色功能：语音控车、文字引导牌识别、异形障碍物识别

小鹏的策略是：用强算力和快速迭代，打造“科技尝鲜型”智驾体验。

🚗 华为：乾崑ADS 3.0，混合架构探索

架构特点：规则引擎 + AI混合架构，尚未完全采用 VLA，但具备语言理解能力
优势：多传感器融合、冗余设计强、安全性高
代表车型：问界M9、智界S7 等
发展方向：正在向 VLA 架构靠拢，强调“通用智能”

华为的策略是：以安全为核心，逐步引入 VLA 元素，稳扎稳打。

🚗 蔚来：世界模型路线，暂未明确采用 VLA

架构方向：基于 NWM（世界模型）进行场景理解与规划
优势：强调“认知智能”，适用于复杂城市场景
代表车型：蔚来 ET7、ES6 等
发展趋势：可能与 VLA 架构融合，但尚未公开明确采用

蔚来的策略是：探索认知层面的智能驾驶，与 VLA 有潜在融合空间。

🚗 特斯拉：FSD Beta 是 VLA 吗？

架构特点：端到端视觉模型，尚未引入语言理解模块
算力平台：自研 Dojo 超算平台
代表系统：FSD Beta（Full Self Driving）
争议点：是否属于 VLA 架构？

特斯拉目前仍以“纯视觉端到端”为主，尚未公开采用语言模型，因此不属于典型的 VLA 架构。但其 Dojo 平台和数据闭环能力，为未来转向 VLA 提供了可能。

🤝 为什么车企都在押注 VLA？

突破端到端黑盒瓶颈：语言模型引入后，模型可解释性和语义理解能力大幅提升。
提升用户体验：支持语音控车、语义导航、复杂场景识别，更贴近人类驾驶习惯。
算力与硬件到位：NVIDIA Thor、图灵芯片等新平台让车端部署 VLA 成为可能。
机器人协同发展：VLA 架构也适用于人形机器人，车企造车+造机器人成为新趋势。

🫧 是技术革命，还是又一轮“智驾泡沫”？

VLA 的出现确实令人兴奋，它让自动驾驶系统更像人类司机，能“看懂、听懂、做对”。但在热潮之下，我们也需要冷静思考：它真的准备好大规模落地了吗？还是又一次“PPT领先世界”？

✅ 支持者观点：VLA 是自动驾驶的未来

架构统一，系统更简洁
不再需要多个模块协同，减少系统耦合，降低维护成本。
语义理解能力强
能听懂“前方红绿灯左转”，而不是靠规则判断红绿灯状态。
泛化能力更强
训练一次模型，可以适配不同城市、不同场景，甚至不同平台（车、机器人、无人机）。
可解释性提升
通过语言模型的“思维链”机制，能解释为什么做出某个决策，提升用户信任。
机器人协同发展
同一套架构可用于人形机器人，车企可以“一鱼多吃”。

❌ 质疑者声音：VLA 仍在“实验室阶段”

数据缺口严重
真正的“视觉-语言-动作”三模态数据集极其稀缺，现有数据多为模拟或弱标注。
训练成本高昂
训练一个高质量的 VLA 模型需要数千万级别的 GPU 时长，非头部企业难以承受。
部署门槛高
即使训练好了，车端部署也面临算力、功耗、延迟等挑战。
安全验证难
端到端模型在长尾场景下的稳定性仍未充分验证，缺乏可控性。
商业落地尚早
目前仅在高端车型、城区NOA中试点，距离大规模普及还有距离。

📊 当前落地情况

车企	是否部署 VLA	应用范围	是否支持语音控车	是否支持无图NOA
理想	✅ MindVLA	城区NOA、泊车	✅	✅
小鹏	✅ VLA-OL	城区NOA	✅	✅
华为	⚠️ 混合架构	高速+城区NOH	部分支持	✅
蔚来	❌ 世界模型	城区NOA	❌	✅（部分）
特斯拉	❌ 端到端视觉	全场景FSD	❌	✅（北美）