🔥 什么是 VLA?为什么突然火了?
在自动驾驶圈子里,最近一个词特别火:VLA。它不是某个新车的型号,也不是某家公司的新品牌,而是一种全新的智能架构,被称为“自动驾驶的大脑2.0”。
🧠 VLA 是什么?
VLA 是 Vision-Language-Action 的缩写,翻译过来就是“视觉-语言-动作”模型。它的核心理念是:让自动驾驶系统像人一样,看得懂、听得懂、做得对。
- Vision(视觉):通过摄像头等传感器“看”到路况、红绿灯、行人等;
- Language(语言):理解人类的自然语言指令,比如“前方路口左转”;
- Action(动作):根据理解做出驾驶决策,比如加速、刹车、变道。
这就像是给车装上了一个“多模态大脑”,不再是传统那种“感知-预测-规划-控制”的流水线式处理,而是一体化决策。
🧬 它的前一代是什么?
VLA 的“前身”主要有两个:
- 模块化架构:传统自动驾驶系统将任务拆分为多个模块(感知、定位、预测、规划、控制),每个模块独立开发、调试、优化。
- 端到端 + VLM 架构:即视觉语言模型(VLM)+ 控制器的组合,VLM 负责理解场景和语言,控制器负责执行动作,但两者仍是分离的。
VLA 可以理解为是“端到端2.0”,它不仅能看图做决策,还能听懂话、理解语境,甚至能解释自己为什么这么做。
🚀 为什么现在突然火了?
- 技术成熟:Google DeepMind 推出的 RT-2、Wayve 的 LINGO 系列模型,验证了 VLA 架构在机器人和自动驾驶中的可行性。
- 算力到位:NVIDIA Thor、Orin 等高性能芯片让车端部署大模型成为可能。
- 产业共振:车企不再满足于“能开”,而是追求“像人一样开”,VLA 正好契合这一趋势。
- 机器人热潮:VLA 架构不仅适用于车,也适用于人形机器人,车企造车+造机器人成为新方向。
💬 举个例子更好懂!
假设你坐在一辆搭载 VLA 的车上,对它说:“前面红绿灯左转,注意避让行人。”
传统系统可能需要多个模块协同处理这个指令,而 VLA 模型可以直接理解你的话,结合摄像头画面,判断红绿灯状态、行人位置,然后做出左转决策——就像一个老司机一样。
🛣️ VLA 在自动驾驶中怎么工作?
🎮 输入输出:从“看”和“听”到“动”
VLA 模型的输入和输出非常直观:
- 输入:
- 摄像头拍到的图像(视觉)
- 用户的语音或文字指令(语言)
- 输出:
- 控制车辆的动作指令(如加速、刹车、转向)
你说:“前方红绿灯左转。”
车看到:红绿灯、路口、行人、车道线
模型输出:减速 → 打左转灯 → 左转 → 加速
整个过程不再依赖传统的“感知 → 预测 → 规划 → 控制”四步走,而是一步到位,直接从“理解场景+语言”生成“动作”。
🧩 模型结构简析:一体化的“大脑”
VLA 模型通常由以下几个部分组成:
- 视觉编码器(Vision Encoder):将摄像头图像转化为模型能理解的特征向量。
- 语言编码器(Language Encoder):将语音或文字指令转化为语义向量。
- 融合模块(Fusion Module):将视觉和语言信息融合,形成对当前场景的“理解”。
- 动作解码器(Action Decoder):根据理解生成驾驶动作,如转向角、加速度等。
这个结构的最大优势是:信息流是统一的,不再割裂,模型可以同时考虑“我看到了什么”和“你让我干什么”。
🧪 示例场景:VLA 是怎么“开车”的?
场景 | 用户指令 | 视觉输入 | 模型输出 |
---|---|---|---|
城区路口 | “前方红绿灯左转” | 红灯、路口、车道线 | 减速 → 等红灯 → 左转 |
高速变道 | “超车后回到右侧车道” | 前车慢、右侧有空位 | 加速 → 左变道 → 超车 → 右变道 |
停车场 | “找个空位停下” | 停车线、空车位 | 减速 → 调整方向 → 停车 |
这些动作不再是靠规则硬编码,而是模型“理解”后自主决策,更像人类司机的思维方式。
🏎️ 谁在用 VLA?车企们为什么集体下注?
在过去一年,自动驾驶行业经历了从“模块化”到“端到端”的技术跃迁,但很快又遇到了瓶颈。于是,VLA(视觉-语言-动作)模型成为新一代“智驾大脑”的热门选择。理想、小鹏、华为、蔚来,甚至供应商元戎启行,都在积极布局。
🇨🇳 车企的 VLA 战略
🚗 理想:MindVLA,从“懂你”开始
- 架构亮点:融合空间智能(3D场景重建)与语言智能,支持语音指令动态决策
- 硬件支持:NVIDIA Thor芯片(1000TOPS算力)+ 激光雷达 + 4D毫米波雷达
- 应用场景:无地图城区NOA、语音控车、复杂场景掉头、找电梯口停车
- 代表车型:理想 i8(2025年7月发布)
理想的策略是:用 VLA 打造“家庭友好型”智能驾驶体验,强调温柔、理解和安全。
🚗 小鹏:VLA-OL,算力驱动创新
- 架构亮点:基于图灵芯片的超大规模 VLA 模型,采用在线强化学习(OL)训练
- 部署方式:云端训练 → 蒸馏压缩 → 车端部署
- 代表车型:小鹏 G7 Ultra(搭载3颗图灵芯片,2200TOPS算力)
- 特色功能:语音控车、文字引导牌识别、异形障碍物识别
小鹏的策略是:用强算力和快速迭代,打造“科技尝鲜型”智驾体验。
🚗 华为:乾崑ADS 3.0,混合架构探索
- 架构特点:规则引擎 + AI混合架构,尚未完全采用 VLA,但具备语言理解能力
- 优势:多传感器融合、冗余设计强、安全性高
- 代表车型:问界M9、智界S7 等
- 发展方向:正在向 VLA 架构靠拢,强调“通用智能”
华为的策略是:以安全为核心,逐步引入 VLA 元素,稳扎稳打。
🚗 蔚来:世界模型路线,暂未明确采用 VLA
- 架构方向:基于 NWM(世界模型)进行场景理解与规划
- 优势:强调“认知智能”,适用于复杂城市场景
- 代表车型:蔚来 ET7、ES6 等
- 发展趋势:可能与 VLA 架构融合,但尚未公开明确采用
蔚来的策略是:探索认知层面的智能驾驶,与 VLA 有潜在融合空间。
🚗 特斯拉:FSD Beta 是 VLA 吗?
- 架构特点:端到端视觉模型,尚未引入语言理解模块
- 算力平台:自研 Dojo 超算平台
- 代表系统:FSD Beta(Full Self Driving)
- 争议点:是否属于 VLA 架构?
特斯拉目前仍以“纯视觉端到端”为主,尚未公开采用语言模型,因此不属于典型的 VLA 架构。但其 Dojo 平台和数据闭环能力,为未来转向 VLA 提供了可能。
🤝 为什么车企都在押注 VLA?
- 突破端到端黑盒瓶颈:语言模型引入后,模型可解释性和语义理解能力大幅提升。
- 提升用户体验:支持语音控车、语义导航、复杂场景识别,更贴近人类驾驶习惯。
- 算力与硬件到位:NVIDIA Thor、图灵芯片等新平台让车端部署 VLA 成为可能。
- 机器人协同发展:VLA 架构也适用于人形机器人,车企造车+造机器人成为新趋势。
🫧 是技术革命,还是又一轮“智驾泡沫”?
VLA 的出现确实令人兴奋,它让自动驾驶系统更像人类司机,能“看懂、听懂、做对”。但在热潮之下,我们也需要冷静思考:它真的准备好大规模落地了吗?还是又一次“PPT领先世界”?
✅ 支持者观点:VLA 是自动驾驶的未来
架构统一,系统更简洁
不再需要多个模块协同,减少系统耦合,降低维护成本。语义理解能力强
能听懂“前方红绿灯左转”,而不是靠规则判断红绿灯状态。泛化能力更强
训练一次模型,可以适配不同城市、不同场景,甚至不同平台(车、机器人、无人机)。可解释性提升
通过语言模型的“思维链”机制,能解释为什么做出某个决策,提升用户信任。机器人协同发展
同一套架构可用于人形机器人,车企可以“一鱼多吃”。
❌ 质疑者声音:VLA 仍在“实验室阶段”
数据缺口严重
真正的“视觉-语言-动作”三模态数据集极其稀缺,现有数据多为模拟或弱标注。训练成本高昂
训练一个高质量的 VLA 模型需要数千万级别的 GPU 时长,非头部企业难以承受。部署门槛高
即使训练好了,车端部署也面临算力、功耗、延迟等挑战。安全验证难
端到端模型在长尾场景下的稳定性仍未充分验证,缺乏可控性。商业落地尚早
目前仅在高端车型、城区NOA中试点,距离大规模普及还有距离。
📊 当前落地情况
车企 | 是否部署 VLA | 应用范围 | 是否支持语音控车 | 是否支持无图NOA |
---|---|---|---|---|
理想 | ✅ MindVLA | 城区NOA、泊车 | ✅ | ✅ |
小鹏 | ✅ VLA-OL | 城区NOA | ✅ | ✅ |
华为 | ⚠️ 混合架构 | 高速+城区NOH | 部分支持 | ✅ |
蔚来 | ❌ 世界模型 | 城区NOA | ❌ | ✅(部分) |
特斯拉 | ❌ 端到端视觉 | 全场景FSD | ❌ | ✅(北美) |
🧭 如何理性看待 VLA?
- 它不是万能钥匙,但确实是通往“具身智能”的关键路径;
- 它不是马上落地的产品,但已经在高端车型中试水;
- 它不是泡沫,但也不该被神化。
就像深度学习刚兴起时一样,VLA 也需要时间、数据和工程积累,才能真正改变行业。
🔮 VLA 是终点,还是起点?
🤖 通用智能的桥梁:车与机器人共用“大脑”
VLA 的最大潜力之一是:跨平台迁移能力。
- 🚗 在车上,它可以理解路况、语音指令,做出驾驶决策;
- 🦿 在机器人上,它可以理解环境、任务指令,完成搬运、导航等动作;
- 🚁 在无人机上,它可以识别目标、执行飞行任务。
这意味着,未来车企不只是造车,而是造“具身智能体”。VLA 成为通用智能的底座,打通车、机器人、无人机的智能生态。
🧱 技术挑战仍然严峻
尽管前景广阔,但 VLA 要真正落地,还面临不少挑战:
- 数据问题:三模态数据集稀缺,尤其是真实驾驶场景下的语言指令与动作配对。
- 训练成本:大模型训练需要巨量算力与资金,非头部企业难以承受。
- 部署难度:车端算力、功耗、延迟等问题仍需优化。
- 安全与法规:端到端模型的安全验证机制尚不成熟,法规滞后。
- 用户教育:用户如何理解、信任、使用 VLA 驱动的智驾系统?
✨ 对开发者/从业者的建议
如果你是自动驾驶或机器人领域的开发者、产品经理、研究者,以下几点可能值得关注:
- 🔍 关注数据闭环能力:谁能掌握真实三模态数据,谁就有训练优势。
- 🧠 理解模型推理机制:VLA 的“思维链”与“注意力机制”是关键。
- 🛠️ 重视部署工程化:不仅要训练得好,还要部署得稳。
- 📚 持续学习跨模态技术:视觉、语言、动作的融合是未来趋势。
- 🤝 关注产业协同:车企、芯片商、算法公司之间的协作将决定落地速度。
VLA 是自动驾驶系统的一次范式转变,它让车不只是“能动”,而是“能懂”。
但要真正实现“像人一样开车”,我们还需要更多的数据、更强的算力、更成熟的工程能力——以及时间。