最近将类人的推理能力融入到端到端自动驾驶系统中已经成为了一个前沿的研究领域。其中,基于视觉语言模型的方法已经吸引了来自工业界和学术界的广泛关注。

现有的VLM训练范式严重依赖带有自由格式的文本标注数据集,如图1(a)所示。虽然这些描述能够捕捉丰富的语义信息,但由于两种结构不同但是表达相近的句子会增加模型在学习任务中的复杂性和计算开销,导致模型无法专注核心的推理任务此外,由于语言描述中还会存在冗余的信息,这对于自动驾驶系统的下游决策过程带来不必要的认知负荷。

图1:不同VLM算法模型训练范式比较©️【深蓝AI】编译

此外,现有的一些基准模型通常依赖于大规模的语言模型,这些模型通常包含超过70亿个参数,甚至更多以实现多模态对齐和推理。虽然超大参数VLM可能在各种基准测试中取得不错的性能,但同时存在高昂的计算成本、内存消耗和推理延迟等问题。

针对上述提到的相关问题,本文提出了一个结构化、简洁的数据集NuScenes-S,其源自于NuScenes数据集。此外,本文提出了一种紧凑的VLM基线模型,称之为FastDrive,专门为小规模参数的端到端自动驾驶方案而设计。FastDrive 通过采用思维链式过程来模拟人类驾驶员的推理策略,执行场景理解、感知、预测和决策任务,从而实现与端到端自动驾驶框架的有效结合

本文的主要贡献如下

 本文引入一个结构化的数据集,该数据集关注与驾驶决策密切相关的关键要素,从而消除冗余信息,解决自由格式文本注释中同义表达的局限性,并提高推理效率

 本文提出了一个具有0.9B参数的紧凑型VLM基线模型,它模仿人类驾驶员的推理策略,并实现了与端到端自动驾驶框架的有效对齐

 本文针对NuScenes-S和FastDrive进行了全面的评估和广泛的实验结果证明所提出的数据集和模型的有效性,并在NuScenes-S数据集上取得了具有竞争力的性能

场景描述

本文提出的NuScenes-S数据集中的场景描述旨在提供更全面的驾驶场景视图,解决许多现有数据集中经常被忽视或表示不足的问题。NuScenes-S中的场景描述结构清晰、简洁,包含以下关键元素:天气、交通状况、驾驶区域、交通灯、交通标志、道路状况、车道线、时间。其相关的具体细节如下所示

 天气:天气条件包含晴天、雨天、雪天、雾天以及多云

 交通状况:交通状况包括低、中等

 驾驶区域:驾驶区域包括交叉路口、枢纽、环岛、住宅区、人行横道、停车场

 交通灯:交通灯包括绿灯、红灯和黄灯

 交通标志:交通标志包括速度限制、停车、让行、禁止停车、禁止调头、禁止左转、禁止右转、禁止超车、单行线

 道路状况:道路状况包括光滑、粗糙、潮湿、结冰,施工

 车道线:车道线包括右转、左转、直行、直行右转、直行左转、掉头、左转调头、右转调头

 时间:时间包括白天和夜间

感知和预测

识别一些关键目标并预测其未来的状态对于驾驶员的决策至关重要。NuScenes-S数据集中的感知和预测任务结构如下: 目标:摄像头、2D边界框,未来状态。

 相机视角:相机视角包括前向、前左、前右、后向、后左、后右

 2D边界框:2D边界框包含两个对角线的坐标

 未来状态:未来状态包括直行、左转、右转、轻微左转、轻微右转、停止、怠速

决策

根据感知和预测任务做出决策是驾驶员安全驾驶的最后也是关键的一步。NuScenes-S数据集中的决策任务结构如下:决策:横向移动、纵向移动

 横向移动:横向移动包括左转、右转、轻微左转、轻微右转、直行

 纵向移动:加速、减速、巡航、怠速

数据集的构建

数据集的整体构建过程如图2所示。具体来说,在场景描述方面,本文首先通过GPT和人工对场景信息进行标注,然后比较GPT和人工标注的结果,找出差异,并由人工标注对标注进行细化。在感知和预测任务中,本文首先定义一些规则来提取关键目标,然后使用VLM和人工同步对关键目标进行标注。最后,基于规则和人工注释对决策任务进行注释,以获得初始注释,然后由人工注释通过比较优化进一步完善

图2:NuScenes-S数据集的整体构建过程©️【深蓝AI】编译

最后得到的NuScene-S数据集的样例如图3所示。

图3:NuScenes-S数据集用例示意图©️【深蓝AI】编译

本文提出的FastDrive算法模型的整体网络结构如图4所示。通过网络结构图可以看出,其整体遵循"ViT-Adapter-LLM"的架构范式。

图4:FastDrive端到端算法模型的整体网络结构图©️【深蓝AI】编译

视觉编码器模块

视觉编码器的主干网络是Vision Transformer,提取输入环视图像的视觉特征,并利用多层感知机投影到LLM的特征空间。本文还引入了可选的TokenPacker模块减少标记的数量,进而提高推理速度。

LLM代理

本文中的LLM在FastDrive算法模型中起到大脑的角色,并且选用的是Qwen2.5。它以视觉编码器的视觉特征和结构化语言指令作为输入,生成场景描述,识别关键物体,预测其未来状态,并以思维链的方式做出驾驶决策

本文的实验在NuScenes-S数据集上进行,该数据集包含了102K个问答对。整个数据集被拆分成了84K个训练问答对和18K个测试问答对。评估指标包括语言指标、平均精度、召回率和决策准确率。

图5展示了本文的算法模型在场景理解方面的性能。实验结果表明,FastDrive在结构化基准数据集上取得了有竞争力的性能。

图5:在NuScenes-S数据上的场景理解性能©️【深蓝AI】编译

图6展示了不同算法模型在感知、预测以及决策任务上的性能对比,实验结果可以看出,FastDrive在预测和决策规划任务上实现了最佳的性能。

图6:在NuScenes-S数据集上感知、预测、决策任务性能©️【深蓝AI】编译

此外,本文也进行了相关的消融实验来验证提出的场景标注的有效性,如图7所示。

图7:场景标注对于驾驶决策的消融实验©️【深蓝AI】编译

本文为了更加直观的展示消融实验的效果,将模型的预测内容进行了可视化输出,如图8所示。

图8:消融实验部分的样例说明©️【深蓝AI】编译

本文引入了一个结构化的自动驾驶基准数据集NuScenes-S,它在感知、预测和决策任务中遵循类人的推理过程。此外,本文还提出了FastDrive,一个用于端到端的自动驾驶模型,在NuScenes-S数据集上取得了具有竞争力的性能,推理速度更快,参数更少。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/86063.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/86063.shtml
英文地址,请注明出处:http://en.pswp.cn/web/86063.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C# 委托(什么是委托)

什么是委托 可以认为委托是持有一个或多个方法的对象。当然,一般情况下你不会想要“执行”一个对 象,但委托与典型的对象不同。可以执行委托,这时委托会执行它所“持有"的方法。 本章将揭示创建和使用委托的语法和语义。在本章后面&am…

iTwin briefcase, checkpoint ,standalone

在 iTwin.js 中,briefcase 和 checkpoint 都是 IModel 的不同连接类型,但它们的用途和特性不同: Briefcase 用途:用于本地编辑和同步。通常是用户从 iModelHub 检出(Check-out)后在本地生成的可写副本。特…

媒体AI关键技术研究

一、引言 随着人工智能技术的迅猛发展,媒体行业正经历前所未有的变革。AI技术不仅重塑了内容生产和传播模式,更为媒体创意发展提供了全新可能。在数字化、移动化和信息爆炸的大背景下,传统媒体面临巨大挑战,而AI技术为行业带来了…

Cargo 与 Rust 项目

一、Rust 项目:现代化的系统编程单元 Rust 项目 是用 Rust 语言编写的软件工程单元,具有以下核心特征: 核心组件: src/ 目录:存放 Rust 源代码(.rs 文件) Cargo.toml:项目清单文件…

uni-app总结6-配合iOS App项目开发apple watch app

假设你已经用uni-app开发好了一个iOS端的app,现在想要开发一个配套的apple watch app。改怎么去开发呢?是不是一头雾水,这篇文章就会介绍一些apple watch app开发的知识以及如何在uni-app开发的iOS app基础上去开发配套的watch app。 一、apple watch 开发知识 apple watc…

神经网络的本质 逻辑回归 python的动态展示

神经网络的本质 逻辑回归 python的动态展示 逻辑回归运行图相关代码什么是逻辑回归和ai的关系逻辑回归公式流程与实际案例解析**一、逻辑回归的数学公式流程**1. **线性组合阶段**2. **激活函数(Sigmoid)**3. **概率预测与决策**4. **交叉熵损失函数**5.…

sql server中的with 锁各种区别

📘 SQL Server 常用 WITH (Hint) 用法与组合场景对照表 Hint 组合作用说明常见用途是否阻塞他人是否读脏数据备注WITH (NOLOCK)不加共享锁,允许读取未提交数据报表导出、大数据分页❌✅等价于 READ UNCOMMITTED,脏读风险高WITH (HOLDLOCK)保持…

KES数据库部署工具使用

一、启动部署工具 Windows系统 #命令行 ${安装目录}/ClientTools/guitools/DeployTools/deploy.exeLinux系统 #命令行 [rootnode ~]# ${安装目录}/ClientTools/guitools/DeployTools/deploy二、环境配置 1.硬件要求 #都是最小配置 CPU:主流32或64位 内存&#…

TB62211FNG是一款采用时钟输入控制的PWM斩波器的两相双极步进电机驱动器

TB62211FNG是一款采用时钟输入控制的PWM斩波器的两相双极步进电机驱动器。该器件采用BiCD工艺制造,额定电压为40伏/1.0安培。片上电压调节器允许使用单一VM电源控制步进电机。 特点: • 双极性步进电机驱动器 • 脉冲宽度调制(PWM&#xf…

uni-app项目实战笔记24--uniapp实现图片保存到手机相册

前提条件:微信小程序要想实现保存图片到本地相册需要到微信公众平台--小程序--开发管理中配置服务器域名中的downloadFile合法域名: \uniapp提供了saveImageToPhotosAlbum API实现保存的图片到本地相册。下面是它的配置参数: 参数名类型必填…

面试题-定义一个函数入参数是any类型,返回值是string类型,如何写出这个函数,代码示例

在 TypeScript 里,要定义一个入参为any类型、返回值为string类型的函数,可参考下面几种实现方式: 1. 基础实现 直接把入参转换为字符串返回。 function anyToString(input: any): string {return String(input); // 使用String()进行类型转…

TensorFlow深度学习实战——Transformer模型评价指标

TensorFlow深度学习实战——Transformer模型评价指标 0. 前言1. 质量1.1 GLUE1.2 SuperGLUE1.3 SQuAD1.4 RACE1.5 NLP-progress2. 参数规模3. 服务成本相关链接0. 前言 可以使用多种类型的指标评估 Transformer 模型。在本节中,我们将学习一些用于评估 Transformer 的关键因素…

linux内核学习(一)---内核社区介绍及补丁提交

目录 一、引言 二、内核源码 三、内核社区 ------>3.1、社区的组织架构 ------>3.2、内核社区的工作方式 ------>3.3、内核社区核心网站 ------------>3.3.1、Linux Kernel 官网 ------------>3.3.2、Linux Kernel 邮件列表(LKML) ------------>3.3…

轻量级web开发框架之Flask web开发框架学习:get请求数据的发送

Flask是一个使用 Python 编写的轻量级 Web 应用框架,简介灵活,可快速构建开发框架。 协作流程示例 客户端请求 → Web服务器(Nginx) → WSGI服务器(Gunicorn/uWSGI)↓WSGI协议传递请求数据(env…

Vue 3 异步三剑客:Suspense、async setup() 和 await 的戏剧性关系,白屏的解决

文章目录 🎭 Vue 3 异步三剑客:Suspense、async setup() 和 await 的戏剧性关系,白屏的解决🎬 角色介绍🎭 正常演出流程(有 Suspense 时)💥 灾难场景(缺少 Suspense 时&a…

【JavaScript-Day 48】告别 Ajax,拥抱现代网络请求:Fetch API 完全指南

Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…

BUUCTF在线评测-练习场-WebCTF习题[极客大挑战 2019]Knife1-flag获取、解析

解题思路 这题没有什么解题思路,打开靶场,标题是白给的shell 页面显示了 eval($_POST["Syc"]); 这是php webshell命令,密码为Syc,可直接通过该命令连接,根据标题提示,直接尝试用蚁剑连接 连接成…

Qt—(Qt线程,Qt进程,,QT与sqlite数据库)

一 Qt线程与进程概述 线程与进程对比 特性线程 (QThread)进程 (QProcess)内存空间共享父进程内存独立内存空间创建开销小 (几MB)大 (几十MB)通信方式共享内存/信号槽管道/套接字/文件崩溃影响导致整个进程终止仅自身终止适用场景高并发任务、计算密集型隔离第三方应用、安全需求…

计算机视觉阶段一:CV入门基础

目录 学习目标: 一、核心知识点 二、实用工具推荐 三、学习内容与步骤 1.环境搭建 2.图像获取与显示 3 图像基础处理 4 图像几何变换 5 图像像素操作 四、实战任务建议 实战 1:图像加载 显示 保存 实战 2:灰度图 边缘检测 图…

新增MCP接入和AutoAgent,汉得灵猿AI中台1.6版正式发布!

汉得灵猿(大圣)AI中台1.6版本,经过数月迭代,现已正式发布! 新版本最被期待的新功能,无疑是4月份预告的MCP接入,而令人同样激动的另一项新功能,则是AutoAgent动态规划智能体。除了两…