文章目录

  • 前言
  • 一、题目和摘要
  • 二、引言
  • 三、相关工作
  • 四、方法
  • 五、训练


前言

开冲,清华大学的,带HDmap的端论文,用的Query,和UniAD一样。


一、题目和摘要

ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries
ViP3D:通过三维智能体查询进行端到端视觉轨迹预测
注意,这篇论文要输入HDMap

PS:Query 是 Transformer 框架里的“查询向量”
Agent Query 的核心想法是
给场景中每一个潜在的交通参与者分配一个可学习的 Query 向量(就像是给每个人一个“跟踪编号”)
这个向量在网络计算时会主动去从传感器特征(比如图像特征)里抓取与自己对应的那个人/车的相关信息。
它和传统的密集 BEV 特征不一样:
传统:先生成一张密密麻麻的地图,再用算法去找人 → 中间有 NMS、关联匹配等不可微步骤。
Agent Query:一开始就假设“我有 N 个对象”,每个对象一个 Query,全程跟踪 → 不需要 NMS 或匹配,过程可微。

感知和预测如果分离,预测作为下游模块,只能从感知模块接收有限的信息。更糟糕的是,感知模块的误差会传播和累积,对预测结果产生不利影响。
在这项工作中,我们提出了ViP3D,这是一种基于查询的视觉轨迹预测管道,它利用原始视频中的丰富信息直接预测场景中代理的未来轨迹。ViP3D采用稀疏代理查询来检测、跟踪和分析,并在整个管道中进行预测,使其成为第一种完全可微的基于视觉的轨迹预测方法

与使用历史特征图和轨迹不同,来自先前时间戳的有用信息被编码在Agent Queries中,这使得ViP3D成为一种简洁的流式预测方法。此外,在nuScenes数据集上的大量实验结果表明,ViP3D在基于视觉的预测方面比传统管道和之前的端到端模型具有更强的性能。

二、引言

感知和预测是现有自动驾驶软件管道中的两个独立模块,它们之间的接口通常被定义为手工挑选的几何和语义特征,如历史目标轨迹、目标类型、目标大小等。
缺点:导致可用于轨迹预测的有用感知信息的丢失。例如,尾灯和刹车灯指示车辆的意图,行人的头部姿势和身体姿势则表明他们的注意力。
基于激光雷达的轨迹预测的端到端模型缺点:
(1)无法利用来自相机的丰富细粒度视觉信息;
(2)这些模型使用卷积特征图作为帧内和帧间的中间表示,因此受到不可微操作的影响,如对象解码中的非最大抑制和多对象跟踪中的对象关联。
为了解决这些缺点,我们提出了一种新的管道,该管道利用以查询为中心的模型设计来预测未来的轨迹,称为ViP3D(通过3D目标查询进行视觉轨迹预测)。
如何做:ViP3D消耗来自周围摄像机和高清地图的多视图视频,并以端到端和简洁的流式方式进行代理级未来轨迹预测,如图1所示。
在这里插入图片描述
ViP3D使用3D目标查询作为流水线的主线,从原始视频帧输入中实现端到端的未来轨迹预测。这种新颖的设计通过有效地利用细粒度的视觉信息(如车辆的转向信号)来提高轨迹预测性能。

具体而言,ViP3D利用3D代理查询作为整个管道的接口,其中每个查询最多可以mapping到环境中的一个目标。
在每个时间步,查询从多视图图像中聚合视觉特征,学习代理的时间动态,对代理之间的关系进行建模,并最终为每个代理生成可能的未来轨迹。随着时间的推移,3D代理查询被保存在一个内存库中,可以对其进行初始化、更新和丢弃,以跟踪环境中的代理。

此外,与以前利用历史代理轨迹和来自多个历史帧的特征图的预测方法不同,ViP3D只使用来自一个先前时间戳的3D代理查询和来自当前时间戳的传感器特征,使其成为一种简洁的流式方法。

三点核心贡献:

  1. ViP3D是第一种完全可微分的基于视觉的方法,用于预测自动驾驶目标的未来轨迹。而不是使用手工挑选的特征,像是历史轨迹和目标大小,ViP3D利用了原始图像中丰富而精细的视觉特征,这些特征对轨迹预测任务很有用。
  2. ViP3D以3D Agent Queries为接口,显式地对目标级检测、跟踪和预测进行建模,使其具有可解释性和可调试性。
  3. 我们实验最jb屌

三、相关工作

目前端到端的痛点:它们都依赖于BEV特征图或热图作为中间表示,这导致从密集特征图到实例级特征时不可避免的不可微操作,例如检测中的非最大抑制(NMS)和跟踪中的关联。
我们牛逼,HDmap,把稀疏目标查询作为表示,大大提高了可微性和可解释性。真的有用吗?

从密集特征图 → 实例级信息,一般会经历两个关键步骤:
检测里的 NMS(非最大抑制)
检测会生成一堆可能的框,然后 NMS 会把重叠度高的框合并掉,只保留一个最可能的。
这个过程是基于“比较大小、硬决策”的,不可导(即在梯度反传时没法平滑计算)。
跟踪里的关联
跟踪要把“这一帧的车”和“下一帧的车”对应起来,这通常用匈牙利算法等匹配方法,也属于硬匹配,不可导。

四、方法

ViP3D利用以查询为中心的模型设计。
被跟踪的Agent Queries可能包含许多有用的视觉信息,包括目标的运动动力学和视觉特征。
在这里插入图片描述

感知:
输入:多视图cam
输出:跟踪agent query集合,这包含许多视觉信息,包括agent的运动特性和视觉特征

预测:
输入:跟踪query和HDmap
输出:agent的未来轨迹。
初始的3D agent query更新和丢弃,在一个query存储库里完成。

模型介绍:这里提取图像用的是ResNet50和FPN,不是ViT系列。然后用相机内参和外参矩阵把3D查询参考点映射到图像的2D坐标上,然后将上面得到的向量作为Q,图像特征L,经过W映射,得到三个QKV矩阵,然后计算跨注意力,最后经过一个带层归一化的两层感知机FFN,更新agent query。
作者设计了两个query来更新和移除agent,一个是匹配query,一个是空query。如果出现一个未匹配query,说明是新出现的agent,如果一个agent消失了,就分配一个未匹配且空的标签,留待后用。对于匹配query,那就说明还在视野里,正在处理。

针对二分匹配,使用了一个query解码器输出每个query的中心坐标,损失函数有类别损失和坐标回归损失,即bbox的L1损失。

Query存储库是一个单进单出的队列,大小为S,仅在每个query和它的历史状态之间进行注意力计算,没有多agent交互,每个query对应一个agent。

以往的轨迹预测模型分为三部分,agent编码器,地图编码器和轨迹解码器。
agent编码器:基于查询的检测和跟踪输出被跟踪的agent查询,这相当于agent编码器的输出。因此,基于查询的预测模块仅由地图编码器和轨迹解码器组成
地图编码器:采用VectorNet。
轨迹解码器:框架级设计,基于回归的方法(Regression-based)、基于目标的方法(Goal-based)、基于热图的方法(Heatmap-based)都能用。

五、训练

模型的loss是联合训练的,包括前面的分类和坐标回归loss。提出了一个新指标,EPA,端到端预测精度。数据集是nuscenes。
这里提到一个trick,就是把agent的最后一个位置作为原始值和方向作为y轴,可以使预测模型集中于未来模态预测,而不是坐标变换。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/918149.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/918149.shtml
英文地址,请注明出处:http://en.pswp.cn/news/918149.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java学习第一百零九部分——Jenkins(一)

目录 一、前言简介 二、核心价值与优势 三、关键概念 四、下载安装与配置 五、总结归纳概述 一、前言简介 Jenkins 是一个开源的、基于 Java 的自动化服务器。它的核心使命是实现持续集成和持续交付。简单来说,Jenkins 是一个强大的工具,用于自动化…

微算法科技(NASDAQ:MLGO)使用循环QSC和QKD的量子区块链架构,提高交易安全性和透明度

随着量子计算技术的快速发展,传统区块链所依赖的加密算法面临着被破解的潜在风险。量子计算的强大计算能力可能会在未来打破现有加密体系的安全性,从而对区块链中的交易数据造成威胁。为了应对这一挑战,将量子技术与区块链相结合成为了必然的…

MyBatis SQL映射与动态SQL:构建灵活高效的数据访问层 MyBatis SQL映射与动态SQL:构建灵活高效的数据访问层

🔄 MyBatis SQL映射与动态SQL:构建灵活高效的数据访问层 🚀 引言:动态SQL是MyBatis框架的核心优势之一,它让我们能够根据不同条件动态构建SQL语句,避免了传统JDBC中大量的字符串拼接。本文将深入解析MyBati…

v-model双向绑定指令

文章目录前言v-model.lazy 延迟同步v-model.trim 去掉空格前言 v-model指令是Vue.js中实现双向数据绑定的一种重要机制。它可以将表单控件的值与Vue.js实例中的数据进行双向绑定,即当表单控件的值发生变化时,Vue.js实例中的数据也会随之更新&#xff0c…

电脑IP地址是“169.254.x.x”而无法上网的原因

一、核心原因:自动私有 IP 地址(APIPA)的启用APIPA 机制:这是 Windows 等操作系统内置的一种 “备用方案”。当电脑设置为 “自动获取 IP 地址”(通过 DHCP 协议),但无法从路由器、光猫等网络设…

单片机存储区域详解

目录 单片机内存区域划分 boot引脚启动介绍 1. boot引脚的三大启动区域介绍 1.用户闪存(User Flash) - 最常用模式 2. 系统存储区(System Memory) - 出厂预置Bootloader区 3. 内置SRAM启动(RAM Boot) - 特殊调试模式 2.用户闪存(User Flash)内存管理详解 一、用户闪存中…

Go语言实战案例:简易JSON数据返回

在现代 Web 应用中,JSON 已成为前后端通信的主流数据格式。Go 语言标准库内置对 JSON 的良好支持,只需少量代码就能返回结构化的 JSON 响应。本篇案例将手把手带你完成一个「返回 JSON 数据的 HTTP 接口」,帮助你理解如何用 Go 语言实现后端服…

扣子Coze中的触发器实现流程自动化-实现每日新闻卡片式推送

基础知识 什么是触发器/能做什么 Triggers 智能体设置触发器(Triggers),使智能体在特定时间或接收到特定事件时自动执行任务。为什么需要触发器?实操步骤 第1步:打开一个智能体编辑页第2步:技能 - 触发器 -…

GitCode 7月:小程序积分商城更名成长中心、「探索智能仓颉!Cangjie Magic 体验有奖征文活动」圆满收官、深度对话栏目持续热播

运营情况总结 🎉 截至7月底,GitCode 这个热闹的开发者社区,已经聚集了 656 万位开发者小伙伴啦! 💻 产品:小程序积分商城更名为成长中心啦,更多功能将陆续上线。 🌟 G-Star&#xff…

机器学习之支持向量机(原理)

目录 摘要 一、概述 二、SVM算法定义 1.超平⾯最⼤间隔介绍 2.硬间隔和软间隔 1.硬间隔分类 2. 软间隔分类 三、SVM算法原理 1 定义输⼊数据 2 线性可分⽀持向量机 3 SVM的计算过程与算法步骤 四、核函数 五、SVM算法api介绍 1. 核心参数说明 2. 主要方法 3. 重…

【Unity3D实例-功能-跳跃】角色跳跃

今天,我们来聊聊 Unity 里最常打交道的动作之一——角色跳跃。无论是横版闯关还是 3D 跑酷,跳跃都是让角色“活”起来的核心操作。在 Unity 里,几行脚本就能让角色一蹬而起、稳稳落地。下面,就让我们一起把这个“弹跳感”亲手做出…

react+echarts实现变化趋势缩略图

如上图,实现一个缩略图。 import React, { useState, useEffect } from react; const ParentCom () > {const [data, setData] useState({});useEffect(() > {// 这里可以做一些接口请求等操作setData({isSheng: false, value: 11.24, percentage: 2.3%, da…

C语言宏相关操作

宏 宏名称通常都是由大写英文字母构成的宏名称里不可以包含空格用宏给数字起名字的时候不可以使用赋值运算符,不要自增自减可以在编写程序的时候直接使用宏名称替代数字,编译器在编译的时候会把程序里的宏替换成它所代表的数字 1. 为什么要使用宏&#x…

STM32内部读写FLASH

很多情况下,在STM32中写入一些数据,在某些不可控因素下其数据无法保存。因此,解决此问题就要用到FLASH.什么是内部 Flash? Flash 是一种非易失性存储器,STM32 的程序和常量数据就存在 Flash 中。它的关键特点是:特性说…

Oracle 12c + Pl/Sql windows系统下表空间创建、迁移,dmp备份导入,数据库字符集更改

一、开发环境 操作系统:win11 Oracle版本:12c Oracle 数据库字符集:AL32UTF8 Pl/Sql版本:14 二、表空间创建 表空间是 Oracle 数据库中一种重要的逻辑结构,它是数据库中数据文件的逻辑集合,用于存储数据库对…

GUI:QT简介

一、什么是QT?Qt是一套跨平台的 C 图形用户界面(GUI)应用程序开发框架,由挪威 Trolltech(奇趣科技)于 1991 年创建,2008 年被诺基亚收购,2012 年后由 Qt Company 负责维护。它广泛应…

oceanbase执行execute immediate create table提示无权限

问题:OB库4.2.5.4版本,执行到这一句的时候,报没有权限:[rootlnob ~]# obclient -h192.168.207.28 -P2881 -ugistarlnzyob -pxxxxxx -A Welcome to the OceanBase. Commands end with ; or \g. Your OceanBase connection id is 3…

滴滴招java开发

滴滴集团 北京(岗位信息已经过jobleap.cn授权,可在csdn发布)收录时间: 2025年08月01日职位描述 负责滴滴海外业务准入审核及反作弊相关系统的后端开发及系统维护; 职位要求 1、统招本科及以上学历,计算机科…

深入解析基于Zookeeper分布式锁在高并发场景下的性能优化实践指南

深入解析基于Zookeeper分布式锁在高并发场景下的性能优化实践指南 在大规模分布式系统中,如何保证多个节点对同一资源的有序访问,是提高系统稳定性与一致性的核心需求之一。Zookeeper 提供的分布式锁机制,以其简洁的原理和高可靠性&#xff0…

腾讯云CodeBuddy AI IDE+CloudBase AI ToolKit打造理财小助手网页

CodeBuddy 腾讯云CodeBuddy AI IDECloudBase AI ToolKit打造理财小助手网页 在线体验地址:理财小助手 在线仓库:https://cnb.cool/pickstars-2025/ai-financial-assistant 🌟 Hello,我是摘星! 🌈 在彩虹般…