OccNet

https://github.com/OpenDriveLab/OccNet
Scene as Occupancy

  • 提出了一种新的场景表示方法, 利用环视摄像头,采用级联和时序体素编码的方式来重建三维Occ场景。
    在这里插入图片描述

Method

1)提出的OCCNet首先重建占据描述符,目标是为支持下游任务获取一个代表性的占据描述符。OCCNet采用了级联的方式(解码过程被分为多个阶段,每个阶段都负责恢复特定的信息),通过多个级联阶段的迭代,从鸟瞰图特征中解码3D占据特征。 2)使用了基于体素的时间自注意力和空间交叉注意力来恢复高度信息,并结合了可变形的3D注意力模块以提高效率。
在这里插入图片描述

  • Reconstruction of Occupancy
    OccNet使用Voxel尺度上的特征,但如果仅使用BEV特征,则无法充分恢复高度信息;但如果直接使用体素特征,则需要消耗大量算力。OccNet则在两者间寻求一个平衡点,先通过BEVFormer的encoder得到带有时序信息的BEV特征,再通过级联的decoder恢复3D占据特征。
    不同层级的decoder负责恢复不同高度尺度的信息。
    将前一帧的特征通过当前帧的参数进行变换,对于典型的自注意力机制,每一个query都需要与所有的key和value进行匹配,在3D特征下,这需要消耗大量的算力。因此,OccNet引入了可变形的3D注意力模块,从而大大降低了计算量。

  • Exploiting Occupancy on Various Tasks
    有了细粒度的3D场景表征,就可以应用于各种下游任务:

  1. 分割场景补全: 使用L1 Loss 和 Focal Loss来完成类别不平衡的场景补全任务
  2. 3D目标检测: 基于BEVFormer,将Occ重新投影到BEV视角,并使用query-based检测头进行3D目标检测
  3. BEV 语义分割: 基于ST-P3, 与三D目标检测一样,地图表征和语义分割是通过 BEV 特征预测的。BEV 分割头包括用于地图表示的可驾驶区域头和车道头,以及用于语义分割的车辆分割头和行人分割头。
  4. 运动规划:对于运动规划任务,感知结果都可以转换为BEV分割的形式,所有形式的结果都可以以0,1的形式表示。进一步就可以用于安全代价函数的计算中。

Experiment

在这里插入图片描述
在这里插入图片描述

OpenOcc

数据集真值的生成步骤:

  1. 根据带标签的物体点和部分背景点生成占位数据,其中黑点表示中间帧的未知背景点。
  2. 根据生成的占用率数据标注部分未知背景点。
  3. 去除其余被视为噪声的未知背景点。
  4. 对占用率数据进行后处理,以确保场景的完整性,如填补红色虚线框内的空洞。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/91676.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/91676.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/91676.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux基础复习:字符输入与输出

该文仅针对自身对Linux基础知识不足的地方进行补充扩展,便于巩固。终端的输入和输出由字符设备管理。1、查看当前字符设备# 查看当前bash进程 [rootopenEuler-1 ~]# psPID TTY TIME CMD9662 pts/1 00:00:00 bash9938 pts/1 00:00:00 ps# 该目录存放了…

【初识数据结构】CS61B中的基数排序

本教程介绍 CS61B 中的基数排序,这是一种可以在某些情况下甚至超越归并排序、快速排序的特殊的排序方法,但是牺牲了内存空间计数排序 连续编号情形 我们需要对一个编号从 0 到 11 的表进行排序实际上我们可以拿出另一张同样大小的空白表,在遍…

ReAct模式深度解析:构建具备推理能力的AI智能体架构

本文深入剖析ReAct(Reasoning+Acting)架构设计模式,揭示如何通过推理与行动循环构建具备自主决策能力的AI智能体,并展示其在复杂问题求解中的革命性突破。 引言:从工具调用到自主决策的进化 传统AI系统面临的核心瓶颈: #mermaid-svg-orlnKyviyW86xIJZ {font-family:&quo…

Corrosion2靶机攻略

第一步搭建环境 靶机下载地址:https://download.vulnhub.com/corrosion/Corrosion2.ova 下载完成后直接右击用VM打开,重试一下就可以了 右击虚拟机设置将网络连接改成nat模式 第二步信息收集 查看一下靶机的网段,左上角编辑,虚…

SSL 剥离漏洞

一、SSL/TLS 协议基础​1.1、SSL/TLS 协议的核心功能​SSL/TLS 协议的核心功能主要包括三个方面:加密、认证和完整性校验,这三大功能共同构建了网络通信的安全屏障。​(一)加密​加密是 SSL/TLS 协议最基本的功能。它通过使用对称…

c++-reverse_iterator

C反向迭代器 反向迭代器是C标准库提供的一种适配器,它允许我们以相反的顺序遍历容器,反向迭代器是正向迭代器的封装。 迭代器可以分为两类:方向性质:单向迭代器(Forward Iterator)双向迭代器(Bi…

linux内核驱动:电流/电压/功率监控模块INA226调试

目录背景一、芯片介绍二、手册三、内核驱动配置3.1 设备树配置3.2 修改内核配置文件3.3 编译四、内核驱动分析1、初始化流程2、属性文件/解释五、调试和计算背景 最近调试了一款德州仪器的带有I2C控制接口的可以实现电压、电流、功率监测,并可以进行报警设置的芯片I…

ACL 2024 大模型方向优秀论文:洞察NLP前沿​关键突破

关注gongzhonghao【计算机sci论文精选】近年来,以Transformer架构为核心的大语言模型重塑了自然语言处理领域的技术范式。当前ACL相关研究呈现多维度深化态势,从开源社区推动轻量化架构与低成本训练技术革新,到学术界探索检索增强等机制突破长…

乐创E20H1型IO从站与Ethercat转Profinet网关转换器的配置应用案例

本案例聚焦于西门子 1200PLC 与 E20H1 - T01 IO 从站的连接。在正常运行过程中,E20H1 - T01 IO 从站需支持 EtherCAT 协议,作为 EtherCAT 从站;而监控系统所采用的西门子 S7 - 1200 系列 PLC 则支持 PROFINET 协议。由于协议的不一致性&#…

【2】专业自定义图表创建及应用方法

一、专业自定义图表创建及应用方法1)不是图表的图表制作方法例题1:迷你图表制作方法定义:指依靠Excel基本制图功能之外的其他功能(如公式、条件格式、迷你图等)创建的数据可视化图表特点:引用数据少且占用…

embodied复现所需docker环境配置粗略流程

由于embodied很多安装包都需要linux环境,所以为了建立虚拟ubuntu系统,在不适用vmvare的情况,可以考虑使用docker容器来实现,也不会出现的vmware的卡顿情况 1.首先建立容器,并和pycharm建立连接,先安装docker desktop&a…

2025.8-12月 AI相关国内会议

以下是2025年8月至12月国内与人工智能(AI)相关的重要会议及活动总结,按时间顺序排列: 2025年8月第六届人工智能与机电自动化国际学术会议(AIEA 2025) • 时间:8月1-3日 • 地点:安徽…

计数组合学7.10(舒尔函数的组合定义)

7.10 舒尔函数的组合定义 前几节讨论的四个基 mλm_{\lambda}mλ​、eλe_{\lambda}eλ​、hλh_{\lambda}hλ​ 和 pλp_{\lambda}pλ​ 的定义都较为直观。本节将介绍第五个基,其元素记为 sλs_{\lambda}sλ​,称为舒尔函数,其定义则更为微…

【前端】CSS Grid布局介绍及示例

CSS Grid 简介 CSS Grid 是一个二维布局系统,专为处理行和列的复杂网页布局而设计。与 Flexbox(一维布局)不同,Grid 允许开发者同时控制行和列,实现更精确的布局结构。 核心概念: Grid 容器:通过…

[echarts]多个柱状图及图例

前言 实现多个柱状图功能,并设置多个图例样式,并定时刷新数据 react引入echarts import React, { useEffect, useRef } from react; import * as echarts from echarts; import DeviceApi from /api/screen/DeviceApi;const CenterDeviceSummary (props…

【读文献】Capacitor-drop AC-DC

[1] F. Song, et al., “An 85-to-230VAC to 3.3-to-4.6VDc 1.52W Capacitor-Drop Sigma-Floating-SC AC-DC Converter with 81.3% Peak Efficiency,” 2025 IEEE International Solid-State Circuits Conference (ISSCC), 2025.以下是针对该电容降压AC-DC转换器设计的通俗版解…

`StreamConfigurationMap` 实现逻辑与解析过程详解:相机流能力的声明、匹配与验证机制全景

StreamConfigurationMap 实现逻辑与解析过程详解:相机流能力的声明、匹配与验证机制全景 关键词: StreamConfigurationMap、CameraCharacteristics、OutputFormat、InputFormat、Size 配置、帧率范围、流兼容性、配置失败调试 摘要: StreamConfigurationMap 是 Android 相…

关于“PromptPilot” 之3 -Prompt构造器核心专项能力:任务调度

本篇问题Q20. 以上设计是“原始制造商”的典型范式。在三个不同理论层级(Prompt 构造进程的三个子进程(线程))分别适合三种不同的取向: 面向目标、面向结果和面向过程。不同取向将采取不同的策略 和不同的 监控方式&am…

Solana: 链上开发入门,用 Anchor 和 Rust 构建第一个程序

大家好,如果大家对 Solana 开发充满好奇,但又对 Rust 语言感到陌生,那么大家来对地方了。很多人在探索 Solana 这条高性能公链时,遇到的第一个门槛就是其原生开发语言——Rust。Rust 以其高性能和内存安全著称,但学习曲…

node.js之Koa框架

Koa框架介绍Koa 是一个新的 web 框架,由 Express 原班人马打造,致力于成为一个更小、更富有表现力、更健壮的 Web 框架。Koa 解决了 Express 存在的一些问题,例如:中间件嵌套回调(callback hell)错误处理不…