目录

一、LLaVA-3D

1、概述

2、方法

3、训练过程

4、实验

二、Video-3D LLM

1、概述

2、方法

3、训练过程

4、实验

三、SPAR

1、概述

2、方法

4、实验

四、VG-LLM

1、概述 

2、方法

3、方法     

4、实验


一、LLaVA-3D

1、概述

        空间关系不足:传统LMMs(如LLaVA)专注于2D图像/视频理解,缺乏对​​3D空间关系​​(深度、距离、物体相对位置)的感知能力。

        数据与模型断层:3D点云数据稀缺且质量低,难以大规模训练。点云编码器性能弱于成熟的2D CLIP模型,导致特征表达能力不足。

        传统3D LMMs需要对3D实例分割提取物体特征,流程冗长。点云特征与2D视觉特征表示空间不兼容。

        所以LLaVA-3D不需要点云信息,直接利用多视图信息,并继承2D LMM的语义先验(多视图输入LLaVA-Video)

2、方法

架构

        首先使用预训练的LLaVA-Video-7B作为基础模型,将多视图图像作为视频帧序列输入保留多视图图像处理能力,延续CLIP-ViT的视觉编码器,来提取2D patch的特征(2D patch tokens)。

        另外利用深度图信息,相机内外参,通过深度反投影到像素3D世界坐标中,并对每一个patch都计算平均3D坐标,并通过两层MLP将坐标编码为特征向量(3D patch tokens

        如果用户的问题中存在坐标信息时(比如:[1.2,0.8,0.9]位置的物体有什么作用),那么在LLM中不仅要输入2D和3D特征信息,同时要输入一个特定token,相当于把坐标信息从文字中提前解析出来,丢到LLM中。LLM完全依赖LLaVA-Video架构。

        3D边界框生成(解码):并不是采用直接通过LLM输出坐标信息,而是对tokens进行了解码,利用Grounding Decoder,回归物体中心坐标(x,y,z) + 尺寸(w,h,d) + 旋转角(ψ,θ,φ)。具体来说,首先输入3D patch features(应该是2D+3D的features信息,输入到LLM的那部分,并进行了采样),之后通过3D knn cross attn.之后再输入LLM输出中的location tokens,进行自注意力机制,最后回归box 参数。

3D patch pooling     

        针对于多视图或者视频序列过长时,可能会超过大语言模型能够接受的范围,所以要对输入的patch进行压缩。LLaVA-3D提出两个方法,体素池化和最远点采样。

        体素池化:可以理解为,将图像降采样,对于同一个体素内的patch特征取平均,并只保留该平均特征。

        最远点采样:从大规模点集中选取有代表性的子集,比如第一轮先初始一个点到采样点集合S中,之后计算所有点到S的最小距离,选择距离最远的点加入S,反复迭代,直到满足所需的采样点数量。

3、训练过程

数据

训练过程

        先对LLaVA-3D的2D和3D模块同时训练2D部分输入LLaVA-Video的数据,3D部分输入上图的LLaVA-3D-Instruct-86K。

        冻结其他模块,单独微调Grounding decoder。

4、实验

        LLaVA-3D可以实现多模态3D问答(坐标空间推理,场景关系推理),3D密集描述生成,3D视觉定位,并同时兼具视频视觉理解能力。

        对于3DQA问题,关注基础3D空间理解ScanQA,SQA3D,MMScanQA是几何-语言对齐的,比如某一坐标下物体的材质是怎样的。OpenEQA是具身智能真实场景的推理。

        3D视觉定位中对比了3D-LLM,Grounded 3D-LLM。

        3D密集描述上,采用Scan2Cap和MMScan的描述,后者应该是带有定位的QA。

        同样对于LLaVA-Video原本的能力,没有下降(MVBench,VideoMME)。

二、Video-3D LLM

1、概述

        对比LLaVA-3D,其实也是视频帧中获得空间信息。而且点云信息和体素信息的标注成本过高,不容易实现。

        LLaVA-3D是复用预训练的2D encoder,避免2D到3D转换困难。Video-3D LLM是直接利用RGB视频,不在考虑2D的问题,直接全面采用VideoLLM。在计算效率上,LLaVA-3D采用池化策略,而Video-3D LLM采用最大覆盖采样,通过贪婪算法,加速推理时间。同样的两者均实现视觉定位问题,LLaVA-3D则引入一个特定的3D感知解码器,而Video-3D LLM则直接规定一个分类问题,减少架构的繁琐性。

        下图为传统3D方法的操作,点云标注困难,2D与3D难以对齐。新方法下直接利用视频并在视频中标注坐标信息来训练LLM。

2、方法

架构

        输入:从RGB-D扫描的3D场景中采样帧序列\left \{ f_k \right \}_{k=1}^l,通过深度图反投影得到全局坐标\left \{c_k \right \}_{k=1}^l

        视频帧提取特征:对每一帧f_i通过ViT,先进行patchify之后得到H' \times W'个图像并提取特征e_k^{img} \in \mathbb R^{H' \times W' \times d}。之后对每一个图像块P(i,j)内对应的3D坐标取平均,得到一个块级的3D坐标。

                                        c_k'(i,j)=\frac{1}{P^2}\sum_{(u,v)\in P(i,j)}c_k(u,v)

        3D位置编码:利用刚才得到的3D坐标进行正弦编码。

        对于Video LLM同样采用LLaVa-Video 7B架构(利用Qwen2.5训练的,这与LLaVA-3D相同)

        解码部分与LLaVA-3D区别非常大,针对于描述问题和定位问题采用了完全不同的结构来计算损失。首先对于描述问题,采用传统的文本生成问题计算交叉熵损失,对于定位问题,只考虑基于图片和深度信息得到的e_k^{obj}与LLM输出的<ground>tokens部分隐藏层特征h之间的InfoNCE对比损失。e_{obj}^k可以理解为图片经过2D encoder输出得到e_k^{obj-rgb}与3D位置编码e_i^{obj-coord}的和。f和g都是可学习的MLP,\tau为温度系数。

3、训练过程

        注意,我们不可能对场景中每一个物体进行描述,,也不能把每一帧作为一个整体来提取caption,这样物体会存在模糊。所以在训练过程和推理过程中,都会引入候选框信息。训练过程中依赖真实的标注物体,而推理过程则利用Mask3D进行标注。

        假设训练过程中,我们现在已经根据已知的深度图获得了点云信息,那么根据给定的3D标注框,就可以对应到与之重叠的视觉块(相当于2D的掩码),并对这一部分视觉特征进行平均池化并加以位置编码,得到了他这一个掩码下的tokens信息。

4、实验

        为什么要采用与LLaVA-3D不同的采样方法,因为均匀采样会失去一些小物体的信息。

        定位问题上同样测试ScanRefer和Multi3DRef指标,这两个分别是单目标定位和多目标定位。然后同样对比3D问答,视觉定位,密集描述问题。

三、SPAR

1、概述

        SPAR论文原文是这个《From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D》

        动机:由于视觉语言模型在3D空间感知上存在明显局限,传统方案依赖显式3D数据(如点云),但此类数据稀缺且分布不均。SPAR提出核心问题:​​能否仅通过2D图像数据让VLMs学习3D空间理解?​​ 其灵感源于人类通过2D观察隐式重建3D空间的能力。

        所以,SPAR模型中,在训练过程中,文本QA标签由3D真值生成,但模型中并不直接接触3D点云信息,推理过程中采用纯图像作为输入。可以理解为SPAR实现了3D到2D的转换,将3D真值,转换为大规模生成的2DQA信息。

        SPAR为了引入3D数据所以建立了一个7M的数据,补充了单视图和多视图的问答信息。但是缺点就是数据量太大了,不容易训练。同时生成了一个基于SPAR-7M的benchmark。

2、方法

数据集

        数据集来自于ScanNet,ScanNet++,Structured3D的场景共4500+,包含精确地3D网格,物体bbox,相机位姿信息,并且过滤掉相似帧。

        数据集中包含了每一个物体的位置,在哪一个场景中,在哪一帧中,所以可以用它来建立QA。QA共包含33类任务,覆盖深度估计,距离预测,甚至视角变换,物体匹配,空间想象等任务。

SPAR-Bench

        从33类任务中精选20类核心任务,排除视频时序任务。每类任务抽取400个验证集样本 → 人工校验 → 保留 ​​7,207高质量QA对​,并且进行人工验证,剔除模糊/误导性问题。​

架构

        主干采用InternVL2.5-8B,没有别的改进,训练过程中数据集采用SPAR-mix(SPAR-7M+通用数据混合),并将EMOVA-2M作为通用能力基线,这是一个大规模的通用视觉问答数据集。

        训练过程并未描述。

        对于输出的文字中的3D定位框部分,通过提前Mask3D得到的检测框来进行IoU计算,优化3D定位的准确性。但是后面的VG LLM看到,其实这个方式不如直接接一个空间编码器,而且空间编码器可以学到更多的空间信息,不需要大量的数据训练。

4、实验

        对于2D通用benchmark和空间理解问题进行评估,主要对比的是baseVLM(internvl2.5),在2D指标上存在明显的下降,3D性能提高。

        SPAR-Bench上不高就奇怪了,数据量在那摆着呢。

        其他的定位,描述指标上,不如Video 3D LLM。

四、VG-LLM

1、概述 

        这个模型解决的是现有方法依赖显式3D输入的问题,并不限于最传统的输入点云信息,bev地图,甚至Video-3D LLM这种输入深度图的信息。VG-LLM只输入RGB视频,无需显式的3D数据信息。另外相比于后面将介绍的SPAR模型,不仅VG-LLM只需要其3%的数据量就可以训练,而且不需要隐式的引入3D数据信息。

        在后续对比实验中,仍然采用上面的定位,描述,目标检测问题,甚至对比空间推理性能和通用多模态能力。

2、方法

        这个模型也用到了3D encoder用来提取几何信息(Spatial-MLLM)

        首先输入完全采用RGB图片,并采用双流融合设计。

2D Visual Encoder

        2D编码器不跨帧交互,仅提取单帧语义特征,所以对于输入的视频序列,也就是n帧图形,应该每一帧单独处理,单独输入到编码器中。

        视觉编码器采用Qwen2.5-VL的视觉编码器,图像先patchify成若干块,之后丢入编码器中生成初始tokensT_i^V \in \mathbb R^{\left \lfloor h/p \right \rfloor \times \left \lfloor w/p \right \rfloor \times c},之后对相邻的2x2个patches合并为一个tokenT_i^{V'} \in \mathbb R^{\left \lfloor h/2p \right \rfloor \times \left \lfloor w/2p \right \rfloor \times c},减少75%的tokens数量。

        最后将所有帧的tokens按照索引顺序拼接,形成一个完整的2d visual tokens序列\left \{ T_i^{V'} \right \}_{i=1}^n

3D Visual Geometry Encoder

        输入视频序列,并输出几何特征信息T_i^G \in \mathbb R^{\left \lfloor h/p \right \rfloor \times \left \lfloor w/p \right \rfloor \times c},并且根据2D visual tokens的尺寸,进行下采样到T_i^{G'}

MLLM

        主体架构采用Qwen2.5-VL-3B,VGGT采用1B架构。

3、方法     

数据集

        VG-LLM 的训练数据分为三大类,空间推理指令数据,通用视频指令数据,3D场景理解数据。

        空间推理指令数据:从三大 3D 数据集人工标注生成:​​ScanNet​​(室内场景)、​​ScanNet++​​[(高精度重建)、​​Structure3D​​(合成场景),覆盖 ​​33 类空间任务​​,but仅使用数据集的3%。

        通用视频指令数据:从 ​​LLaVA-Video-178K​​,抽取 ​​Hound 子集,聚焦动态场景描述,视频帧数限制在4-8帧,混合简单描述和复杂推理任务,保留模型原有的视频理解能力。

        3D 场景理解数据:(ScanRefer/Scan2Cap/EmbodiedScan),分别是ScanRefer:3D视觉定位,利用EmbodiedScan的逐帧物体可见性标注,Scan2Cap:密集描述,利用LEO模型预先检测得到的,视频目标检测三类。在标记中完全将3D框转化为文本信息。

训练过程

        对于2D视觉编码器和3D视觉编码器均冻结,只训练几何与语义对齐的MLP和MLLM骨干网络。 

        VG-LLM采用统一的文本序列生成问题,并将坐标信息文本化,采用标准交叉熵损失。      

        推理过程中对于不同的任务,如果是视觉定位和检测任务,则输出特定的文本格式。比如第五帧时,给我棕色椅子的坐标,输出{"frame":5, "bbox":[1.20,3.45,...]},比如给一个连续的视频信息,检测视频中的物体,输出{"objects":[{"category":"chair", "bbox":[...]}]},对于3D密集描述信息和空间推理则直接输出文本信息即可,不需要解析。

4、实验

        定位问题和密集描述上,在不需要3D场景输入的情况下,超过了SPAR模型,并且逐渐接近Video-3D LLM(并没有完全超越)

        对于多模态模型对比上VSI-Bench,距离,尺寸,计数上分数很高。

        跨任务模型BLINK是深度估计性能,CV-Bench是评测MLLM的2D、3D空间感知能力,依赖于传统CV数据集,在2D,3D上均超过了SPAR-8B模型。

参考论文:

[2409.18125] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

​​​​​​​

[2505.24625] Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

[2503.22976] From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D

[2412.00493] Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/96345.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/96345.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/96345.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring两个核心IoCDI(二)

DI&#xff08;依赖注入&#xff09;就是从IoC容器中获取对象并赋值给某个属性&#xff0c;这就是依赖注入的过程。 关于依赖注入有3种方式&#xff1a; 1、属性注入 2、构造方法注入 3、setter注入 目录 1、属性注入 2、 构造方法注入 3、Setter方法注入 4、3种注入方式优…

广东省省考备考(第八十三天8.21)——言语、判断推理(强化训练)

言语理解与表达 错题解析 文段开篇介绍足够的执法权限对于基层治理高效运行的重要性&#xff0c;接着从两方面进行论证&#xff0c;介绍权限不足和权限过度下放对基层治理的负面影响&#xff0c;最后通过“因此”进行总结&#xff0c;强调一方面要完善执法目录动态调整机制和制…

字符串与算法题详解:最长回文子串、IP 地址转换、字符串排序、蛇形矩阵与字符串加密

字符串与算法题详解&#xff1a;最长回文子串、IP 地址转换、字符串排序、蛇形矩阵与字符串加密 前言 在编程题训练中&#xff0c;字符串相关的题目非常常见。本文将结合几个典型的例题&#xff0c;详细解析它们的解题思路和实现方式&#xff0c;帮助初学者循序渐进地掌握常用技…

从协同设计到绿色制造:工业云渲染的价值闭环

在智能制造、建筑工程、能源电力、船舶海工等工业场景中&#xff0c;3D可视化已从传统的桌面端逐步向Web端迁移&#xff0c;Web 3D凭借其跨平台、轻量化、实时交互等特性&#xff0c;已成为企业构建数字孪生、实现远程协作、推动云端交付的重要工具。这场技术变革不仅改变了工业…

算法第五十一天:图论part02(第十一章)

1.岛屿数量 99. 岛屿数量 &#x1f31f; 思路总结 — DFS 版 1️⃣ 问题本质 给定一个二维矩阵 grid&#xff0c;1 表示陆地&#xff0c;0 表示水 统计岛屿数量&#xff0c;每个岛屿由上下左右相邻的陆地组成 本质是 在二维网格中找连通块 的问题。 2️⃣ 核心思路 遍历矩阵…

杰里708n tws api 简介

/** 通过搜索码搜索tws设备*/int tws_api_search_sibling_by_code();/**打开可发现, 可连接&#xff0c;可被手机和tws搜索到*/int tws_api_wait_pair_by_code(u16 code, const char *name, int timeout_ms);int tws_api_wait_pair_by_ble(u16 code, const char *name, int tim…

高调光比 LED 恒流驱动芯片方案详解AP5165B:36V/1A

AP5165B 是深圳市世微半导体有限公司推出的一款高性能、连续电流模式的降压型&#xff08;Buck&#xff09;LED 恒流驱动芯片。该芯片适用于输入电压高于 LED 电压的应用场景&#xff0c;可驱动单颗或多颗串联的 LED&#xff0c;输出电流最高可达 1A&#xff0c;广泛用于非隔离…

【从零构建企业级线程池管理系统:Python并发编程实战指南】

从零构建企业级线程池管理系统&#xff1a;Python并发编程实战指南 技术博客 | 深入探索Python并发编程、Web开发与现代软件架构设计的完整实践 &#x1f680; 项目背景 在当今高并发的互联网时代&#xff0c;线程池作为并发编程的核心组件&#xff0c;其管理和监控能力直接影…

飞牛系统总是死机,安装个工具查看一下日志

崩溃转储 (kernel crash dump)如果你怀疑是内核 panic&#xff0c;可以开启 kdump 或 kernel crash dump。 安装&#xff1a;sudo apt install kdump-tools # Debian/Ubuntu sudo systemctl enable kdump 下次死机时&#xff0c;系统会把内存 dump 到 /var/crash 里。sudo syst…

2025年AI Agent技术深度解析:原理、应用与未来趋势

一、引言随着人工智能技术的飞速发展&#xff0c;AI Agent&#xff08;智能体&#xff09;作为人工智能领域的重要分支&#xff0c;正逐渐成为推动各行业智能化转型的关键力量。AI Agent具备自主感知、决策和执行能力&#xff0c;能够在复杂环境中完成特定任务&#xff0c;为人…

linux内核 - 内存分配机制介绍

在linux内核中&#xff0c;下面这张图说明了系统中存在一个可以满足各种内存请求的分配机制。根据你需要内存的用途&#xff0c;你可以选择最接近你目标的分配方式。最底层、最基础的分配器是 页分配器&#xff08;page allocator&#xff09;&#xff0c;它以页为单位分配内存…

PyTorch生成式人工智能——ACGAN详解与实现

PyTorch生成式人工智能——ACGAN详解与实现0. 前言1. ACGAN 简介1.1 ACGAN 技术原理1.2 ACGAN 核心思想1.3 损失函数2. 模型训练流程3. 使用 PyTorch 构建 ACGAN3.1 数据处理3.2 模型构建3.3 模型训练3.4 模型测试相关链接0. 前言 在生成对抗网络 (Generative Adversarial Net…

Python + 淘宝 API 开发:自动化采集商品数据的完整流程​

在电商数据分析、竞品监控和市场调研等场景中&#xff0c;高效采集淘宝商品数据是关键环节。本文将详细介绍如何利用 Python 结合 API&#xff0c;构建一套自动化的商品数据采集系统&#xff0c;涵盖从 API 申请到数据存储的完整流程&#xff0c;并提供可直接运行的代码实现。​…

2025.8.21总结

工作一年多了&#xff0c;在这期间&#xff0c;确实也有不少压力&#xff0c;但每当工作有压力的时候&#xff0c;最后面都会解决。好像每次遇到解决不了的事情&#xff0c;都有同事给我兜底。这种压力&#xff0c;确实会加速一个人的成长。这种狼性文化&#xff0c;这种环境&a…

VS2022 - C#程序简单打包操作

文章目录VS2022 - C#程序简单打包操作概述笔记实验过程新建工程让依赖的运行时程序安装包在安装时运行(如果发现运行时不能每次都安装程序&#xff0c;就不要做这步)关于”运行时安装程序无法每次都安装成功“的应对知识点尝试打包旧工程bug修复从需求属性中&#xff0c;可以原…

在JAVA中如何给Main方法传参?

一、在IDEA中进行传参&#xff1a;先创建一个类&#xff1a;MainTestimport java.util.Arrays;public class MainTest {public static void main(String[] args) {System.out.println(args.length);System.out.println(Arrays.toString(args));} }1.IDEA ---> 在运行的按钮上…

ORACLE中如何批量重置序列

背景&#xff1a;数据库所有序列都重置为1了&#xff0c;所以要将所有的序列都更新为对应的表主键&#xff08;这里是id&#xff09;的最大值1。我这里序列的规则是SEQ_表名。BEGINENHANCED_SYNC_SEQUENCES(WJ_CPP); -- 替换为你的模式名 END; / CREATE OR REPLACE PROCEDURE E…

公号文章排版教程:图文双排、添加图片超链接、往期推荐、推文采集(2025-08-21)

文章目录 排版的基本原则 I 图片超链接 方式1: 利用公号原生编辑器 方式2:在CSDN平台使用markdown编辑器, 利用标签实现图片链接。 II 排版小技巧 自定义页面模版教程 使用壹伴进行文章素材的采集 美编助手的往期推荐还不错 利用365编辑器创建图文双排效果 排版的基本原则 亲…

计算两幅图像在特定交点位置的置信度评分。置信度评分反映了该位置特征匹配的可靠性,通常用于图像处理任务(如特征匹配、立体视觉等)

这段代码定义了一个名为compute_confidence的函数&#xff0c;用于计算两幅图像在特定交点位置的置信度评分。置信度评分反映了该位置特征匹配的可靠性&#xff0c;通常用于图像处理任务&#xff08;如特征匹配、立体视觉等&#xff09;。以下是逐部分解析&#xff1a; 3. 结果…

计算机视觉第一课opencv(三)保姆级教学

简介 计算机视觉第一课opencv&#xff08;一&#xff09;保姆级教学 计算机视觉第一课opencv&#xff08;二&#xff09;保姆级教学 今天继续学习opencv。 一、 图像形态学 什么是形态学&#xff1a;图像形态学是一种处理图像形状特征的图像处理技术&#xff0c;主要用于描…