SIFThinker: Spatially-Aware Image Focus for Visual Reasoning

Authors: Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

相关工作总结

视觉思维链推理

最近的研究表明,通过上下文学习逐步推理可以显著提升大型语言模型(LLMs)的性能。因此,出现了几种方法,旨在通过引入思维链策略来增强多模态大型语言模型的视觉推理能力。这些方法可以分为以下三种类型:

  1. 纯文本思维方法(T1):如 Chen 等人(2025a)、Thawakar 等人(2025)、Ji 等人(2024)和 Hu 等人(2024)的研究,受到 Guo 等人(2025b)的启发,在多模态大型语言模型(MLLMs)中引入纯文本推理用于视觉推理任务。这些方法使用强化学习引导生成过程走向最终答案,而不明确纳入中间视觉信号。
  2. 中间思维方法(T2):如 Liu 等人(2025a)、Shao 等人(2024b)、Chen、Luo 和 Li(2025)以及 Wang 等人(2024)的研究,首先生成细粒度的视觉线索(例如边界框、空间坐标或分割掩码),然后基于这些视觉线索进行思维链推理。
  3. 多模态思维方法(T3):一些最近的方法致力于将视觉-文本推理更紧密地整合到模型的思维过程中。例如,专有系统如 ChatGPT-o3(OpenAI 2025)展示了通过动态调用外部图像工具实现“与图像一起思考”的能力。类似地,Li 等人(2025)通过生成推理的视觉轨迹实现视觉思维。Su 等人(2025)、Wu 等人(2025)和 Zheng 等人(2025)通过强化学习优化工具使用能力。此外,Zhang 等人(2025)基于生成的边界框迭代裁剪图像,并通过生成交织自然语言和明确边界框的推理链采取更直接的方法。

然而,现有方法仍存在一些局限性:(T1)过于依赖文本推理,忽视推理过程中动态的视觉注意力转移;(T2)缺乏连贯的推理链;(T3)一些方法依赖外部工具、专门的检测模型或不稳定的图像生成,而其他方法则忽略中间视觉信号,仅依赖基于结果的监督。因此,需要一种自适应且连贯的内在方法,使视觉基础推理成为可能——不仅让 MLLMs “思考”图像,还要动态聚焦并以类似人类的方式在图像区域间调整视觉注意力。

空间智能

现有的多模态大型语言模型(MLLMs)(如 Wu 等人 2024、Driess 等人 2023、Li 等人 2023b、Chen 等人 2022)主要基于 RGB 图像和文本数据进行训练,缺乏 3D 空间信息。因此,它们在需要空间推理的任务上表现有限。为解决这一局限性,最近的努力如 SpatialRGPT(Cheng 等人)通过构建专门的空间导向问答数据集并相应地微调模型,增强了 MLLMs 的空间推理能力。为了进一步强调综合推理能力,SSR(Liu 等人 2025b)将深度图像作为额外输入,而 SpatialBot(Cai 等人 2024)则利用深度估计工具获取关键感知区域的空间先验。然而,这些空间感知方法仅关注推理,未能与视觉基础实现深度整合——这两个过程在人类视觉感知中是根本上相互依存的。

如图 1 所示,SIFThinker 将深度增强的图像焦点区域纳入思维过程,使空间基础的视觉焦点成为可能。SIFThinker 可以迭代分析和优化感兴趣区域,最终提供更准确的最终响应。在接下来的章节中,我们将详细描述数据生成流程、空间感知图像焦点训练范式以及 GRPO-SIF。

数据生成

为了模拟人类观察空间场景的方式,我们设计了一个结合深度的焦点机制来进行数据生成。具体而言,我们构建了 SIF-50K 数据集,该数据集包含两个部分:(1)一个定制的细粒度推理子集,来源于 Flickr30k(Plummer 等人,2015)、Visual7W(Zhu 等人,2016)、GQA(Hudson 和 Manning,2019)、Open Images(Kuznetsova 等人,2020)、VSR(Liu, Emerson 和 Collier,2023)以及 Birds-200-2021(Wah 等人,2011)中的空间场景,基于 VisCoT(Shao 等人,2024b);(2)一个从 TallyQA(Acharya, Kafle 和 Kanan,2019)中重新采样的多实例子集。所有源数据集都包含真实的边界框(b-boxes)标注。如算法 1 所示,对于每一组问题-图像-边界框-答案对 (Q,I,Bgt,R)(Q, I, B_{gt}, R)(Q,I,Bgt,R),我们首先应用逆向扩展程序,然后基于 DepthAnythingV2(Yang 等人,2024)和 Doubao-1.5-vision-pro(Guo 等人,2025a)对扩展区域进行前向推理。这个过程最终生成了 SIF-50K 数据集,表示为 P={(Q,I,D1,Bgt,R,Rcot)}P = \{(Q, I, D_1, B_{gt}, R, R_{cot})\}P={(Q,I,D1,Bgt,R,Rcot)}

空间感知图像焦点训练范式

方法概述。我们提出了一种两阶段的流程来整合空间感知的接地推理。第一阶段是预热监督微调阶段,该阶段使模型倾向于生成具有明确焦点区域的结构化推理链,从而得到模型 MsFTM_{sFT}MsFT。随后是强化学习阶段,进一步优化和细化这些接地行为,生成最终模型 MRLM_{RL}MRL。对于监督微调(SFT),我们使用 SIF-50K 的完整数据集,得到 PsFT=(Q,I,D1,Rcot)P_{sFT} = (Q, I, D_1, R_{cot})PsFT=(Q,I,D1,Rcot)。对于强化学习(RL,详见下一节),为了在最小监督下促进渐进式学习,我们从 SIF-50K 中抽取 200 个实例,形成一个较小的集合 PrL=(Q,I,D1,Bgt,R)P_{rL} = (Q, I, D_1, B_{gt}, R)PrL=(Q,I,D1,Bgt,R)

强化学习与 GRPO-SIF 的总结 (中文)

RL 公式化

基于 Group-Relative Policy Optimisation (GRPO) 方法(Shao 等人,2024c),MsFT 模型被框架化为一个策略 TeT_eTe,该策略根据输入 (Q,I,D1)(Q, I, D_1)(Q,I,D1) 生成输出序列。在训练过程中,对于每个问题-图像-深度图像对 (Q,I,D1)(Q, I, D_1)(Q,I,D1),GRPO-SIF 通过策略 ToT_oTo 采样一组 NNN 个候选完成 {o1,...,oN}\{o_1, ..., o_N\}{o1,...,oN},并通过最大化以下目标函数进行优化:

T(θ)=1N∑i=1N1∣σi∣∑t=1∣σi∣{min⁡[clip(ri,t,1−ϵ,1+ϵ)A^i,t,\mathcal{T}(\theta)=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{|\sigma_{i}|}\sum_{t=1}^{|\sigma_{i}|}\left\{\operatorname*{min}\left[\mathrm{clip}(r_{i,t},1-\epsilon,1+\epsilon)\hat{A}_{i,t},\right.\right. T(θ)=N1i=1Nσi1t=1σi{min[clip(ri,t,1ϵ,1+ϵ)A^i,t,

其中 ri,t=πθ(O,t∣q,Oi,<t)r_{i,t} = \pi_\theta(O,t|q,O_{i,<t})ri,t=πθ(O,tq,Oi,<t) 表示在步骤 ttt 时新旧策略之间的比率,ϵ\epsilonϵβ\betaβ 是超参数。DKL[To∣∣Tref]D_{KL}[T_o || T_{ref}]DKL[To∣∣Tref] 使用无偏估计器(Schulman 2020)估计当前策略模型与参考模型之间的 KL 散度。对于每个完成 OrO_rOr,基于奖励组件的组合(详见下文)计算特定任务的奖励 ri,t=R(Q,I,D1,Bgt,R,o)r_{i,t} = R(Q, I, D_1, B_{gt}, R, o)ri,t=R(Q,I,D1,Bgt,R,o),并用这些奖励计算组归一化的优势值 A^i,t\hat{A}_{i,t}A^i,t

任务奖励 ri,tr_{i,t}ri,t 是一个复合信号,包括四个组成部分:空间感知的推理格式奖励 (rformatr_{format}rformat)、渐进式回答准确性奖励 (rans,tr_{ans,t}rans,t)、校正增强的接地奖励 (rbboxr_{bbox}rbbox)、深度一致性奖励 (rdepthr_{depth}rdepth)。这些组件旨在共同促进空间感知的接地推理,从而提供精确的答案。

层次交并比 (HIoU)

为了全面评估预测边界框 Bp={b1,b2,...,bn}B_p = \{b_1, b_2, ..., b_n\}Bp={b1,b2,...,bn} 与真实边界框 BgtB_{gt}Bgt 之间的接地质量,提出了一种层次交并比 (HIoU) 计算方法,如图 2 所示。该设计通过结合全局和实例级别的补充组件,缓解了奖励欺骗问题(如人为提高 AP 奖励分数)。具体步骤如下:

  1. 首先计算全局 IoU (GIoU),量化预测边界框与真实边界框整体的空间一致性:

KaTeX parse error: Expected '}', got '\right' at position 405: …phi}_{1}^{g\,t}\̲r̲i̲g̲h̲t̲|}}.

  1. 接着,通过 Kuhn-Munkres 算法(Kuhn 1955)对预测边界框与真实边界框进行一对一的双向匹配,计算成对 IoU (PIoU)。令 M⊆Bp×BgtM \subseteq B_p \times B_{gt}MBp×Bgt 表示最大化总 IoU 的最优匹配集:

KaTeX parse error: Undefined control sequence: \L at position 83: …w}^{\mathrm{g}}\̲L̲_{\downarrow}^{…

然后,成对 IoU (PIoU) 得分为匹配对的平均值:

KaTeX parse error: Undefined control sequence: \slash at position 74: …t|\Lambda\!\!\!\̲s̲l̲a̲s̲h̲\Lambda\right|}…

最终 HIoU 得分为全局 IoU 和成对 IoU 准确性的平均值:

HIoU=GIoU+PIoU2.H I o U={\frac{G I o U+P I o U}{2}}. HIoU=2GIoU+PIoU.

Figure 2: Visualization of our proposed HIoU (left). The performance of GIoU and PIoU are illustrated respectively (right), highlighting the robustness against reward hacking.

推理格式奖励 (rformatr_{format}rformat)

该奖励鼓励模型生成符合指定特殊标记结构的推理输出,具体格式为:<think><area> </area><text></text></think><answer> </answer>。其中 <area>...</area> 必须包含带有深度信息的边界框的 JSON 格式表示,而 <text> 提供基于指定空间区域的合理解释。对于严格遵守此格式的响应,奖励值为 1.0。

渐进式回答准确性奖励 (rans,tr_{ans,t}rans,t)

该奖励结合最终答案的正确性与答案质量随时间的变化,提供比纯规则评估更稳健的信号。具体使用外部视觉语言模型(Doubao-1.5-vision-pro)作为评判者评估响应质量,奖励定义为:

rans,t=st+(st−mean{s1,t−1,⋅⋅⋅,sN,t−1})r_{\mathrm{ans},t}=s_{t}+(s_{t}-\mathrm{mean}\{s_{1,t-1},\cdot\cdot\cdot,s_{N,t-1}\}) rans,t=st+(stmean{s1,t1,,sN,t1})

其中 sts_tst 表示 Doubao 评判者在步骤 ttt 时基于问题、预测答案和真实答案给出的连续分数。项 (st−mean{s1,t−1,...,sN,t−1})(s_t - \mathrm{mean}\{s_{1,t-1},...,s_{N,t-1}\})(stmean{s1,t1,...,sN,t1}) 捕捉连续步骤之间的改进,鼓励模型响应的渐进式优化。

校正增强的接地奖励 (rbboxr_{bbox}rbbox)

鉴于输出格式的结构化特性,可明确提取推理过程中生成的边界框序列,从而实现对逐步接地的细粒度跟踪。令 BiniB_{ini}Bini 表示推理轨迹中首个不覆盖整个图像的边界框,BendB_{end}Bend 表示最终边界框。奖励由最终接地准确性 send=HIoU(Bend,Bgt)s_{end} = HIoU(B_{end}, B_{gt})send=HIoU(Bend,Bgt) 和校正感知的改进项 send−sinits_{end} - s_{init}sendsinit 组成:

rbbox=send+(send−sinit).r_{\mathrm{bbox}}\ =\,s_{\mathrm{end}}+(s_{\mathrm{end}}-s_{\mathrm{init}}). rbbox =send+(sendsinit).

深度一致性奖励 (rdepthr_{depth}rdepth)

空间感知模型应准确捕捉与每个指定区域相关的深度值。为解决幻觉导致的深度不一致问题,对推理过程中生成的深度标记进行逐步验证。对于每个边界框-深度对 (B,d)(B, d)(B,d),从深度图 D1D_1D1 中提取对应的真实深度 dgtd_{gt}dgt,要求绝对误差小于阈值 T=0.1T = 0.1T=0.1。奖励仅在整个推理轨迹的深度值均满足一致性标准时分配:

rdepth=I(∀i:∣di−digt∣digt≤T),r_{\mathrm{depth}}=\mathbb{I}\left(\forall i:{\frac{|d_{i}-d_{i}^{\mathrm{gt}}|}{d_{i}^{\mathrm{gt}}}}\leq T\right), rdepth=I(i:digtdidigtT),

其中 I()\mathbb{I}()I() 为指示函数。

实验

我们对 SIFThinker 与多种最先进(SOTA)方法在不同类别上的表现进行了评估。关于数据集和评估指标的更多细节列于补充材料中。

我们将我们的方法与多种 SOTA 方法在多个空间理解基准测试上进行了比较。得益于我们空间感知的图像思考训练范式,我们的模型展示了卓越的 3D 理解能力。如表 1 所示,在相同的基础模型下,我们的方法在 SpatialBench(Cai 等人,2024)上比 SpatialBot(Cai 等人,2024)提高了 7.82%(64.3 对 59.6),比 SSR(Liu 等人,2025b)提高了 11.17%(74.5 对 67.1)。此外,我们在更大规模的基准测试 SAT(Static)(Ray 等人,2024)和 CV-Bench(Tong 等人,2024)上评估了我们的方法,分别比 Qwen2.5-VL-7B 基础模型提高了 11.15%(72.8 对 65.5)和 3.97%(75.9 对 73.0)。尽管 SpatialBot 和 SSR 都引入了深度图像以增强空间理解,但我们认为深度感知和空间 grounding 本质上是互补的。通过引入对空间 grounding 区域的推理,我们的方法取得了更显著的改进。我们进一步与代表性的 SOTA 闭源模型——ChatGPT-o3(OpenAI,2025)进行了比较。在 SpatialBench 上,SIFThinker 取得了与 o3 相当的平均分数(74.6 对 74.8)。值得注意的是,在 SAT-Static 上,我们的方法甚至以 8.01% 的显著优势超过了 o3(72.8 对 67.4),展示了 SIFThinker 在空间感知方面的卓越能力。

表 1:空间感知评估结果,涵盖 SpatialBench(位置、存在、计数、大小)、SAT(Static)和 CV-Bench。Bunny-LLaMA3-8B 和 Qwen2.5-VL-7B 分别作为第三和第四组的基础模型。最佳结果已高亮显示。

视觉感知

在本节中,我们全面评估了该方法在视觉理解、grounding 能力和自纠错能力方面的视觉感知能力。

视觉理解:我们从 VisCoT 中选择了与场景相关的(例如非平面)子集作为 VisCoT-s,并从 VBench 中选择了属性和空间子集。如表 2 所示,在 VisCoT-s 数据集上,在相同的 LLaVA-1.5-7B 基础模型下,SIFThinker 比 VisCoT 提高了 11.76%(0.751 对 0.672)。以 Qwen2.5-VL-7B 作为训练的基础模型,我们比 VisRL 提高了 8.89%(0.760 对 0.698)。VBench 在高分辨率图像上的细粒度感知评估更具挑战性。值得注意的是,我们的方法在属性子集上比最先进的方法 SEAL 提高了 5.75%(0.791 对 0.748),在空间子集上提高了 1.70%(0.776 对 0.763)。与 VisCoT、VisRL 和 SEAL 不同,SIFThinker 不依赖于分阶段的裁剪图像过程。

Table 2: Visual perception performance on VisCoT-s and V*Bench. # indicates methods trained on the same SIF-43k datase1as ours. For the same base models, the best is highlighted.

Table 3: Performance (Top-1 Accuracy@0.5) on Referring Expression Comprehension tasks and performance (NMS-AP) on Open-Vocabulary Detection tasks.

论文摘要(中文)

以下是对所提供学术论文部分的中文总结,保留了原文中的Markdown图片部分,并将其放置在适当位置。

通用视觉语言模型基准测试

正如表4所示,我们报告了在广泛使用的通用基准测试上的结果,包括MME(Fu等人,2024)的感知部分(MMEP)、MME认知部分(MMEC)、MMBench(Liu等人,2024b)的测试和开发集(分别表示为MMBT和MMBD)、SEED-Bench(Li等人,2023a)的图像部分(SEED-I)、VQAV2(Goyal等人,2017)的测试-开发分割,以及POPE(Li等人,2023c)(以COCO验证集上三个类别的平均F1分数衡量)。在大多数这些基准测试中,SIFThinker不仅避免了性能下降,甚至取得了显著的改进,展示了我们方法的稳健性——特别是在深度信息有益的场景下。在相同的基准模型下,SIFThinker始终优于专注于细粒度视觉感知的VisCoT和强调空间推理的SpatialBot。值得注意的是,在MMBT上,SIFThinker在不同的基准模型设置下实现了约4%的改进(在LLaVA-1.5-7B上为69.3 vs. 66.5,在Bunny-Llama3-8B上为76.8 vs. 73.7,在Qwen2.5-VL-7B上为83.4 vs. 80.3)。

Table 5: Performance on different ablated settings in terms of Qwen2.5-VL-7B.

消融研究

在本节中,我们在表5中展示了全面的消融研究。VQA-SFT指的是直接在原始问答对上应用SFT,这些问答对是构建SIF-50K的源数据,而CoT-SFT则利用了算法1中引入的思维链(Chain-of-Thought, CoT)构建策略。这表明引导模型通过图像进行思考可以带来显著的性能提升,达到了8.58%(0.582 vs. 0.536)。然而,仅使用SFT主要帮助模型学习输出格式,在某些情况下(例如GQA)甚至会导致性能下降。相比之下,引入强化学习(RL)带来了持续且显著的改进,相较于仅使用SFT实现了额外的30.58%的提升(0.760 vs. 0.582)。我们进一步对各种RL奖励(包括w/o rans, t, rbbox, rdepth)进行了消融实验,并评估了深度信息(w/o D1)的影响。结果表明,观察到的性能提升主要归因于三个关键因素:1)通过图像思考的推理范式,促进了空间 grounding 的认知;2)精心设计的边界框预测和响应生成的奖励函数,协同工作以鼓励迭代修正和优化;3)深度输入的加入,增强了模型在 grounding 过程中的空间智能。这些设计共同形成了一个统一且稳健的空间感知视觉 grounding 框架,赋予模型通用推理能力,从而在多样化的基准测试中提升了性能。

结论与局限性

在本文中,我们提出了SIFThinker,一个空间感知的图像-文本交错推理框架。受人类在3D环境中基于提示驱动的搜索启发,SIFThinker在提供最终响应之前执行空间感知的 grounding。具体来说,我们引入了一种新颖的管道,用于生成针对通过图像思考推理的CoT数据集,实现了过程级别的监督。基于此数据集,我们提出了GRPO-SIF,不仅纳入了区域级别的校正信号,还提出了进度学习和深度一致性奖励。广泛的实验表明SIFThinker在多样化的基准测试中是有效的。

局限性与未来工作:由于SIFThinker是在单张图像上训练的,它可能在需要跨多张图像进行推理的动态空间场景中面临挑战。我们认为将其扩展到此类设置将具有更高的实际影响,值得未来研究。

训练数据集

我们基于CoT数据生成管道提出了用于训练的SIF-50K数据集。数据来源于VisCoT训练集(Shao等人,2024b)和TallyQA(Acharya, Kafe 和 Kanan,2019),每个源样本包含一个问题、图像、答案和真实的边界框。数据集统计信息在表6中提供。

基准测试

我们对一系列基准测试进行了评估,遵循每个基准定义的指标设置。

空间智能

SpatialBench:我们使用 SpatialBench(Cai 等人,2024)评估 MLLM 的空间理解能力,该数据集包含手动标注的专注于空间理解和推理的问答对。我们使用了四个类别:位置(34 个样本)、存在性(40 个样本)、计数(20 个样本)和大小(40 个样本)。

SAT(静态):SAT 数据集(Ray 等人,2024)包括静态和动态空间推理任务。我们选择了静态评估子集(单张图像),包含 127405 个样本。

CV-Bench:CV-Bench(Tong 等人,2024)包含 2638 个手动检查的样本,涵盖四个任务:空间关系、对象计数、深度顺序和相对距离。

视觉感知

VisCoT-s:VisCoT-s 是 VisCoT 数据集(评估部分)的一个子集(Shao 等人,2024b),包含多个场景特定的数据集(3D 信息可能有所帮助),包括 Flickr30k(Plummer 等人,2015)、VSR(Liu, Emerson 和 Collier,2023)、GQA(Hudson 和 Manning,2019)、Open Images(Kuznetsova 等人,2020)和 CUB(Wah 等人,2011)。具体来说,Flickr30k 包含大多数参考对象的边界框标注,在此基础上,Shao 等人(2024b)进一步利用 GPT-4 生成专门针对小对象的提问。视觉空间推理(VSR)、GQA 和 Open Images 数据集在图像实体之间的空间关系信息方面非常丰富。Birds-200-2011(CUB)数据集是一个广泛采用的细粒度视觉分类基准,包含高分辨率的鸟类图像以及详细的部位标注、属性标签和边界框。为了更好地在 MLLM 背景下利用该数据集,Shao 等人(2024b)设计了需要模型识别细粒度鸟类特征的探测问题,从而评估其详细视觉识别能力。

V*Bench:为了评估 MLLM 在复杂视觉场景(高密度、高分辨率图像)中的表现,我们使用了 V*Bench(Wu 和 Xie,2024),这是一个包含 191 张图像(平均分辨率:2246x1582)的基准测试,包含两个任务:属性识别(115 个样本)和空间关系推理(76 个样本)。这些任务评估模型的细粒度视觉理解能力。

视觉 grounding

RefCOCO/RefCOCO+/RefCOCOg:指代表达式理解(REC)可以直接使用预测边界框与真实边界框之间的交并比(IoU)作为明确的评估指标。因此,我们在 REC 基准测试上评估了多种方法,包括 RefCOCO(Kazemzadeh 等人,2014)、RefCOCO+(Mao 等人,2016)和 RefCOCOg(Mao 等人,2016)。RefCOCO 和 RefCOCO+ 通过交互式游戏收集数据,遵循标准的 val/testA/testB 划分,其中 testA 关注人类,testB 关注其他对象。RefCOCO+ 的查询中排除了绝对空间术语。RefCOCOg 以非交互方式收集,特征是更长且更具描述性的查询。我们遵循 Shao 等人(2024b)将 IoU 阈值设置为 0.5 用于准确率评估,即以 Top-1 Accuracy @0.5 作为评估指标。

OVDEval:OVDEval(Yao 等人,2023)是一个针对开放词汇检测任务的基准测试,包含 9 个子任务,评估常识推理、属性和空间理解、对象关系等。与 RefCOCO/RefCOCO+/RefCOCOg 相比,OVDEval 支持多对象 grounding,包含多个边界框标注。此外,我们采用了 OVDEval(Yao 等人,2023)中的非极大值抑制平均精度(NMS-AP)指标进行评估。

通用视觉语言模型基准测试

我们进一步在五个通用基准测试上评估了模型,如正文表4中总结的那样:

  • MME(Fu等人,2024):通过14个子任务评估感知和认知能力;
  • MM-Bench(Liu等人,2024b):一个系统设计的基准测试,覆盖20个能力维度,用于稳健、全面的评估;
  • SEED-Bench(Li等人,2023a):包含19242个多选题,拥有高质量的人工标注,涵盖图像和视频模态的12个评估维度;
  • VQA(Goyal等人,来自COCO和抽象场景):需要视觉、语言和常识理解;
  • POPE(Li等人,2023c):将幻觉评估框架化为二元对象存在问题。

关于评估划分的更多细节已在正文第4节中详细说明。

实现细节

实验设置

我们在配备8个NVIDIA H2096GB和Intel® Xeon® Platinum 8457C(180核)的机器上执行所有实验。

超参数设置

以Qwen2.5-VL-7B为例,在SFT阶段,我们使用了完整的SIF-50k数据集,将LORA秩(即rrr)设置为8,训练3个epoch,学习率为1e−41e-41e4。在RL阶段,我们仅从SIF-50k数据集中抽取了200个样本。我们采用了默认的GRPO超参数设置,将NNN配置为8,KL散度比(即β\betaβ)为0.04,LORA秩(即rrr)为64,并以学习率1e−51e-51e5训练20个epoch。SFT和RL阶段的最大完成长度均设置为2028个token。

在这里,我们展示了我们方法中使用的提示设计。具体来说,为了让SIFThinker采用“与图像一起思考”的生成范式,我们使用了图5中所示的提示。在数据生成管道的最后阶段,当使用高级模型完成CoT推理时,我们应用了图6中描述的提示。

表6:SIF-50K数据集概述。该数据集涵盖四个不同领域,并包括多个来源数据集。原始图像:\n深度图像:\n {problem} 请先在 标签中输出思考过程,其中包含深度的边界框用 标签包围,文本分析用 标签包围,交替使用它们以迭代优化焦点区域。然后在 标签中输出最终答案。

图5:专门设计的提示,用于指导模型生成交错的图像-文本推理链,在推理过程中始终附加。

图6中描述了用于CoT生成的提示,作为我们数据生成管道中构建SIF-50K数据集的基础。对于RL阶段答案的奖励计算以及基准评估,我们使用了图7中提供的提示。最后,对于REC和OVD任务的推理,我们分别采用了图8和图9中所示的提示模板。

CoT完成提示

图6:用于CoT生成的提示,作为我们数据生成管道中构建SIF-50K数据集的基础。

判断答案准确性的提示

系统提示

您负责校对答案,需要根据给定的问题和图像,参考标准答案对模型的回答进行评分。满分为1分,最低分为0分。请直接以JSON格式提供分数,例如{“score”:0.8},无需展示中间过程。评估标准要求模型答案与标准答案越接近,分数越高。

提示

问题:{question}
标准答案:{gt_response}
模型答案:{pred_response}

图7:设计用于评估模型生成答案与真实答案准确性的提示,用于计算奖励和基准评估。

REC任务的提示模板

请提供此句子描述区域的边界框坐标:{query}

图8:为评估模型在指代表达理解(REC)任务上的表现而设计的提示。

开放词汇检测(OVD)的提示模板

论文内容摘要(中文):

本文介绍了用于评估模型在开放词汇检测(OVD)任务中表现的提示模板。提示内容为:“请仔细检查图像并检测以下对象:{targetlist}。如果图像中没有这些目标对象,请简单回复‘None’。” 通过这一提示,模型需要在图像中识别指定的目标对象,并在未发现目标时做出相应反馈。此外,文中还提到在图9中展示了为OVD任务设计的提示内容。

在图10、11、12和13中,作者进一步展示了SIFThinker的更多可视化结果。对于每个问题-图像对,展示了深度解释器生成的深度图,并突出显示了SIFThinker在交错的图像-文本推理过程中关注的区域(红色边界框)。同时,还提供了真实的标注数据以供对比。

以下是原文中包含的图像部分,保持其原始格式和位置:


Figure 9: Prompt designed for evaluating model performance on the Open-Vocabulary Detection (OVD) task

More visualization

In Fig. 10, 11, 12, and 13, we present additional visualizations of SIFThinker. For each question-image pair, we show the depth map generated by the depth interpreter, highlight the focused regions (red bounding boxes) of SIFThinker during the interleaved image-text reasoning. Ground-truth annotations are also provided for comparison.

# Ground truth: white

# Ground truth: blue

Ground truth: GUESTTEAM
Input: From the information on the black framed board, how long do we have to wait in line for this attraction?

The wait time for the attraction is 10 minutes # Ground truth: 10 minutes

Original Abstract: Current multimodal large language models (MLLMs) still face significant
challenges in complex visual tasks (e.g., spatial understanding, fine-grained
perception). Prior methods have tried to incorporate visual reasoning, however,
they fail to leverage attention correction with spatial cues to iteratively
refine their focus on prompt-relevant regions. In this paper, we introduce
SIFThinker, a spatially-aware “think-with-images” framework that mimics human
visual perception. Specifically, SIFThinker enables attention correcting and
image region focusing by interleaving depth-enhanced bounding boxes and natural
language. Our contributions are twofold: First, we introduce a
reverse-expansion-forward-inference strategy that facilitates the generation of
interleaved image-text chains of thought for process-level supervision, which
in turn leads to the construction of the SIF-50K dataset. Besides, we propose
GRPO-SIF, a reinforced training paradigm that integrates depth-informed visual
grounding into a unified reasoning pipeline, teaching the model to dynamically
correct and focus on prompt-relevant regions. Extensive experiments demonstrate
that SIFThinker outperforms state-of-the-art methods in spatial understanding
and fine-grained visual perception, while maintaining strong general
capabilities, highlighting the effectiveness of our method.

PDF Link: 2508.06259v1

部分平台可能图片显示异常,请以我的博客内容为准

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:
http://www.pswp.cn/news/918418.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/918418.shtml
英文地址,请注明出处:http://en.pswp.cn/news/918418.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习嵌入式第二十五天

IO 1.概念 IO指input/outputLinux中一切皆文件IO的操作对象是文件 2.文件一段数据的集合文件通常存放在外存中&#xff0c;掉电后数据不丢失分类b(block&#xff0c;块设备文件) 按块扫描信息的文件。通常存储类型的设备为块设备文件。文件IOc(character&#xff0c;字符设备文…

本地部署接入 whisper + ollama qwen3:14b 总结字幕

1. 实现功能 M4-1 接入 whisper ollama qwen3:14b 总结字幕 自动下载视频元数据如果有字幕&#xff0c;只下载字幕使用 ollama 的 qwen3:14b 对字幕内容进行总结 2.运行效果 &#x1f50d; 正在提取视频元数据… &#x1f4dd; 正在下载所有可用字幕… [youtube] Extracting U…

【13-向量化-高效计算】

研究者能够扩展神经网络并构建非常大型网络的原因之一&#xff0c;就是神经网络可以被向量化&#xff0c;vectorized&#xff1b;可以非常高效地用矩阵地乘法实现。 事实上&#xff0c;并行计算硬件&#xff0c;例如GPU&#xff0c;一些CPU的功能&#xff0c;非常擅长进行非常大…

论文中PDF的公式如何提取-公式提取

Mathcheap - An AI-powered, free alternative to Mathpix Snip. 从PDF中截图公式&#xff0c;之后 ctrl V 转换成功 &#xff0c;提取成功 复制到word中&#xff0c;是这样的 这显然不是我们需要的。 可以使用Axmath 复制进去Axmath 就能正常显示公式。 之后再插入word…

用 Flink SQL 和 Paimon 打造实时数仓:深度解析与实践指南

1. 实时数仓的魅力&#xff1a;从离线到分钟级的飞跃实时数仓&#xff0c;听起来是不是有点高大上&#xff1f;其实它没那么神秘&#xff0c;但确实能让你的数据处理能力像坐上火箭一样飙升&#xff01;传统的离线数仓&#xff0c;像 Hadoop 生态的 Hive&#xff0c;动辄小时级…

【已解决】报错:WARNING: pip is configured with locations that require TLS/SSL

一、问题背景二、问题分析1. SSL模块缺失的本质2. Anaconda环境特点三、问题表现四、解决方案详解1. 完整配置环境变量2. 添加环境变量的步骤3. 测试验证五、实战示例六、附加建议七、总结八、参考链接一、问题背景 在Windows 10系统中使用Python的包管理工具pip时&#xff0c…

Java项目基本流程(三)

一、页面初始化阶段&#xff08;加载即执行&#xff09;加载栏目列表&#xff08;同步请求&#xff09;发送同步 AJAX 请求到SearchChannel接口&#xff0c;获取所有栏目数据。清空下拉框&#xff08;.channelid&#xff09;后&#xff0c;先添加 “全部” 选项&#xff0c;再循…

鹧鸪云光伏仿真:项目前期决策的“数据明灯”

曾有一处光伏项目&#xff0c;在精心筹备数月后终于建成&#xff0c;却在运行初期即因未充分评估山体遮挡影响&#xff0c;导致实际发电量较预期大幅降低近一成。前期决策中的微小疏漏&#xff0c;往往成为项目经济性与可行性的致命伤。而鹧鸪云光伏仿真软件正是一盏照亮前路的…

开发指南129-基础类-BaseController

所有接口都需要继承BaseControllerBaseController里有很多有用的方法&#xff0c;现举例最重要的几个&#xff1a;1、getURI返回接口地址&#xff0c;就是PostMapping或GetMapping中定义的接口地址。常用于返回值中&#xff0c;例如接口的异常处理&#xff1a;try {// 处理逻辑…

C++高频知识点(十八)

文章目录86. C多线程中&#xff0c;锁的实现方式有哪些&#xff1f;1. 互斥锁&#xff08;Mutex&#xff09;2. 递归互斥锁&#xff08;Recursive Mutex&#xff09;3. 读写锁&#xff08;Shared Mutex&#xff09;4. 自旋锁&#xff08;Spinlock&#xff09;5. 条件变量&#…

【C语言强化训练16天】--从基础到进阶的蜕变之旅:Day1

&#x1f525;个人主页&#xff1a;草莓熊Lotso &#x1f3ac;作者简介&#xff1a;C研发方向学习者 &#x1f4d6;个人专栏&#xff1a; 《C语言》 《数据结构与算法》《C语言刷题集》《Leetcode刷题指南》 ⭐️人生格言&#xff1a;生活是默默的坚持&#xff0c;毅力是永久的…

【软考中级网络工程师】知识点之 TCP 协议深度剖析

目录一、TCP 协议简介二、TCP 协议的特点2.1 面向连接2.2 可靠性高2.3 拥塞控制2.4 全双工通信2.5 高效性2.6 支持多种应用协议2.7 可靠的错误恢复三、TCP 协议的工作机制3.1 三次握手建立连接3.2 数据传输3.3 四次挥手关闭连接四、TCP 协议的数据包格式五、TCP 协议在实际应用…

操作系统1.5:操作系统引导

目录 总览 什么是操作系统引导&#xff1f; 磁盘里边有哪些相关数据? 操作系统引导(开机过程&#xff09; 总览 什么是操作系统引导&#xff1f; 操作系统引导(boot)——开机的时候&#xff0c;怎么让操作系统运行起来? 磁盘里边有哪些相关数据? 一个刚买来的磁盘(硬…

[鹧鸪云]光伏AI设计平台解锁电站开发新范式

1.[鹧鸪云]平台概述[鹧鸪云]是由鹧鸪云&#xff08;徐州&#xff09;信息技术有限公司倾力打造的&#xff0c;可以媲美‌PVsyst的光伏AI设计平台。它为光伏项目不同阶段的开发提供了快速设计、卫星地图设计、无人机3D设计、Unity3D设计、专业绘图设计与场区设计多种设计方式&am…

docker compose和docker-compose命令的区别

Docker Compose 有两种命令形式&#xff1a;docker compose&#xff08;空格连接&#xff09;docker-compose&#xff08;短横线连接&#xff09;其核心区别如下&#xff1a;一、技术特性docker-compose&#xff08;短横线&#xff09;独立可执行文件&#xff1a;作为独立程序安…

基于Strands Agent开发辅助阅读Agent

序 本篇由来&#xff0c;在COC上我当面感谢了组委会和姜宁老师&#xff0c;随即被姜宁老师催稿&#xff0c;本来当天晚上写了一个流水账&#xff0c;感觉甚为不妥。于是决定慢慢写&#xff0c;缓缓道来。要同时兼顾Show me the code&#xff0c;Show me the vide。希望能形成一…

20250807简单树上问题

引入 树是一种特殊的图&#xff0c;因其看起来像一颗倒挂的树而得名。 树有许多等价的形式化定义&#xff0c;我们这里只取一个&#xff1a;nnn个点n−1n-1n−1条边的无向连通图。 树的直径 定义树上任意两点之间最长的简单路径为树的直径。 一棵树可能有很多直径&#xff0c…

诺基亚就4G/5G相关专利起诉吉利对中国汽车及蜂窝模组企业的影响

诺基亚于2025年7月18日向欧洲统一专利法院&#xff08;UPC&#xff09;曼海姆分庭和德国慕尼黑法院提起诉讼&#xff0c;控诉中国吉利控股集团及其极氪、领克、路特斯、Smart等关联品牌在未经许可的情况下使用诺基亚4项蜂窝通信标准必要专利 。涉案专利包括1项覆盖4G/5G的标准必…

Kotlin反射详解

反射是一种机制&#xff0c;它允许我们在运行时检查、修改和操作类或对象的内部结构。反射开启了动态编程的可能性&#xff0c;在开发库、框架或工具等场景中非常有用。Java 中的反射 在 Java 中&#xff0c;反射一直是实现动态编程的重要基石。它允许开发者在不提前知道类名的…

学习嵌入式-IMX6ULL学习——中断

volatile&#xff1a;易变的&#xff0c;防止系统优化对寄存器做处理的时候使用&#xff0c;在进行写1清零操作时&#xff0c;防止该操作被系统优化&#xff1b;一、GIC通用中断控制器1.GIC通用中断控制器GIC接收众多外部中断&#xff0c;然后对其进行处理&#xff0c;最终通过…