论文阅读 | CVPR 2024 | UniRGB-IR:通过适配器调优实现可见光-红外语义任务的统一框架​

  • 1&&2. 摘要&&引言
  • 3.方法
    • 3.1 整体架构
    • 3.2 多模态特征池
    • 3.3 补充特征注入器
    • 3.4 适配器调优范式
  • 4 实验
    • 4.1 RGB-IR 目标检测
    • 4.2 RGB-IR 语义分割
    • 4.3 RGB-IR 显著目标检测
    • 4.4 消融研究
    • 4.5 可视化分析
  • 5 结论

在这里插入图片描述

题目:UniRGB-IR: A Unified Framework for Visible-Infrared
Semantic Tasks via Adapter Tuning

期刊:Computer Vision and Pattern Recognition(CVPR)

论文:paper

代码:code

年份:2024

1&&2. 摘要&&引言

由于可见光(RGB)和红外(IR)图像在低光照和恶劣天气等挑战性条件下能提供更高的准确性和鲁棒性,对它们的语义分析已受到广泛关注。

然而,由于缺乏在大规模红外图像数据集上预训练的基础模型,现有方法倾向于设计特定于任务的框架,并直接在它们的RGB-IR语义相关数据集上使用预训练的基础模型进行微调,这导致了可扩展性差和泛化能力有限的问题。

为了克服这些限制,我们提出了UniRGB-IR,这是一个用于RGB-IR语义任务的可扩展且高效的框架,它引入了一种新颖的适配器机制,能够有效地将丰富的多模态特征融入预训练的基于RGB的基础模型中。

我们的框架包含三个关键组件:一个视觉变换器(ViT)基础模型、一个多模态特征池(MFP)模块和一个补充特征注入器(SFI)模块。MFP和SFI模块相互协作作为一个适配器,有效地利用上下文多尺度特征来补充ViT特征。在训练过程中,我们冻结整个基础模型以继承先验知识,仅优化MFP和SFI模块。

在这里插入图片描述

图1:现有全微调方法 vs. 我们的UniRGB-IR框架。(a) 现有方法使用预训练的基于RGB的基础模型,并在其RGB-IR语义相关数据集上对其进行全微调。(b) 我们利用适配器[18]提出一个统一框架,能够高效地将更丰富的RGB-IR特征引入预训练的基础模型,用于各种语义任务。​

总体而言,我们的贡献总结如下:​​

  • 我们探索了一个名为UniRGB-IR的可扩展且高效的框架,用于RGB-IR语义任务。据我们所知,这是首次尝试为各种RGB-IR下游任务构建统一框架。
  • 我们设计了一个多模态特征池(MFP)模块和一个补充特征注入器(SFI)模块。前者从两种模态图像中提取上下文多尺度特征,后者将所需特征动态注入预训练模型。这两个模块可以通过适配器调优范式进行高效微调,以用更丰富的RGB-IR特征补充预训练的基础模型,用于特定的语义任务。
  • 我们将视觉变换器基础模型纳入UniRGB-IR框架,以评估我们方法在RGB-IR语义任务上的有效性,包括RGB-IR目标检测、RGB-IR语义分割和RGB-IR显著目标检测。广泛的实验结果表明,我们的方法可以在这些下游任务上高效地实现卓越的性能。

3.方法

3.1 整体架构

UniRGB-IR 的整体框架如图 2 所示,它包含三个部分:视觉变换器 (Vision Transformer, ViT) 模型、多模态特征池 (Multi-modal Feature Pool, MFP) 模块和补充特征注入器 (Supplementary Feature Injector, SFI) 模块。

在这里插入图片描述

在我们的框架中,ViT 模型被用作预训练的基础模型,并在训练过程中冻结。具体来说,对于 ViT 模型,RGB 图像直接输入到块嵌入 (patch embedding) 过程中以获得 D 维特征标记 (token),其分辨率通常是原始图像的 1/16。

为了补充各种 RGB-IR 语义任务所需的更丰富特征,我们将 RGB 和 IR 图像输入到 MFP 模块中,以从两种模态中提取上下文多尺度特征(例如,原始图像分辨率的 1/8、1/16 和 1/32)。之后,这些更丰富的特征通过 SFI 模块动态注入到 ViT 模型的特征中,这可以自适应地将所需的 RGB-IR 特征引入 ViT 模型。为了将提取的特征完全集成到 ViT 模型中,我们在每个 ViT 阶段 (stage) 开始时添加一个 SFI 模块。因此,经过 N 个阶段的特征注入后,来自 ViT 模型的最终特征可以用于各种 RGB-IR 语义任务。

3.2 多模态特征池

为了补充 RGB-IR 语义任务的丰富特征表示,我们引入了多模态特征池 (MFP) 模块,包括多感知 (multiple perception) 和特征金字塔 (feature pyramid)。前者可以使用不同的卷积核提取具有长距离建模能力的上下文特征。与增加模型宽度或深度的现有工作[17,64]不同,我们在通道维度上高效地实现了多感受野感知。至于特征金字塔,它可以获得多尺度特征以增强小目标特征。因此,这两个操作串联连接以构建 MFP 模块,如图 3 所示。

在这里插入图片描述

具体来说,对于输入的 RGB(H×W×3) 和 IR(H×W) 图像,我们首先使用从 ResNet[16] 借鉴的 stem 块来提取两种模态的特征 F1rgbF_{1}^{rgb}F1rgbF1ir∈RH/4×W/4×CF_{1}^{ir} \in R^{H/4 \times W/4 \times C}F1irRH/4×W/4×C。然后,利用通道分割 (channel splitting) 将这两个特征分成四个相等的部分。为了提取多感受野感知,每个部分都经过不同核大小(3×3, 3×3, 5×5 和 7×7)的卷积操作。然后,我们使用 SE 注意力[19](如图 3 所示)融合来自两种模态的每个处理后的特征。因此,我们连接每个融合部分以获得 RGB-IR 上下文特征 FfusF_{fus}Ffus,其公式表示为:
Ffus=Γk=14(Fus⁡(Wkrgb∗fkrgb,Wkir∗fkir)),(1)F_{fus}=\Gamma_{k=1}^4\left(\operatorname{Fus}\left(W_k^{rgb}* f_k^{rgb}, W_k^{ir}* f_k^{ir}\right)\right),\qquad(1)Ffus=Γk=14(Fus(Wkrgbfkrgb,Wkirfkir)),(1)
其中 Ffus∈RH/4×W/4×CF_{fus} \in R^{H/4 \times W/4 \times C}FfusRH/4×W/4×C, fkrgbf_k^{rgb}fkrgbfkirf_k^{ir}fkir 分别是 F1rgbF_{1}^{rgb}F1rgbF1irF_{1}^{ir}F1ir 特征的第 k 部分,WkW_kWk 是第 k 个核大小的卷积,Γ\GammaΓ 是连接操作,Fus⁡(⋅,⋅)\operatorname{Fus}(\cdot,\cdot)Fus(,) 表示图 3 所示的融合模块。

对于特征金字塔,应用了一组三个步长 (stride)=2 的 3×3 卷积来下采样特征图的大小。然后,每个尺度的特征被输入到一个 1×1 卷积中,将特征图投影到 D 维。因此,我们可以获得一组多尺度特征 {F2,F3,F4}\{F_2, F_3, F_4\}{F2,F3,F4},其分辨率分别为原始图像的 1/8、1/16 和 1/32。最后,我们将这些特征展平 (flatten) 并连接 (concatenate) 成特征标记 Fmfp∈R(HW82+HW162+HW322)×DF_{mfp} \in R^{\left(\frac{HW}{8^{2}} + \frac{HW}{16^{2}} + \frac{HW}{32^{2}}\right) \times D}FmfpR(82HW+162HW+322HW)×D,它将用作 ViT 基础模型的补充特征。

3.3 补充特征注入器

为了在不改变 ViT 结构的情况下自适应地引入上下文多尺度特征,我们提出了一个补充特征注入器 (SFI) 模块,如图 4 所示。

在这里插入图片描述

由于上下文多尺度特征 FmfpF_{mfp}Fmfp 和 ViT 特征 FvitiF_{vit}^{i}Fviti 的序列长度不同,为了解决这个问题,我们采用稀疏注意力(例如 Pale Attention[62] 和 Deformable Attention[89])来动态地从每个尺度采样补充特征。具体来说,我们利用 ViT 特征 Fviti∈RHW162×DF_{vit}^{i} \in R^{\frac{HW}{16^{2}} \times D}FvitiR162HW×D 作为查询 (query),利用上下文多尺度特征 Fmfp∈R(HW82+HW162+HW322)×DF_{mfp} \in R^{\left(\frac{HW}{8^{2}} + \frac{HW}{16^{2}} + \frac{HW}{32^{2}}\right) \times D}FmfpR(82HW+162HW+322HW)×D 作为键 (key) 和值 (value),其可以表示为:
F~sfii=Attention⁡(LN(Fviti),LN(Fmfp)),\tilde{F}_{sfi}^{i} = \operatorname{Attention}\left(LN\left(F_{vit}^{i}\right), LN\left(F_{mfp}\right)\right),F~sfii=Attention(LN(Fviti),LN(Fmfp)),
其中 Attention⁡(⋅)\operatorname{Attention}(\cdot)Attention() 是稀疏注意力,LN(⋅)LN(\cdot)LN() 是 LayerNorm[1],旨在减少训练期间的模态差异。

此外,我们采用渐进式注入 (progressive injection) 来引入上下文多尺度特征,这可以平衡基础模型特征和注入的特征 F~sfii\tilde{F}_{sfi}^{i}F~sfii。因此,我们探索了一个门控网络 (gating network) 来预测融合权重 zzz,以门控 (gate) Fsfii−1F_{sfi}^{i-1}Fsfii1F~sfii\tilde{F}_{sfi}^{i}F~sfii 进行动态融合。具体来说,我们将两个特征 Fsfii−1F_{sfi}^{i-1}Fsfii1F~sfii\tilde{F}_{sfi}^{i}F~sfii 连接起来,并将其输入线性层以预测权重 zzz。然后,zzz1−z1-z1z 分别用于融合 Fsfii−1F_{sfi}^{i-1}Fsfii1F~sfii\tilde{F}_{sfi}^{i}F~sfii 特征。SFI 模块的最终输出特征 FsfiiF_{sfi}^{i}Fsfii 可以表示为:
Fsfii={F~sfii,i=1(1−z)∗F~sfii+z∗Fsfii−1,i=2…NF_{sfi}^i=\begin{cases}\tilde{F}_{sfi}^i,& i=1\\ (1-z)*\tilde{F}_{sfi}^i + z* F_{sfi}^{i-1},& i=2\ldots N\end{cases}Fsfii={F~sfii,(1z)F~sfii+zFsfii1,i=1i=2N

3.4 适配器调优范式

为了完全继承在大规模数据集上预训练的 ViT 的先验知识,我们探索了适配器调优范式 (Adapter Tuning Paradigm) 而非全微调 (Full Fine-tuning) 方式。

对于不同语义任务的数据集 D={(xj,gtj)}j=1MD=\{(x_j, gt_j)\}_{j=1}^{M}D={(xj,gtj)}j=1M,全微调过程计算预测值和真实值 (ground truth) 之间的损失,其可以表示为:
L(D,θ)=∑j=1Mloss⁡(Fθ(xj),gtj),(4)\mathcal{L}(D,\theta)=\sum_{j=1}^{M}\operatorname{loss}\left(F_{\theta}\left(x_{j}\right), gt_{j}\right), \qquad(4)L(D,θ)=j=1Mloss(Fθ(xj),gtj),(4)
其中 loss⁡\operatorname{loss}loss 表示损失函数,FθF_{\theta}Fθ 表示由 θ\thetaθ 参数化的整个网络。之后,θ\thetaθ 通过以下公式进行优化:
θ←arg⁡min⁡θL(D,θ).(5)\theta \leftarrow \underset{\theta}{\arg\min} \, \mathcal{L}(D,\theta). \qquad(5)θθargminL(D,θ).(5)

然而,在我们的适配器调优范式中,参数 θ\thetaθ 由两部分组成:一部分是原始 ViT 模型中的参数 θV\theta_VθV,另一部分是我们 UniRGB-IR 中的参数 θA\theta_AθA(即 MFP 和 SFI 模块的参数)。在训练期间,我们冻结参数 θV\theta_VθV,仅优化参数 θA\theta_AθA。因此,我们的损失函数和优化可以表示为:
L(D,θV,θA)=∑j=1Mloss⁡(FθV,θA(xj),gtj),(6)\mathcal{L}\left(D,\theta_{V},\theta_{A}\right)=\sum_{j=1}^{M}\operatorname{loss}\left(F_{\theta_{V},\theta_{A}}\left(x_{j}\right), gt_{j}\right), \qquad(6)L(D,θV,θA)=j=1Mloss(FθV,θA(xj),gtj),(6)
θA←arg⁡min⁡θAL(D,θV,θA).(7)\theta_{A} \leftarrow \underset{\theta_{A}}{\arg\min} \, \mathcal{L}\left(D,\theta_{V},\theta_{A}\right). \qquad(7)θAθAargminL(D,θV,θA).(7)

4 实验

为了评估我们提出的 UniRGB-IR 的有效性,我们利用在 COCO[34] 数据集上预训练的 ViT-Base 模型作为基础模型,并将该框架应用于执行 RGB-IR 语义任务。我们仅优化 MFP 和 SFI 模块。我们评估并比较了我们的方法与各种竞争模型,包括基于 CNN 和基于 Transformer 的模型。此外,我们的评估涵盖了多种任务,包括在 FLIR[73]、LLVIP[23] 和 KAIST[22] 数据集上的 RGB-IR 目标检测,在 PST900[47] 和 MFNet[15](见补充材料)数据集上的 RGB-IR 语义分割,以及在 VT821[57]、VT1000[54] 和 VT5000[52] 数据集上的 RGB-IR 显著目标检测。此外,还对设计的模块进行了消融实验和定性实验,以验证 UniRGB-IR 框架可以作为一个统一框架,有效地将 RGB-IR 特征引入基础模型以实现卓越的性能。

4.1 RGB-IR 目标检测

  • 数据集 (Datasets):
    • FLIR[73]: 这是一个配对的可见光和红外目标检测数据集,包含白天和夜间场景。它包含 4,129 个对齐的 RGB-IR 图像对用于训练,1,013 个用于测试。
    • LLVIP[23]: 该数据集包含 15,488 个对齐的 RGB-IR 图像对,其中 12,025 张图像用于训练,3,463 张图像用于测试。
    • KAIST[22]: 这是一个对齐的多光谱行人检测数据集,其中 8,963 个图像对用于训练,2,252 个图像对用于测试。
  • 评估指标 (Metrics):
    • 对于 FLIR 和 LLVIP 数据集,我们采用 平均精度均值 (mean Average Precision, mAP) 来评估检测性能。
    • 对于 KAIST 数据集,我们使用在每张图像误报数 (False Positives Per Image, FPPI) 范围 [10⁻², 10⁰] 上的 对数平均漏检率 (log-average miss rate, MR⁻²) 来评估行人检测性能。
  • 实验设置 (Settings):
    • 所有实验均在 NVIDIA GeForce RTX 3090 GPU 上进行。
    • 我们在 MMDetection 库上实现了我们的框架,并使用 Cascade R-CNN[3] 作为基本框架来执行 RGB-IR 目标检测。
    • 检测器使用初始学习率为 2×10⁻⁴ 训练 48 个周期 (epoch)。
    • 批量大小 (batch size) 设置为 16,使用 AdamW[41] 优化器,权重衰减 (weight decay) 为 0.1。
    • 也使用了水平翻转进行数据增强。
  • 结果 (Results):
    • FLIR 和 LLVIP 数据集上的结果: 如表 1 所示,我们将我们的方法与五种常见的单模态方法和四种有竞争力的多模态方法进行了比较。可以看出,大多数多模态检测器甚至比单模态检测器(例如 IR 模态的 Cascade R-CNN)还要差。这是因为在有限光照条件下,RGB 特征会干扰红外特征,对用于目标检测任务的融合特征产生了负面影响。然而,我们的 UniRGB-IR 通过 SFI 模块有效地解决了这个问题,使检测器能够实现更好的分类和定位过程。我们的方法在 FLIR 和 LLVIP 数据集上均取得了最佳性能(mAP 分别为 44.1% 和 63.2%)。
    • KAIST 数据集上的结果: 表 2 展示了在 KAIST 数据集“All-dataset”设置[22]下,不同方法在不同行人距离、遮挡程度和光照条件(白天和夜晚)下的结果。我们的模型在“All”、“Day”和“Night”条件以及其他五个子集(“Near”、“Far”、“None”、“Partial”和“Heavy”)中的四个上取得了最佳性能,仅在“Medium”子集上排名第二。此外,我们的检测器在“All”条件下超越了之前的最佳竞争对手 C2Former 3.18%(MR⁻² 从 28.39% 降至 25.21%),这表明 UniRGB-IR 对复杂场景具有鲁棒性。

表 1:在 FLIR 和 LLVIP 数据集上的 RGB-IR 目标检测结果 (mAP, %)。最佳结果标红,次佳结果标蓝。“-”表示作者未提供相应结果。

在这里插入图片描述

表 2:KAIST 数据集上不同距离、遮挡和光照条件下的 RGB-IR 行人检测结果 (MR⁻², %)。最佳结果标红,次佳结果标蓝。
在这里插入图片描述

4.2 RGB-IR 语义分割

  • 数据集 (Datasets):
    • PST900[47]: 该数据集包含 597 个图像对用于训练,288 个用于测试,包含五个类别(背景、灭火器、背包、手钻和幸存者)。数据集按照 2:1:1 的比例分为训练集、验证集和测试集。
    • MFNet[15]: (见补充材料)。
  • 评估指标 (Metrics):
    • 使用两个指标评估性能:平均准确率 (mean accuracy, mAcc)平均交并比 (mean Intersection over Union, mIoU)。两者都是通过平均所有类别的交集与并集的比率来计算的。
  • 实验设置 (Settings):
    • 与 RGB-IR 目标检测任务类似,我们将我们的方法集成到 SETR[84] 基础框架中,并在 MMSegmentation 库上实现。
    • 微调过程总共进行 10K 次迭代,初始学习率为 0.01。
    • 我们使用 SGD 优化器,并将批量大小设置为 16。
  • 结果 (Results):
    • 表 3 展示了不同 RGB-IR 分割方法在 PST900 数据集上的定量结果。结果表明,我们的模型在 mAcc 和 mIoU 方面均显著优于其他方法(分别为 94.3% 和 82.8%)。此外,我们的模型在背包 (Backpack)、手钻 (Hand-Drill) 和幸存者 (Survivor) 类别上表现出色,IoU 分别超过第二名方法 2.3%、0.6% 和 1.1%,这有力地证明了我们 UniRGB-IR 的有效性。

表 3:PST900 数据集上的 RGB-IR 语义分割结果。最佳结果标红,次佳结果标蓝。“-”表示作者未提供相应结果。
在这里插入图片描述

4.3 RGB-IR 显著目标检测

  • 数据集 (Datasets):
    • VT821[57]: 包含 821 张配准的 RGB 和 IR 图像。
    • VT1000[54]: 包含 1000 张配准的 RGB-IR 图像,场景简单且图像对齐。
    • VT5000[52]: 这是一个近期的大规模 RGB-IR 数据集,包含全天候各种有限光照条件下的场景。按照 [52] 中的惯例,我们使用 VT5000 数据集中的 2500 个图像对作为训练数据集,其余图像对以及来自 VT821 和 VT1000 数据集的图像对用作测试数据集。
  • 评估指标 (Metrics):
    • 使用四个指标评估性能:F-measure (adpF↑), E-Measure (adpE↑), S-Measure (S↑)平均绝对误差 (Mean Absolute Error, MAE↓)。↑ 表示越高越好,↓ 表示越低越好。
  • 实验设置 (Settings):
    • 与 RGB-IR 语义分割任务相同,我们将我们的方法集成到 SETR 基础框架中,并在 MMSegmentation 库上实现。
    • 微调过程总共进行 10K 次迭代,初始学习率为 0.01。
    • 我们使用 SGD 优化器,并将批量大小设置为 64。
    • 为方便起见,所有输入图像在测试时都调整为 224×224。
  • 结果 (Results):
    • 表 4 报告了定量比较结果。可以看出,我们的 UniRGB-IR 在 VT1000 和 VT5000 数据集上的所有评估指标均优于 SOTA 方法。具体来说,我们的 UniRGB-IR 在 VT5000 上的 S、adpE、adpF 和 MAE 指标分别达到 0.906、0.935、0.849 和 0.027,所有这些都高于之前的竞争对手 UniTR[14]。这些显著的结果清楚地表明,UniRGB-IR 预测的显著图非常接近相应的真实标注 (ground-truth)。

表 4:在 VT821、VT1000 和 VT5000 数据集上的 RGB-IR 显著目标检测结果。 表示 RGB-D SOD 转换为 RGB-T SOD。最佳结果标红,次佳结果标蓝。
在这里插入图片描述

4.4 消融研究

我们进行了一系列消融实验来验证我们框架中关键组件的有效性。

  • 组件消融 (Ablation for components): 为了研究 SFI 和 MFP 模块的贡献,我们逐步将每个模块添加到基线模型中(仅使用堆叠的 RGB 和 IR 图像输入 Cascade R-CNN 或 SETR 进行全微调)。如表 5 所示,仅添加 MFP 模块(通过逐元素加法融合)分别带来了 1.6% mAP 和 1.3% mIoU 的提升。最后,用 SFI 模块替换逐元素加法操作进一步将 mAP 和 mIoU 指标分别提高了 2.9% 和 4.0%,在两个数据集上都取得了最佳性能。
  • SFI 模块在不同阶段的添加 (SFI module at different stages): 我们在 ViT 预训练模型的不同阶段开始处添加 SFI 模块。从表 6 可以看出,在第一阶段添加 SFI 模块后,检测器在 FLIR 数据集上达到 41.7% mAP。在第二阶段和第三阶段添加 SFI 模块后,性能分别进一步提高了约 2% 和 3% mAP。然而,继续将其添加到最终阶段会降低检测性能,同时增加计算开销。因此,我们从 ViT 模型的第一阶段到第三阶段添加 SFI 模块。
  • SFI 模块中的不同注意力机制 (Attention type in SFI module): 由于我们 SFI 模块中的注意力机制是可替换的,我们在 UniRGB-IR 中采用了三种流行的注意力机制来讨论它们对模型性能的影响。如表 7 所示,通过利用可变形注意力 (deformable attention),检测器在线性复杂度下实现了最佳性能(44.1% mAP)。因此,可变形注意力更适合我们的框架,并被用作默认配置。

表 5:在 FLIR 和 PST900 数据集上关键组件的消融研究。最佳结果以粗体标出。
在这里插入图片描述

表 6:在不同阶段添加 SFI 模块的消融。

在这里插入图片描述

表 7:不同注意力机制的消融。

在这里插入图片描述

4.5 可视化分析

  • 中间结果 (Intermediate results): 为了说明 SFI 模块的有效性,我们在 FLIR 数据集上可视化了中间结果。从图 5 中的 FmfpF_{mfp}FmfpFsfiF_{sfi}Fsfi 可以看出,通过 SFI 模块,FsfiF_{sfi}Fsfi 中的前景物体变得显著。此外,我们还分别可视化了 Fmfp−FvitF_{mfp}-F_{vit}FmfpFvitFsfi−FvitF_{sfi}-F_{vit}FsfiFvit 的 t-SNE 图。在使用 SFI 模块后,注入的特征 FsfiF_{sfi}Fsfi 的分布比 ViT 特征 FvitF_{vit}Fvit 的分布更集中,这表明所需的更丰富的 RGB-IR 特征可以通过 SFI 模块很好地补充到 ViT 模型中。

  • 训练效率 (Training efficiency): 我们进一步绘制了 UniRGB-IR 在不同训练范式下每个 epoch 的 mAP 曲线,以证明 UniRGB-IR 的效率,如图 6 所示。在训练过程中,两个模型的所有超参数都相同。从图 6 可以看出,适配器调优范式的收敛速度超过了全微调策略。此外,通过利用适配器调优范式,我们的 UniRGB-IR 以更少的可训练参数(约占全微调模型的 10%)实现了卓越的性能。上述结果验证了我们方法的效率。

5 结论

在本文中,我们提出了一个用于 RGB-IR 语义任务的高效且可扩展的框架(名为 UniRGB-IR)。该框架包含一个多模态特征池(MFP)模块和一个补充特征注入器(SFI)模块。前者从两种模态图像中提取上下文多尺度特征,后者自适应地将这些特征注入到变换器模型中。这两个模块可以通过适配器调优范式进行高效优化,以用更丰富的 RGB-IR 特征补充预训练的基础模型,用于特定的语义任务。为了评估我们方法的有效性,我们将 ViT-Base 模型纳入 UniRGB-IR 框架,并在各种 RGB-IR 语义任务上进行了评估。广泛的实验结果表明,我们的 UniRGB-IR 可以有效地作为一个统一框架,用于 RGB-IR 下游任务,以实现卓越的性能。我们相信我们的方法可以应用于更多的多模态现实世界应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/93235.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/93235.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/93235.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hyperf 百度翻译接口实现方案

保留 HTML/XML 标签结构,仅翻译文本内容,避免破坏富文本格式。采用「HTML 解析 → 文本提取 → 批量翻译 → 回填」的流程。百度翻译集成方案:富文本内容翻译系统 HTML 解析 百度翻译 API 集成 文件结构 app/ ├── Controller/ │ └──…

字节跳动 VeOmni 框架开源:统一多模态训练效率飞跃!

资料来源:火山引擎-开发者社区 多模态时代的训练痛点,终于有了“特效药” 当大模型从单一语言向文本 图像 视频的多模态进化时,算法工程师们的训练流程却陷入了 “碎片化困境”: 当业务要同时迭代 DiT、LLM 与 VLM时&#xff0…

配置docker pull走http代理

之前写了一篇自建Docker镜像加速器服务的博客,需要用到境外服务器作为代理,但是一般可能没有境外服务器,只有http代理,所以如果本地使用想走代理可以用以下方式 临时生效(只对当前终端有效) 设置环境变量…

OpenAI 开源模型 gpt-oss 本地部署详细教程

OpenAI 最近发布了其首个开源的开放权重模型gpt-oss,这在AI圈引起了巨大的轰动。对于广大开发者和AI爱好者来说,这意味着我们终于可以在自己的机器上,完全本地化地运行和探索这款强大的模型了。 本教程将一步一步指导你如何在Windows和Linux…

力扣-5.最长回文子串

题目链接 5.最长回文子串 class Solution {public String longestPalindrome(String s) {boolean[][] dp new boolean[s.length()][s.length()];int maxLen 0;String str s.substring(0, 1);for (int i 0; i < s.length(); i) {dp[i][i] true;}for (int len 2; len …

Apache Ignite超时管理核心组件解析

这是一个非常关键且设计精巧的 定时任务与超时管理组件 —— GridTimeoutProcessor&#xff0c;它是 Apache Ignite 内核中负责 统一调度和处理所有异步超时事件的核心模块。&#x1f3af; 一、核心职责统一管理所有需要“在某个时间点触发”的任务或超时逻辑。它相当于 Ignite…

DAY 42 Grad-CAM与Hook函数

知识点回顾回调函数lambda函数hook函数的模块钩子和张量钩子Grad-CAM的示例# 定义一个存储梯度的列表 conv_gradients []# 定义反向钩子函数 def backward_hook(module, grad_input, grad_output):# 模块&#xff1a;当前应用钩子的模块# grad_input&#xff1a;模块输入的梯度…

基于 NVIDIA 生态的 Dynamo 风格分布式 LLM 推理架构

网罗开发&#xff08;小红书、快手、视频号同名&#xff09;大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等方…

《吃透 C++ 类和对象(中):拷贝构造函数与赋值运算符重载深度解析》

&#x1f525;个人主页&#xff1a;草莓熊Lotso &#x1f3ac;作者简介&#xff1a;C研发方向学习者 &#x1f4d6;个人专栏&#xff1a; 《C语言》 《数据结构与算法》《C语言刷题集》《Leetcode刷题指南》 ⭐️人生格言&#xff1a;生活是默默的坚持&#xff0c;毅力是永久的…

Python 环境隔离实战:venv、virtualenv 与 conda 的差异与最佳实践

那天把项目部署到测试环境&#xff0c;结果依赖冲突把服务拉崩了——本地能跑&#xff0c;线上不能跑。折腾半天才发现&#xff1a;我和同事用的不是同一套 site-packages&#xff0c;版本差异导致运行时异常。那一刻我彻底明白&#xff1a;虚拟环境不是可选项&#xff0c;它是…

[ 数据结构 ] 时间和空间复杂度

1.算法效率算法效率分析分为两种 : ①时间效率, ②空间效率 时间效率即为 时间复杂度 , 时间复杂度主要衡量一个算法的运行速度空间效率即为 空间复杂度 , 空间复杂度主要衡量一个算法所需要的额外空间2.时间复杂度2.1 时间复杂度的概念定义 : 再计算机科学中 , 算法的时间复杂…

一,设计模式-单例模式

目的设计单例模式的目的是为了解决两个问题&#xff1a;保证一个类只有一个实例这种需求是需要控制某些资源的共享权限&#xff0c;比如文件资源、数据库资源。为该实例提供一个全局访问节点相较于通过全局变量保存重要的共享对象&#xff0c;通过一个封装的类对象&#xff0c;…

AIStarter修复macOS 15兼容问题:跨平台AI项目管理新体验

AIStarter是全网唯一支持Windows、Mac和Linux的AI管理平台&#xff0c;为开发者提供便捷的AI项目管理体验。近期&#xff0c;熊哥在视频中分享了针对macOS 15系统无法打开AIStarter的修复方案&#xff0c;最新版已完美兼容。本文基于视频内容&#xff0c;详解修复细节与使用技巧…

LabVIEW 纺织检测数据传递

基于 LabVIEW 实现纺织检测系统中上位机&#xff08;PC 机&#xff09;与下位机&#xff08;单片机&#xff09;的串口数据传递&#xff0c;成功应用于煮茧机温度测量系统。通过采用特定硬件架构与软件设计&#xff0c;实现了温度数据的高效采集、传输与分析&#xff0c;操作简…

ECCV-2018《Variational Wasserstein Clustering》

核心思想 该论文提出了一个基于最优传输(optimal transportation) 理论的新型聚类方法&#xff0c;称为变分Wasserstein聚类(Variational Wasserstein Clustering, VWC)。其核心思想有三点&#xff1a;建立最优传输与k-means聚类的联系&#xff1a;作者指出k-means聚类问题本质…

部署 Docker 应用详解(MySQL + Tomcat + Nginx + Redis)

文章目录一、MySQL二、Tomcat三、Nginx四、Redis一、MySQL 搜索 MySQL 镜像下载 MySQL 镜像创建 MySQL 容器 docker run -i -t/d -p 3307:3306 --namec_mysql -v $PWD/conf:/etc/mysql/conf.d -v $PWD/logs:/logs -v $PWD/data:/var/lib/mysql -e MYSQL_ROOT_PASSWORD123456 m…

VR全景导览在大型活动中的应用实践:优化观众体验与现场管理

大型演出赛事往往吸引海量观众&#xff0c;但复杂的场馆环境常带来诸多困扰&#xff1a;如何快速找到座位看台区域&#xff1f;停车位如何规划&#xff1f;附近公交地铁站在哪&#xff1f;这些痛点直接影响观众体验与现场秩序。VR全景技术为解决这些问题提供了有效方案。通过在…

OpenJDK 17 JIT编译器堆栈分析

##堆栈(gdb) bt #0 PhaseOutput::safepoint_poll_table (this0x7fffd0bfb950) at /home/yym/openjdk17/jdk17-master/src/hotspot/share/opto/output.hpp:173 #1 0x00007ffff689634e in PhaseOutput::fill_buffer (this0x7fffd0bfb950, cb0x7fffd0bfb970, blk_starts0x7fffb0…

功能测试中常见的面试题-二

二、测试设计与用例编写题解释等价类划分 (Equivalence Partitioning) 和边界值分析 (Boundary Value Analysis)&#xff1f;并举例说明。等价类划分 (EP)&#xff1a; 将输入域划分为若干组&#xff08;等价类&#xff09;&#xff0c;假设同一组内的数据对揭露程序错误具有等…

SOLi-LABS Page-4 (Challenges)--54-65关

sql-54 翻译一下页面&#xff0c;得知我们只有十次机会。id参数是单引号闭合。 ?id-1 union select 1,group_concat(table_name),3 from information_schema.tables where table_schemadatabase()-- 我得到的表名是igsyiz2p7z。&#xff08;每个人得到的应该都不一样&#…