自己的原文哦~ https://blog.51cto.com/whaosoft/11685452

#GKGNet

多标签分类遇上图卷积网络ViG

本文提出了第一个完全图卷积模型，基于分组K近邻的图卷积网络GKGNet，该模型在灵活且统一的图结构中，同时建模语义标签嵌入与图像块之间的连接。实验表明，GKGNet在具有挑战性的多标签数据集（即MS-COCO和VOC2007数据集）上，以显著较低的计算成本实现了最先进的性能。

多标签分类是一个具有挑战性的任务，旨在预测单个图像中的多个对象标签，同时建模标签与图像区域之间的复杂关系。尽管卷积神经网络CNN和视觉转换器Transformer在将图像处理为规则的像素块网格（patch）方面取得了成功，但这些表示对于捕捉不规则和不连续的兴趣区域来说并不理想。在这项工作中，我们提出了第一个完全图卷积模型，基于分组K近邻的图卷积网络（Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition, GKGNet），该模型在灵活且统一的图结构中，同时建模语义标签嵌入与图像块之间的连接。为了应对不同对象的尺度差异并从多个角度捕捉信息，我们提出了用于动态图构建和信息传递的Group KGCN模块。我们的实验表明，GKGNet在具有挑战性的多标签数据集（即MS-COCO和VOC2007数据集）上，以显著较低的计算成本实现了最先进的性能。

论文链接：https://arxiv.org/abs/2308.14378

代码地址：https://github.com/jin-s13/GKGNet

灵活图结构解决多标签分类任务

图1 CNN, Transformers, GCN对图片特征的提取

在多标签分类中，与某个标签相关的区域可能是复杂的，甚至是不连续的。例如，为了识别图像中狗的存在，需要关注多个区域，因为可能存在多只狗。卷积神经网络（CNN）将图像视为像素网格，并根据空间位置应用滑动卷积核。CNN可以很好地处理连续区域，但局限的感受野让它难以适应不规则的兴趣区域。

相比之下，视觉转换器（Vision Transformer）将图像视为一系列图像块(patch)，具有全局感受野，并通过全局注意力从图像块中提取视觉特征。然而，对于小尺寸目标对象，大多数图像块属于背景，因此它们的注意力得分之和不能忽略，让特征提取受到来自背景噪声的干扰。而图方法（如 Vision GNN）将视觉图像块视为节点，通过将图像表示为图结构Graph来形成一种灵活的特征提取方法。

具体而言：

1. 感受野是全局的，根据语义特征相似性寻找邻居节点，能够灵活在全图寻找目标区域。

2. 特征传递是局部的，只发生在邻居节点之间。减少了背景区域的干扰。

这让图结构可以很好的适应目标区域的分布复杂，大小不一的难点。

方法介绍

图2 GKGNet网络结构

在这项工作中，我们提出了第一个用于多标签分类任务的完全图卷积网络（GCN），即基于分组K近邻的图卷积网络GKGNet。GKGNet将图像块和目标标签都视为图节点，并在统一的图结构中处理它们。

GKGNet构建了两种不同的图：一种是跨层次图（cross-level），建模目标标签和图像块之间的标签-对象关系；另一种是图像块层次图（patch-level），处理和更新图像块之间的图像特征。

这样，GKGNet能够自适应地整合兴趣补的特征，即使在存在不规则和不连续区域的情况下，也能有效更新视觉特征和标签嵌入的统一图表示。

如图2所示，图像块节点和标签节点通过四个分层阶段进行处理。

图3 KNN无法自适应地处理不同尺度的对象

图构建是GCN成功的关键。但是目前广泛使用的K近邻（KNN）构图方法只能会选择固定数目的邻居节点，无法自适应地处理不同尺度的对象。如图3，邻居数量K控制了提取和聚合区域特征的区域大小。过大的K会导致特征过度平滑，并涉及无效背景的干扰，而过小的K又难以选取足够的目标区域，影响特征提取和消息传递。

图4 Group KNN的分组和可重叠策略

因此，我们提出了基于Group KNN的GCN（Group KGCN）模块，该模块将节点特征拆分为多个组，并在每个组之间构建连接，如图4。通过设计每个组选择的邻居节点可以重叠，Group KNN方法允许目标节点与动态数量的源节点进行交互，并处理不同尺度的对象。

利用不同的组允许目标节点与不同数量（从𝐾个到𝐾 × 𝐺个）的源节点建立连接。如图4所示，子目标节点𝐷11连接到子源节点𝑆11 和𝑆21，而子目标节点𝐷12连接到子源节点𝑆31和𝑆41。这使得目标节点𝐷1能够与四个源节点进行交互：𝑆1，𝑆2，𝑆3 和 𝑆4。这种情况通常发生在目标节点涉及到更广泛的兴趣区域时，例如大型目标对象。

相反，当不同组的邻居重叠时，所选择的源节点数量会减少。例如，𝐷2的两个子目标节点都连接到源节点𝑆2，导致仅与三个源节点进行交互：𝑆1，𝑆2和𝑆4。这种情况通常发生在目标节点仅涉及到小的兴趣区域时，例如小型目标对象，从而有助于在信息传递过程中绕过无关信息。

最终基于Group KNN的Group KGCN模块如图5所示。

图5 Group KGCN模块结构

实验结果

GKGNet在具有挑战性的多标签数据集（即MS-COCO和VOC2007数据集）上，以显著较低的计算成本实现了SOTA的性能。

表1 MS-COCO数据集结果

表2 VOC数据集结果

下表3证明了GKGNet模型各个组件的效果，P、C和G分别代表Patch-Level Graph、Cross-Level Graph和Group KNN。

表3 GKGNet模型组件的效果（MS-COCO数据集）

为了探索Group KNN在通用图像识别中的效果，我们将 Group KNN 应用于经典的图像分类模型ViG-Tiny，并在ImageNet-1K、CIFAR-10、 CIFAR-100和Flowers等数据集上进行实验，可以看到top-1准确率显著提高。

表4 Group KNN在通用图像识别上的性能

可视化展示

图6 GKGNet的可视化

在图6的可视化中，彩色色块表示图像块与标签的连接。我们可以观察到Group KNN有效地适应了对象的大小。对于较小的对象，最终选择的标签节点集中在包含目标对象的区域。对于较大的对象，最终选择的标签节点覆盖了足够的区域，并关注对象的不同部分。此外，通过利用不同的子组，Group KNN灵活地提取共现关系，例如汽车和交通信号灯之间的关系。

总结

在本文中，我们提出了GKGNet，一种新颖的全图卷积模型，用于多标签图像识别任务。我们首次研究了视觉特征和标签嵌入的统一图表示。提出的Group KGCN模块用于动态图构建和消息传递，有效处理不同对象的尺度变化，从不同角度捕捉信息，并建模不同对象的共现关系。在MS-COCO和VOC2007等公共基准数据集上的综合实验验证了我们方法的有效性。我们希望将多模态特征与动态图表示相结合的理念能够广泛应用，并引起社区对这一有前途方向的关注。未来，我们计划将我们的工作扩展到更广泛的基于图学习的问题，如点云和社交网络。视觉AI 开发板商城天皓智联 whaoosoft aiot -- gitee可找到我

#xxx

#用「画家流水线」的方式理解Transformer中间层

Transformer架构层层堆叠，包含十几亿甚至几十亿个参数，这些层到底是如何工作的？当一个新奇的比喻——「画家流水线」，被用于类比并理解Transformer架构的中间层，情况突然变得明朗起来，并引出了一些有趣的发现。

尽管Transformer架构已经主宰了当今几乎所有的大模型，但我们依旧对它的工作原理知之甚少。

而且，基于Transformer的预训练LLM动辄有几十亿参数，很难直接对模型进行可解释性分析。

同时，模型中间层由N个相同的块堆叠在一起，它们之间唯一的区别只有层次位置和权重值，这就让理解中间层更加困难。

然而，最近发表的一篇论文却给出了一个十分通俗易懂的比喻——「画家流水线」。

论文地址：https://arxiv.org/pdf/2407.09298v1

有着「东京AI梦之队」之称的Sakana AI，联合IBM前AI负责人Satya Nitta创始的Emergence AI，两个团队的研究人员用一种新的「打开方式」来解释Transformer架构的中间层。

值得一提的是，这篇论文作者之一Llion Jones同样也是当年Transformer架构的共同创建者之一。

那么，「画家流水线」这个比喻该如何理解呢？

首先，输入被看作是一张画布，输入通过N个组成中间层的块的过程，就像是画布在「画家流水线」上进行传递的过程。

有些画家擅长画鸟，而有些画家则更擅长画鱼。每个画家从前面的画家手中接过画布，然后决定是在画上添几笔，还是直接传给后面的画家。

在这个类比中，非常重要的一点是，每个画家都使用相同的「词汇」来理解画作，因此一个画家可以在流水线上从前一个画家手中接过画作，但不会因为对画面理解不同而造成灾难。

画家们也可以重新排序（调整图层的前后顺序），甚至可以同时添加笔触，就像N个块可以并行运行。

这个类比并不是一个严谨的理论，但可以提供一个帮助我们思考Transformer层的有趣视角。

在这个类比的启发下，研究人员提出了一些假设，并通过实验来验证这些假设是否成立——

不同层是否使用相同的表征空间？
所有的层都是有必要的吗？
中间层是否都在执行相同的功能？
层的顺序重要吗？
我们能并行运行各层吗？
顺序是否对与某些特定任务而言更重要
循环是否有助于并行层？
哪些变体对性能的损害最小？

实验

主要用于实验包括两种预训练LLM，分别是decoder-only架构的Llama2-7B，以及encoder-only架构的BERT。Llama2-7B有70亿个参数和32层（每层含2.02亿个参数），BERT仅有24层和3.4亿个参数。

在下述所有实验过程中，模型都是冻结的。除了对BERT进行GLUE基准测试时进行了标准的微调步骤，参数没有经过任何修改。

评估过程采用了ARC（科学考试题）、HellaSwag（常识）、GSM8K（数学应用题）、LAMBADA（单词预测）等常用基准。

其中LAMBADA任务可以衡量模型困惑度（perplexity），任务最接近预训练时的原始token预测。

结果发现，Transformer的中间层有一定程度的一致性，但不冗余，而且对数学、推理任务而言，各层的运行顺序比在语义任务中有更重要的影响。

各层「说同一种语言」？

Transformer中的不同层是否共享相同的表示空间？

为了回答这个问题，论文采用的方法是让模型跳过特定层或调换相邻层的顺序，观察会不会出现灾难性后果。

图2中展示了Llama 2 7B在跳过或调换一些层后，模型整体在Open-LAMADA基准上的表现。

可以看到，除了起始和末端的几层，模型对这两种架构修改都表现出了相当强的鲁棒性。

因此可以得出初步结论：1)中间层共享同一个表示空间，2)表示空间与「外层」（第一层和最后几层）不同。

为了进一步验证，论文还进入模型内部，测量了不同层中隐藏状态内激活函数的余弦相似度（图3），表明这种一致性在三个模型的所有中间层都成立。

上图还可以很清晰看到，模型各层自然形成了4～5个不同的相似组，比如Llama 2 13B模型中分别是：第0层，1-3层、中间层，以及最后的1层或2层。

据此，Transformer中的所有层可以被大致分为三类：起始层、中间层和结束层。

此外，图3中的矩阵也能和图2中的模型分数相对应，更能有力证明，中间层之间共享语义表达空间。

所有层都必要？

为了进一步检验中间层的重定向空间是否真正共享（除了具有接近的余弦相似性），研究人员尝试跳过多个层。

也就是说，将第N层的输出直接送入第N+M层的输入（其中M>1），从而「跳过」M-1层。

在不进行任何微调的情况下，这个实验是要看看N+M层能否理解来自N层的激活，尽管它在训练中只接受了来自N+M-1层的输入。

结果显示，Llama2-7B和BERT-Large的许多基准性能都出现了一定程度的下降。

那么，所有层都有必要吗？这一问题已经有了答案。

No! 并非所有层都是必要的，至少有几个中间层可以跳过，而不会发生灾难性故障。

左图：Llama2-7B跳过N层～32-N层的基准测试结果（归一化）；右图：BERT跳过N层～24-N 层的基准测试结果（未归一化）

中间层功能相同吗？

如果中间层共享一个共同的表征空间，这是否意味着这些层是多余的呢？

为了验证这一点，研究人员重新进行了上一小节的「跳过」实验。

但不同的是，这次不是直接跳过M个中间层，而是用模型最中心的的一层代替全部M个层（Llama是第16层，BERT是第12层），相当于在这一层上循环T-2N+1次，其中T是层的总数。

结果表明，随着被替换层数M的增加，基准测试结果迅速下降。

在研究人员所尝试的所有测试中，这一项测试的变化是最严重的，比直接跳过一些层还要严重得多。

因此，中间层功能相同吗？这一问题的答案是——

No! 在中间层之间共享权重是灾难性的，这表明中间层在执行不同的功能。

用中心层替换M个中间层（左侧经过归一化，右侧未经归一化）

顺序重要吗？

之前的实验表明，中间层共享一个表征空间，但对这个空间执行不同的操作。

那么另一个问题来了——这些操作的执行顺序有多重要？

论文进行了两组实验来检验这个问题。首先，以与预训练完全相反的顺序运行中间层，如下图所示：

第二组则是以随机顺序运行中间层，最终结果是取10个随机种子进行实验后的均值。

图6和图7分别展示了中间层完全翻转和随机顺序的结果，虽然都出现了一定程度的性能下降，但两者的结果都优于直接跳过的情况。

所以，中间层顺序重要吗？这一问题的答案是——

比较重要。改变中间层的执行顺序，无论是随机打乱或者完全翻转，都会导致模型性能退化。

并行运行

如果层本身的存在比它们的执行顺序更重要，那么我们是否可以独立运行各层，最后合并它们的结果呢？

比如像下图中，将原本堆叠在一起的中间层展开，并行运行后取各层输出的平均值，传递给最后的N个层。

实验结果显示，GSM8K（数学应用题）基准中，模型性能有剧烈的变化，直线下降，其他基准分数的下滑则平缓得多。

我们暂且可以下这样一个结论：并行运行是可行的，但解决数学问题除外。

要理解这种性能下降，可以用我们的「画家流水线」进行类比：某些中间层只有在看到合适输入时，才能对结果有所贡献，就像一个擅长画车轮的画家，只有在画面上看到汽车车身时，才更有可能画出轮子。

如果是这种情况，将中间层并行运行的过程迭代多次应该会提高性能。

如下图所示，论文将多个并行层的平均输出再作为输入反馈回去，如此进行一定次数的循环。

图9显示了循环3次的结果，与图8中没有循环的方案相比，性能曲线的确相对平缓，尤其是在图右BERT模型未经归一化的分数上更加明显。

图10更清楚直观地展示了，并行的中间层数和循环次数如何影响性能，其中红框圈出了每列上的最高值。

除了29层和31层（接近Llama 2 7B的总层数32）得出例外的结果，从5层到27层都呈现出一致的趋势：最佳迭代次数大致与并行化层数呈线性比例。

实验结果总结

将上述所有实验结果放到同一张图中（图11），我们就能比较不同变体对模型性能的影响程度

左图（Llama2）取各基准的中值，右图（BERT）取各基准的平均值

「随机化层顺序」和「循环并行」分别在Llama2和BERT-Large上造成了最少的性能下降，「中间重复」方案（用中心层运行多次代替整个中间层）则在两个模型上都造成了最严重的滑坡。

讨论

自从Transformer发布后，大多数工作都在关注架构的修改和优化，以达到性能提升或参数减少。这篇论文则提供了另一种视角，调查了层并行化和重用的影响。

基于「Transformer层即画家」这个类比，我们开头提出的几个问题都通过实验得到了答案，最后得到了3个有趣的发现：

所有Transformer层可以大致分为三类：起始层、中间层和结束层，其中中间层占比最大；
中间层具有一定程度的一致性，但并不冗余；
与语义任务相比，各层的执行顺序对数学和推理任务更为重要。

为什么Transformer架构面对各种架构修改时能表现出如此强大的鲁棒性？作者表示将在之后的工作中再深入研究。

一个可能的假设是，训练过程中的残差连接是各层共享相同表征的必要条件。

我们已经知道，残差连接有助于解决梯度消失问题，然而相比没有残差连接的Transformer，加上残差会降低性能。

如果能在没有残差的Transformer上重新运行上述架构的变体，看看是否会破坏完全无残差模型所取得的微薄收益，那将会非常有趣。

对于未来的其他工作，研究人员还计划「解冻」模型，并研究Transformer是否需要（以及需要多长时间）通过微调来适应上述的架构变化。

虽然本文的目的是更好地理解Transformer的中间层，而非引入新模型，但根据实验结果，中间层并行或者干脆跳过都可以用适度的准确性损失换取更低的推理延迟。

作者团队

本文作者分别来自两家AI初创公司：Sakana AI和Emergence AI。

Sakana AI在今年年初刚刚获得3000万美元的种子轮融资，由Lux Capital领投，并得到了硅谷顶级风投公司Khosla Ventures以及Jeaf Dean、Alexandr Wang等大佬的支持。

公司研发的重点是基于自然启发的新型基础模型，创始团队也是星光熠熠，一半成员来自「AI黄埔军校」——谷歌大脑和DeepMind。

相比于关注基础研究的Sakana，Emergence AI更关注应用，专门从事LLM驱动的multi-agent系统研发。

公司联合创始Satya Nitta曾担任IBM研究院「AI解决方案」领域的全球主管，其中的许多研究人员和工程师也同样来自谷歌、Meta、微软、亚马逊和Allen AI等顶尖机构。

Emergence上个月刚刚从Learn Capital获得9720万美元的资金，以及额外的总计超过一亿美元的信贷额度，未来的发展也是前途可期。

参考资料：

https://arxiv.org/abs/2407.09298v1

#CFPT

干翻一众 FPN，专攻小目标检测！CFPT：无需上采样的新型特征金字塔网络

在本文中，作者提出了跨层特征金字塔 Transformer （CFPT），这是一种无需上采样的新型特征金字塔网络，专门为航拍图像中的小目标检测而设计。

目标检测一直是一项具有挑战性的任务。大多数当前检测器优先考虑新颖的检测框架，却常常忽视了对基本组成部分（如特征金字塔网络）的研究。在本文中，作者提出了跨层特征金字塔 Transformer （CFPT），这是一种无需上采样的新型特征金字塔网络，专门为航拍图像中的小目标检测而设计。CFPT采用了两个精心设计的、具有线性计算复杂度的注意力模块：跨层通道注意力（CCA）和跨层空间注意力（CSA）。

CCA通过划分通道 Token 组来实现跨层交互，以沿空间维度感知跨层全局信息；而CSA则通过划分空间 Token 组来完成跨层交互，以沿通道维度感知跨层全局信息。通过整合这些模块，CFPT一步实现跨层交互，从而避免了元素逐点加和以及层与层之间传递引起的语义差距和信息丢失。此外，CFPT融入了全局上下文信息，这增强了小目标的检测性能。为了在跨层交互中进一步提升位置感知，作者基于层间相互感受野提出了跨层一致相对位置编码（CCPE）。作者在两个具有挑战性的航拍图像目标检测数据集上评估了CFPT的有效性，分别是VisDrone2019-DET和TinyPerson。大量实验证明了CFPT的有效性，它在计算成本更低的情况下，性能优于现有的特征金字塔网络。

相关代码将在https://github.com/duzw9311/CFPT发布。

I Introduction

得益于卷积神经网络（CNNs）和视觉 Transformer （ViTs）的进步，现有的目标检测器已经取得了显著的发展，并在自动驾驶、人脸检测、医学图像分析和工业质量检查等众多应用领域奠定了其基本解决方案的地位。

作为目标检测的一个子领域，小目标检测由于在卷积和池化操作过程中小目标特征可能会被大目标特征所淹没或遮盖，因此相较于传统的目标检测任务面临更大的挑战。如图3所示，作者展示了两个经典的小目标检测数据集在航拍图像中的数据分布箱线图：VisDrone2019-DET [2] 和 TinyPerson [3]。箱线图凸显了 VisDrone2019-DET 数据集不仅包含大量小目标（20到30像素），而且存在显著的尺度变化。相比之下，TinyPerson 数据集相比于 VisDrone2019-DET，主要包含更小尺寸的目标，大多数目标的大小不超过20像素。无人机飞行高度和拍摄角度显著影响目标尺度分布，导致在航拍图像上的目标检测性能相对较差。

图1：在VisDrone2019-DET数据集上，各种最先进特征金字塔网络的性能比较。作者通过替换RetinaNet [1]中的 Neck 组件来评估它们的性能。

为了应对这些挑战，已经连续提出了许多研究。鉴于无人机场景中前景的比例较小，现有的解决方案通常采用由粗到精的检测方案[4, 5, 6]。在粗略预测阶段，通常使用一个通用检测器来检测目标并预测密集的目标簇。随后，在细化阶段，通常会修剪、上采样该簇，并将其重新输入检测器以进行精细搜索。尽管上述模型架构可以有效地适应无人机视角，并且在较低的计算成本下比直接输入高分辨率图像增强了各种检测器的性能，但它仍然缺少专为空中图像中目标检测定制的基本组件，例如特征金字塔网络。特征金字塔网络作为图像金字塔的低计算成本替代方案，在多种检测器中被广泛使用，并已成为每个检测器的基本组成部分。最早的FPN [7]使用自上而下的单向路径将语义信息整合到浅层特征图中，有效增强了模型在多尺度目标检测方面的能力。由于逐层传递的单向路径不可避免地造成信息丢失[8]，随后的特征金字塔网络逐渐过渡到层与层之间的直接交互。

作者提出CFPT，一种新的跨层特征金字塔结构，它通过在不同方向（即空间方向和通道方向）促进跨层信息交互来增强模型的表达能力。

通过整合这两种交互，CFPT能够有效地捕获小型目标的必要全局上下文信息，同时保持较低的计算成本。

作者提出CCPE，一种基于层间互惠感受野的新型位置编码方法，旨在增强模型在跨层交互过程中对空间和通道位置的认识。
通过在VisDrone2019-DET和TinyPerson数据集上的大量实验，作者证明了CFPT在航拍图像中小型目标检测的有效性。

II Related Work

Small Object Detection in Aerial Images

现代的目标检测器通常通过连续的卷积和池化层降低输入图像的分辨率，力求在性能与计算复杂度之间达到最佳平衡。因此，检测小物体本质上比常见目标检测更具挑战性，因为它们的小尺寸增加了在下采样过程中信息丢失的风险。

对于航拍图像中的小目标检测，ClusDet [17]采用了一种从粗到精的方案，首先检测密集的目标簇，然后在这些簇内进行搜索细化，以提高模型检测小物体的能力。DMNet [18]简化了ClusDet的训练过程，通过采用密度图生成网络来为簇预测生成密度图。遵循类似的检测流程，CRENet [19]和GLSAN [4]进一步增强了聚类预测算法，并优化了细粒度预测方案。UFPMP-Det [6]采用UFP模块和MPNet预测子区域，并将它们组装成单一图像以实现高效的单一推理，从而提高了检测的准确性和效率。CEASC [20]利用稀疏卷积优化了航拍图像中目标检测的传统检测器，降低了计算需求同时保持了竞争力的性能。DTSNNet [21]在Backbone和Neck之间引入了人工设计的块，以提高模型对多尺度特征的敏感性，并采用了专门针对小物体的训练样本选择方法。

上述解决方案优化了各种检测器，以适应航拍图像中的目标检测场景，而作者提出了一种专门针对这一背景下小目标检测的新型特征金字塔网络。

Feature Pyramid Network

为了减轻图像金字塔带来的巨大计算成本，特征金字塔网络（FPN）作为一种有效且高效的替代方法出现，它提高了各种检测器的性能。FPN [7] 利用一系列自顶向下的快捷连接来增强浅层特征图中缺乏的语义信息。基于FPN，PAFPN [12] 提出使用自底向上的快捷连接来解决深层特征图中细节信息的不足。Libra-RCNN [22] 通过结合非局部块来改进原始特征，以获得平衡的交互特征。为了减轻多尺度特征图中的语义差距，AugFPN [23] 引入了连贯的监督分支，并提出了ASF，用于跨多尺度动态特征融合。FPG [8] 使用规则网格表示特征尺度空间，并通过平行路径之间的多方向横向连接进行融合，从而增强了模型的特征表示能力。AFPN [11] 通过深层和浅层特征图的跨 Level 融合迭代改进多尺度特征，在具有常见尺度分布的目标检测中取得了竞争性的性能。

与先前方法不同，作者提出了CFPT，它利用全局上下文信息，并策略性地强调浅层特征图，以增强航拍图像中小型目标的检测。

Vision Transformer

作为计算机视觉中Transformer[24]的扩展，Vision Transformer (ViT)[25]在各种各样的视觉场景中[26, 27, 28]展示了显著的潜力。由于传统ViT与图像分辨率相关的二次计算复杂度，后续研究主要集中在开发轻量级的替代方案。Swin Transformer[29]通过限制特定窗口内的交互，并在交互过程中移动这些窗口以实现全局感受野。局部ViT[30, 31, 32]通过局部窗口内的交互引入局部诱导偏差，有效降低了模型的计算复杂度并加快了收敛速度。轴向注意力[33]通过将交互限制在图像宽度和高度上的条带，减少了计算复杂度。

遵循类似的轻量级概念，作者设计了两款具有线性复杂度（即CCA和CSA）的注意力块，以跨层捕捉沿各种方向（即空间方向和通道方向）的全局上下文信息，从而增强了模型对小物体的检测能力。

III Methodology

在本节中，作者将详细介绍所提出的跨层特征金字塔 Transformer （CFPT）。在第三节A部分，作者首先概述了所提出CFPT的整体架构。随后，在第三节B和C部分，作者介绍了CFPT的两个关键组成部分，即跨层通道注意力（CCA）和跨层空间注意力（CSA）。在第三节D部分，作者提出了一种新颖的跨层一致相对位置编码（CCPE），旨在增强模型的跨层位置感知能力。

Overview

如图4所示，CFPT采用多个并行的CBR块来构建跨层特征交互的输入，这些输入来自特征提取网络（如ResNet[34]）的多级特征图输出，从而降低了计算复杂度，满足了大多数检测器在架构上的要求。通过利用堆叠的跨层注意力模块（CAMs），CFPT增强了模型利用全局上下文信息和跨层多尺度信息的能力。

具体来说，CAM模块由一系列跨层通道注意力（CCA）和跨层空间注意力（CSA）组成。CCA沿着通道维度促进局部跨层交互，从而通过每个通道 Token 组的交互在空间维度上建立一个全局感受野。相反，CSA沿着空间维度促进局部跨层交互，通过每个空间 Token 组的交互捕捉通道维度的全局上下文信息。此外，作者通过在CAM的输入和输出之间使用捷径分支来进一步提高梯度增益。

假设经过CBR块后每个尺度的特征图可以表示为 , 其中是输入层的数量, 每个特征图的空间分辨率随橧加而增大, 同时保持通道数不变。上述过程可以描述为

其中是一组经过跨层交互的多尺度特征图，其形状与相应的输入特征图保持一致。

值得注意的是，作者的CFPT消除了复杂特征上采样操作和逐层信息传输机制，这些机制在层间传输过程中容易造成信息丢失，并导致计算负载增加和内存访问延迟。相反，作者通过利用尺度间相互感受野大小的局部分组操作，对多尺度特征图执行一步跨层邻近交互操作，从而促进尺度间的信息混合。这种方法使得每个尺度的特征能够平衡地从其他层获取信息（即使这些层相隔较远），同时促进自我修正，并从局部交互提供的归纳偏置中受益[32]。

跨层通道注意力

假设CCA的输入特征图集合为。如图5(a)所示, CCA沿着通道维度执行跨层的多尺度邻近交互, 从而为每个通道 Token 提供空间维度的全局上下文信息。为了构建交互式输入, 作者首先在每个尺度上对特征图执行通道重建 (CR), 以确保它们具有相同的空间分辨率, 从而得到。CR是一个与YOLOv5中的Focus类似的操作符,但不同之处在于它不使用额外的操作进行特征映射。相反, CR将空间维度的特征值堆叠到通道维度, 从而在保持效率的同时实现一致的空间分辨率。上述过程可以描述为

接下来, 作者执行重叠通道式 Patch 划分 (OCP) 以形成通道式标记组, 这可以看作是沿着通道维度在局部区域具有重叠区域的 Patch 嵌入[25], 其中不同尺度的特征图上的 Patch 大小是不同的。具体来说, 根据多尺度特征的形状, 中相邻特征图的通道大小相差一个 4 倍因子（即, )。为了构建重叠的邻近交互组, 作者引入一个扩展因子对执行OCP, 从而得到。上述过程可以描述为：

以第层的特征图为例, 在获得之后, 作者采用跨层一致的多头注意力机制来捕获沿空间维度的全局依赖性, 从而得到交互结果。

其中是线性投影矩阵。分别表示连接的键和值, 其中代表连接操作。表示第个跨层一致相对位置编码（CCPE）, 具体细节将在第三节D中介绍。注意, 为了简化, 作者只考虑头数为 1 的情况。在实践中, 作者采用多头机制来捕获每个通道式标记的全局依赖性。

在为每个尺度的特征图获得交互结果之后, 作者应用反向重叠通道式 Patch 划分 (ROCP) 来恢复 OCP 的影响, 并得到。作为 OCP 的反向操作, ROCP旨在使用与OCP相同的核大小和步长来恢复原始的空间分辨率。

作者最终使用空间重建 (SR) 来获得与输入X形状相匹配的结果。

Cross-layer Spatial-wise Attention

同样，将CSA的输入特征图集合表示为。如图5(b)所示，CSA沿着空间维度跨层执行多尺度邻近交互，为每个空间标记提供沿通道维度的全局上下文信息。

由于输入特征图的通道大小在CBR块后匹配（例如，256），无需使用CR和SR等方法来调整它们的大小, 正如在CCA中所做的那样。因此, 作者可以直接执行重叠空间划分 (OSP) 来形成空间标记组, 这可以看作是在不同尺度特征图上使用不同大小的矩形框进行滑动裁剪。假设OSP的扩展因子为 , 通过上述操作, 作者可以得到。上述过程可以表示为

然后, 作者在跨层空间标记组内执行局部交互, 并使用跨层一致性多头注意力来捕获沿通道维度的全局依赖性, 从而得到。对于第层的特征图, 这个过程可以表示如下:

其中是线性投影矩阵。和。表示第层的跨层一致性相对位置编码 (CCPE) 。

接下来, 作者使用反向重叠空间划分（ROSP）来反转OSP的效果, 并获得交互结果集。

Cross-layer Consistent Relative Positional Encoding

由于在交互过程中，它们各自的跨层标记组内的每个标记都保持着特定的位置关系。然而，传统的多头注意力机制统一处理所有交互标记，这对于像目标检测这样对位置敏感的任务来说会导致次优结果。因此，作者引入了跨层一致相对位置编码（CCPE），以增强CFPT在交互过程中的跨层位置感知。

CCPE的主要解决方案是基于对多个尺度上的相互感受野进行对齐, 这由卷积的特性决定。以CSA 为例, 每对空间标记组之间的注意力图集合其中是头的数量, , 如方程 9 中定义。为了简化, 作者忽略和 , 并定义和 , 其中和分别表示第层和第层空间标记组的高度和宽度。因此, 注意力图集合可以重新表示为。

CCGE的过程如图6所示。作者定义了一个可学习的码本 , 并通过计算它们的跨层一致相对位置索引, 从码本中获取任意两个标记之间的相对位置信息。为了简化, 考虑来自第层和第层的空间标记组的交互，其中和分别表示它们各自的绝对坐标矩阵。

为了获得相对于的相对位置信息, 作者首先使用它们各自的空间标记组大小来中心化它们的坐标, 以获得和。

Complexity Analysis

在本节中，作者将分析典型相关分析（CCA）和通道分割注意力（CSA）的计算复杂性。此外，由于在训练和测试阶段，空间域和通道域的标记组大小保持不变，它们的计算复杂性与输入特征图的空间分辨率成线性关系。

Iii-E1 Cross-layer Channel-wise Attention

考虑一组输入特征图集合, 记作。此外, 令表示在CCA中使用的扩展因子。CCA的整体计算复杂度包括线性投影的 , 注意力交互的 , 以及FFNs的。

Iii-E2 Cross-layer Spatial-wise Attention

假设输入特征图集合为。此外, 令表示在CSA中使用的扩展因子。CSA的整体计算复杂度包括线性投影的 , 注意力交互的 , 以及FFNs的。

IV Experiments

Datasets

作者通过将提出的CFPT应用于两个特别为从小型无人机视角进行小目标检测而设计的挑战性数据集来评估其有效性：VisDrone2019-DET [2] 和 TinyPerson [3]。

Iv-A1 VisDrone2019-DET

这个数据集包含了7,019张由无人机拍摄的图片，其中6,471张用于训练，548张用于验证。数据集涵盖了十个类别：自行车、三轮车、三轮机动车、货车、公交车、卡车、摩托车、行人、人以及汽车。这些图片的分辨率大约为像素。

Iv-A2 TinyPerson

这个数据集由无人机收集，主要用于远距离场景中的小目标检测，因为目标目标的平均长度小于20像素。它包含1,610张图片，其中794张用于训练，816张用于测试。数据集包含72,651个标记实例，分为两组：“海上行人”和“陆地行人”。为了简化，作者将上述两个类别合并为一个类别，命名为“行人”。

Implementation Details

作者使用PyTorch [48] 和MMdetection工具箱 [49] 实现了所提出的CFPT。所有模型都在单块RTX 3090上进行训练和测试，批处理大小为2。在模型训练中，作者使用SGD作为优化器，学习率为0.0025，动量为0.9，权重衰减为0.0001。作者在VisDrone2019-DET数据集上进行了消融研究，并比较了各种最先进的特征金字塔网络性能，输入分辨率为，并采用计划（12个周期）。为了加速模型收敛，作者在训练开始时采用了线性预热策略。为了比较在VisDrone2019-DET数据集上各种最先进检测器的性能，作者训练模型15个周期，以确保按照CEASC [20]的方法完全收敛。

在TinyPerson数据集 [3] 的实验中，为了减少内存使用过度，作者将高分辨率图像划分为大小均匀的块，并设有30%的重叠比例。每个块按比例缩放，以确保最短边长为512像素。为了全面评估模型性能，作者在模型训练中设置了批处理大小为1，并采用计划，同时实施多尺度训练和多尺度测试。

Comparison with Other Feature Pyramid Networks

作者最初在VisDrone2019-DET数据集上，将提出的CFPT与基于RetinaNet [1]的各种最先进特征金字塔网络性能进行了比较。如表格I所示，作者的CFPT在不同的 Backbone 网络上，包括ResNet-18、ResNet-50和ResNet-101，均取得了RetinaNet的最佳结果，同时在性能与计算复杂度之间取得了最优平衡。此外，与专注于航拍图像中小目标检测的SSFPN相比，作者的CFPT在参数更少（分别为-3.8M、-3.5M和-3.5M）和FLOPs更低（分别为-55.5G）的情况下，实现了更好的性能（+0.8 AP、+0.5 AP和+0.4 AP）。这证明了CFPT在航拍图像中小目标检测的应用潜力。

Comparison with State-of-the-Art Methods

为了进一步验证CFPT的有效性，作者将当前最先进检测器中的特征金字塔网络替换为CFPT，并在VisDrone2019-DET和TinyPerson数据集上比较其性能表现。

Iv-D1 VisDrone2019-DET

作者将GFL [43]中的特征金字塔替换为CFPT，并将其性能与各种最先进的检测器进行比较。如表格II所示，应用作者的CFPT分别基于ResNet-18、ResNet-50和ResNet-101，将GFL的性能提升了0.8 AP、0.7 AP和0.7 AP。尽管参数数量略有增加，分别为0.3 M、0.2 M和0.2 M。与CEASC [20]相比，作者的参数仅增加了0.1 M，却实现了显著的性能提升（分别提升了+0.7 AP、+0.6 AP和+0.6 AP），证明了作者CFPT的有效性。

Iv-D2 TinyPerson

在TinyPerson数据集上的比较中，作者采用了文献[3]中定义的评价指标来全面评估模型的性能。作者观察到，GFL [43]在细粒度检测方面表现出色，这体现在其在AP-tiny指标上的优越性能上；而FSAF [41]在粗粒度预测方面更为有效，这从其在AP-tiny和AP-tiny指标上的更好性能可以证明。因此，作者将CFPT分别整合到GFL和FSAF中，以评估其在两种场景下的适应性。如表格III所示，CFPT带来了显著的性能提升，包括为GFL提高了2.4个AP-tiny（44.2 AP-tiny对比41.8 AP-tiny），以及为FSAF提高了2.0个AP-tiny（44.5 AP-tiny对比42.5 AP-tiny），所有性能指标均有增强。因此，有效整合CFPT可显著提升模型对小物体的检测性能，证明了其在航拍图像中小目标检测的有效性。

Ablation Study

在消融研究部分的开头。

V-E1 Order of CCA and CSA

作者研究了CCA（典型相关分析）和CSA（通道空间注意力）应用的顺序对模型性能的影响。具体来说，作者比较了如图7所示的三种解决方案的性能，包括先应用CCA后应用CSA（CCACSA）、先应用CSA后应用CCA（CSACCA）以及同时应用CCA和CSA（CCACSA）。如表4所示，CCACSA的模式取得了最优性能，平均精度（AP）为22.2。作者认为这是因为CCA沿着空间方向提供了全局感受野，使得CSA能够利用全局上下文信息来预测更准确的注意力图，并获取更优的邻近细节信息。然而，由于CSA沿着通道方向具有全局感受野，首先应用它可能会破坏局部性，阻止CCA准确关注空间上的邻近信息。此外，CCACSA将导致CCA和CSA之间没有交互，使得无法利用彼此的信息进行精细的信息聚合。

V-E2 Effectiveness of each proposed component

作者通过逐步将提出的模块整合到 Baseline 模型（即没有FPN的RetinaNet）中来评估每个组件的有效性。如表5所示，将CCA和CSA分别整合到 Baseline 模型中，显著提升了模型性能，分别提高了3.5个AP和3.4个AP。将CCA和CSA综合整合到CAM中，模型实现了3.9个AP的提升（22.0 AP对比18.1 AP）。随后，应用CCPE进一步增强了模型性能，最终AP达到了22.2。值得注意的是，与表1中的大多数特征金字塔网络相比，仅整合CCA或CSA就能实现更优的性能，这突显了它们在航空图像中小目标检测的潜力。

作者还报告了每个组件对模型计算复杂度、参数数量和推理速度的影响，具体见表5。当仅使用单一组件（例如CCA）时，与 Baseline 模型相比，CFPT引入了额外的1.4M参数、7.4G FLOPs和每张图像0.004秒的推理延迟，同时实现了显著性能提升（+3.5 AP）。当使用所有组件时，CFPT引入了额外的2.8M参数、14.8G FLOPs和每张图像0.01秒的推理延迟，同时实现了显著性能提升（+4.1 AP）。因此，CFPT能够在性能与计算复杂度之间实现更好的平衡。

Iv-D3 Number of CAMs

作者评估了CAMs数量对模型性能的影响。如表格VI所示，增加CAMs的数量一致性地提升了模型的性能。当使用三个CAMs时，模型达到了22.5的AP，相较于 Baseline 模型提高了4.4个AP点（22.5 AP对比18.1 AP）。为了更好地平衡计算复杂度与性能，作者在所有其他实验中将CAM的堆叠数量设置为1，尽管更多的CAMs会带来更多的好处。

Iv-D4 Channel Size reduction factor and MLP ratio

作者研究了不同的通道尺寸缩减因子（即特征图通道在注意力交互中的压缩比）和多层感知器（MLP）比例（即在FFN中通道尺寸的扩展比）的影响，旨在找出能够平衡计算复杂度和模型性能的最佳组合。如图9所示，当通道尺寸缩减因子设为4，MLP比例设为2时，模型在计算复杂度和性能之间达到了最佳平衡。因此，在VisDrone2019-DET和TinyPerson数据集上进行的所有实验中，作者均采用这一组合方案。

Qualitative Analysis

作者通过在VisDrone2019-DET和TinyPerson数据集上可视化检测结果来对CFPT进行定性分析，所有可视化的置信度阈值设置为0.3。如图8所示，作者将CFPT应用于GFL，并将其与 Baseline 模型（即GFL）和CEASC在VisDrone2019-DET数据集上进行定性比较。应用CFPT有效降低了模型的漏检率（第一行和第三行）和误检率（第二行），从而提升了整体性能。此外，图8的第三行展示了CFPT在小目标检测方面的有效性。如图10所示，在TinyPerson数据集上的检测结果进一步验证了上述解释，表明CFPT在降低漏检和误检率的同时，有效提升了模型对小目标的检测能力。

V Conclusion

在本论文中，作者引入了CFPT，这是一种新型的无需上采样的特征金字塔网络，

CFPT能够明确更多地关注浅层特征图，并摒弃基于静态核的交互方案，以减轻尺度差异对模型性能的影响，这使得它特别适合于航拍图像中的目标检测。

具体来说，CFPT由两个精心设计的、具有线性计算复杂度的注意力模块组成，分别为CCA和CSA。这两个模块从不同角度捕捉上下文信息，它们的融合为模型提供了对检测小目标至关重要的全局上下文建模能力。

此外，为了在跨层交互中增强位置感知，作者提出了一种新的位置编码方法CCPE。在两个具有挑战性的航拍数据集上的大量实验表明，CFPT在优于现有最先进的特征金字塔网络的同时，也降低了计算成本。

在未来的工作中，作者计划探索可变形的跨层交互解决方案，并研究更有效的实现策略。

#DSCL

本文通过解耦训练目标来解决SCL的这两个问题，将SCL中的原正样本和增强正样本解耦并针对不同目标来优化他们的关系，从而减轻数据集不平衡的影响。北京大学提出解耦对比损失

监督对比损失（SCL）在视觉表征学习中很流行。但在长尾识别场景中，由于每类样本数量不平衡，对两类正样本进行同等对待会导致类内距离的优化出现偏差。此外，SCL忽略了负样本之间的相似关系的语义线索。为了提高长尾识别的性能，论文通过解耦训练目标来解决SCL的这两个问题，将SCL中的原正样本和增强正样本解耦并针对不同目标来优化他们的关系，从而减轻数据集不平衡的影响。论文进一步提出了一种基于块的自蒸馏方法，将知识从头类转移到尾类，以缓解尾类表征不足的问题。该方法挖掘不同实例之间共享的视觉模式，并利用自蒸馏过程来传输此类知识

论文地址： https://arxiv.org/abs/2403.06151

论文代码： https://github.com/SY-Xuan/DSCL

Introduction

在实际应用中，训练样本通常呈现长尾分布，其中少数头类贡献了大部分观察结果，而许多尾类仅与少数样本相关。长尾分布给视觉识别带来了两个挑战：

为平衡数据集设计的损失函数很容易偏向头部类别。
每个尾部类别包含的样本太少，无法表示视觉差异，导致尾部类别的代表性不足。

通过优化类内和类间距离，监督对比损失（SCL）在平衡数据集上取得了很不错的性能。给定锚定图像，SCL将两种正样本聚在一起，即（a）由数据增强生成的锚定图像的不同视图，以及（b）来自同一类的其他图像。这两种类型的正样本监督模型学习不同的表征：（a）来自相同类别的图像强制学习语义线索，而（b）通过外观差异增强的样本主要导致低级外观线索的学习。

如图 1（a）所示，SCL有效地学习了头类的语义特征，例如，学习到的语义“蜜蜂”对于杂乱的背景具有鲁棒性。而如图 1 (b) 所示，SCL学习的尾部类别表征对于形状、纹理和颜色等低级外观线索更具辨别力。

通过对SCL的梯度进行分析后，论文提出了解耦监督对比损失（DSCL）来处理这个问题。具体来说，DSCL解耦了两种正样本，重新制定了类内距离的优化策略，缓解了两种正样本的梯度不平衡。如在图 1（b）所示，DSCL学习到的特征对语义线索具有区分性，并且大大提高了尾部类别的检索性能。

为了进一步缓解长尾分布的挑战，论文提出了基于图像块的自蒸馏（PBSD），利用头类来促进尾类中的表征学习。PBSD采用自蒸馏策略，通过挖掘不同类之间的共享视觉模式并将知识从头类迁移到尾类，更好地优化类间距离。论文引入块特征来表示目标的视觉模式，计算块特征和实例级特征之间的相似度以挖掘共享视觉模式。如果实例与基于块特征共享视觉模式，则它们将具有很高的相似性，然后利用自蒸馏损失来维持样本之间的相似关系，并将知识融入到训练中。

Analysis of SCL

后面的分析有点长，总结起来，论文发现了SCL的三个问题：

过于关注头类的训练。
原样本和增强样本之间的梯度存在差异。
负样本可以更好地处理。

给定训练数据集 . , 其中表示图像, 是其类标签。假设表示中类的数量, 并且类的索引按数量降序排序, 即如果 $a<b$, 则="" $n^a="" \geq="" n^b$="" 。在长尾识别中,="" 训练数据集是不平衡的,="" 即="" $n^1="" \gg="" n^k$,="" 不平衡比的计算为="" n^k$="" 。<="" p="">

对于图像分类任务, 算法旨在学习特征提取主干和线性分类器, 先将图像映射为全局特征图并使用全局池化来获取维特征向量, 随后将特征向量分为维分类分数。通常来说, 测试数据集是平衡的。

特征提取主干一般采用监督对比学习（SCL）来训练。给定锚定图像 , 定义为用主干和额外投影头提取的归一化特征, 为正样本通过数据增强生成的图片的归一化特征。定义为可通过内存队列获取的一组样本特征, 为从中抽取的的正样本特征集。

SCL通过拉近锚定图像与其它正样本来减小类间距离，同时通过将具有不同类别标签的图像推开来扩大类间距离，即

其中是的数量。使用来表示预定义的温度参数, 条件概率的计算如下:

公式 1 可以表示为分布对齐任务，

其中是目标分布的概率。对于增强和原将它们同等地视为正样本，并将其目标概率设置为。对于中其它具有不同类标签的图像，SCL 将它们视为负样本，并将其目标概率设置为 0 。

对于锚定图像的特征的梯度为:

其中是的负集, 包含从中提取的特征。

SCL 包含两种类型的正样本和 , 锚定图像对于两种正样本的梯度计算分别为:

训练开始时，两种正样本的梯度L2范数之比为，

当SCL收敛时，的最优条件概率为：

在 SCL 中, 内存队列是从训练集中均匀采样的, 这导致。在平衡数据集中, , 不同类别的数量是平衡的。对于具有不平衡的长尾数据集, SCL 则会更加关注将头部类的针点与从得到的特征拉在一起, 因为梯度由公式 4 中的第三项主导。

另外, SCL 还存在两种正样本的梯度的 L2 范数的比例不平衡的问题, 如图 2 所示。当 SC L 的训练收玫时, 的最优值也受到的影响, 如公式 7 所示。此外, 如图 1(a) 和 (b) 所示, 跨类别学习到的特征也不一致。

等式 4 还表明，SCL均匀地推开所有负样本，从而扩大了类间距离。这种策略忽略了不同类别之间有价值的相似性线索。为了寻求更好的方法来优化类内和类间距离，论文提出了解耦监督对比损失（DSCL）来解耦两种正样本以防止有偏差的优化，以及基于补丁的自蒸馏（PBSD）来利用类之间的相似性线索。

Decoupled Supervised Contrastive Loss

DSCL的提出是为了确保不同类别的类内距离进行更平衡的优化，将两种正样本解耦并添加不同的权重，使梯度L2范数比和的最优值不受类别的样本数量影响。

DSCL可表示为：

其中是预定义的超参数。DSCL 是 SCL 在平衡环境和不平衡环境的统一范式。如果数据集是平衡的, 通过设置可以使得 DSCL 与 SCL 相同。

训练开始时，两种正样本的梯度L2范数比为：

当 DSCL 收玫时, z 的最优条件概率为。

如公式 10 可以看出，两种正样本的梯度比不受的影响。DSCL 也保证了的最优值不受的影响, 从而缓解了头部类和尾部类之间特征学习不一致的问题。

Patch-based Self Distillation

视觉模式可以在不同的类之间共享，例如视觉模式“车轮”在“卡车”、“汽车”和“公共汽车”共享。因此，尾类中的许多视觉特征也可以从共享这些视觉模式的头类中学习，从而降低了尾类表征学习的难度。SCL将来自不同类的两个实例在特征空间中推开，不管它们是否共享有意义的视觉模式。如图 4 所示，从黄色边界框中提取查询块特征，并从数据集中检索前 3 个相似样本。由w/o PBSD标记的SCL检索结果在语义上与查询块无关，表明SCL在学习和利用图像块级语义线索方面无效。

受细粒度图像识别中基于图像块的方法的启发, 论文引入了基于图像块的特征来编码视觉模式。给定主干提取的图像的全局特征图 , 首先随机生成块 , 其中是块的数量。根据这些块的坐标应用 ROI 池化并将池化特征发送到投影头中, 得到归一化的嵌入特征：

然后，类似于公式 2 利用条件概率计算实例之间的相似关系：

如果对应的图像与基于块的特征共享视觉模式, 则和将具有很高的相似度。因此, 使用公式 12 可对每对实例之间的相似性线索进行编码。

基于上述定义, 将相似性线索作为知识来监督训练过程。为了保持这些知识, 论文还根据额外从图像中裁剪多个图像块（前面直接从整图的全局特征做 ROI, 这里剪图过网络），并使用主干网络提取其特征嵌入 :

PBSD强制图像块的特征嵌入通过以下损失，产生与基于块的特征相同的相似度分布，

请注意, 与计算图分离以阻止梯度。

物体的局部视觉模式可以由不同类共享, 因此可以使用基于块的特征来表示视觉模式。是为了挖掘图像之间共享模式的关系而计算的, 通过最小化公式 14 来传递知识给 , 缓解尾类表征性不足的问题。图 4 所示的检索结果表明, PBSD 有效地加强了块级特征和图像块与图像相似性的学习, 使得挖掘不同类别的共享视觉模式成为可能。

Multi-crop技巧通常用于自监督学习中以生成更多锚图像的增强样本，采用低分辨率截图以降低计算复杂性。与Multi-crop策略不同，PBSD的动机是利用头类和尾类之间的共享模式来帮助尾类的学习，通过ROI池化得到基于块的特征来获得共享模式。公式 14 执行自蒸馏以维持共享模式。论文通过用Multi-crop技巧代替PBSD进行了对比实验，ImageNet-LT上的性能从 57.7% 下降到 56.1% ，表明PBSD比Multi-crop策略更有效。

Training Pipeline

整体训练逻辑如图 3 所示，为了维护内存队列，使用动量更新模型。训练由两个损失来监督，即解耦监督对比损失和基于块的自蒸馏损失：

论文的方法专注于表征学习，并且可以通过添加对应的损失来在不同的任务中使用。在主干训练之后，丢弃学习的投影头并使用标准交叉熵损失在预训练的主干之上基于类平衡抽样策略训练线性分类器。

Experiments

#QuadMix

首个统一图像与视频的领域自适应语义分割框架：QuadMix 刷新多项基准性能

本文提出首个统一图像与视频的无监督领域自适应语义分割框架 QuadMix，通过四向混合机制和光流引导的时空聚合，在四大基准上全面刷新 SOTA，实现跨域、跨模态的泛化分割能力。

论文标题：Unified Domain Adaptive Semantic Segmentation

第一作者：张哲（东北大学）

通讯作者：柴天佑、吴高昌

合作作者：张敬、朱霞天、陶大程

合作单位：东北大学、武汉大学、英国萨里大学、新加坡南洋理工大学

项目主页：https://github.com/ZHE-SAPI/UDASS

视频demo: https://drive.google.com/file/d/1OT5GtsbC0CcW6aydBL27ADjve95YE5oj/view

一、导语：从无监督域适应任务挑战到统一突破

1.1任务背景

在语义分割领域，无监督领域自适应（Unsupervised Domain Adaptive Semantic Segmentation，UDA-SS）旨在将有标签的源域知识迁移到无标签的目标域。随着数据规模和多样性的迅速提升，该任务日益重要。

目前主流研究集中于图像 UDA-SS，而视频 UDA-SS 近年来也开始受到关注。然而，两者的研究路径几乎完全割裂，存在如下挑战：

(a) 研究割裂：图像与视频任务各自为政，导致方法碎片化、认知零散；

(b)方法难迁移：图像方法无法有效迁移到视频，视频方法无法泛化至图像；

(c)知识利用低效：两类任务间经验难以共享，降低整体研究效率。

1.2核心突破

本文首次提出统一处理图像与视频UDA-SS的框架，通过统一特征空间建模和统一训练路径，有效解决上述割裂与低效问题。

为此，我们设计了全新机制QuadMix（四向混合），构建连续、稳健、丰富的中间域表示，从而大幅缩小跨域差异。并进一步引入光流引导的时空聚合模块，用于细粒度特征的分布对齐。

统一不是简单地“通用化”，而是一种深入语义建模的能力提升。QuadMix作为桥梁，不仅使图像和视频任务共享表征基础，更通过可扩展的路径结构，有望实现跨模态、跨场景的泛化能力，从而为未来多模态感知系统奠定了范式基础。

图 1. 相较于分别研究图像和视频的无监督域适应语义分割（UDA-SS），我们提出了统一研究二者的研究框架。

二、方法详解：从四向混合到时空对齐

我们将图像视为无时间依赖的视频特例，提出统一建模图像与视频的视觉感知领域自适应语义分割新范式。

2.1 QuadMix：首创四向混合机制，跨域特征更稳定

我们在显式特征空间中同时引入以下四种混合路径：

(a) S → S：源域内部混合；

(b) T → T：目标域内部混合；

(d) S → (T → T)：源域融合到目标内部混合中。

这种设计不仅打破了传统一阶/双向Mixup的限制，更是首次在特征空间中引入交叉式路径结构，最大限度地提升了域内连续性与语义对齐能力。实验表明，四向混合路径在 t-SNE 可视化中呈现更紧致、更均衡的分布，显著提升了迁移稳定性与泛化鲁棒性。

图 2. 不同领域混合范式的对比。与现有方法相比（存在如域内不连续性，特征泛化性差，以及特征分布不一致问题），我们提出的 QuadMix 方法在空间（时间）维度的像素级与特征级上，同时对域内混合和跨域混合进行了泛化与增强。其中符号“*”表示样本模板。

图 3. 所提出的 QuadMix 用于 UDA-SS 的整体框架概览。图像领域自适应语义分割（Image UDA-SS）遵循一条并行流程，唯一的区别在于不包含时间线索，如图中虚线所示。

(i) 图 (a)：QuadMix 包含四条全面的域内/跨域混合路径，在时空像素层与特征层上桥接域间差异。像素级混合作用于相邻帧、光流和标签/伪标签，旨在迭代生成两个增强的跨域中间域：T→(S→S) 和 S→(T→T)。这些中间域克服了源域 S 与目标域 T 内部的非连续性，并展现出更具泛化性的特征，从而有效弥合域间差异。此外，在 quad-mixed 域之间进行的特征级混合，有助于缓解因不同视频上下文导致的特征不一致问题。

(ii) 图 (b)：光流引导的时空特征聚合模块将跨域视频特征压缩至一个紧凑的类别感知空间中，有效最小化类内差异，并提升类间判别能力，从而增强目标域的语义表征能力。

(iii) 整个训练过程是端到端的。在图 (c) 中，目标域测试阶段需要输入相邻帧堆叠的序列和光流。

2.2 类别感知Patch模板生成

QuadMix 的混合质量高度依赖于 Patch 模板的生成机制。为此，我们创新性地引入“在线类别感知Patch模板”机制：

(a)针对图像和视频，分别提取语义一致的类别区域作为模板；

(b)在每个训练迭代中自适应更新，避免固定模板带来的标签漂移问题；

(c)Patch模板不仅包含像素，还包括伪标签和光流信息，覆盖图像+视频两个维度；

这些模板为每个iteration中QuadMix 路径构建提供高质量输入，确保跨域混合具备一致的语义表征。

图 4. 展示了在视频 UDA-SS 中，QuadMix 的多种混合策略示例：(a) 为源域 S 和目标域 T 的原始样本（QuadMix 之前）；(b) 显示了源模板 S*（如人物、骑手）与目标模板 T*（如交通标志、天空）；(c) 展示了域内混合路径 S→S 与 T→T 的结果；(d) 展示了进一步的跨域混合路径 S→(T→T) 与 T→(S→S)，即 QuadMix 后的结果。这些混合策略分别作用于视频帧、光流与标签/伪标签。需要特别说明的是，每一轮训练中所需的 Patch 模板均通过在线机制根据前一轮（n−1）自适应生成。请放大查看细节。

2.3 像素级 + 特征级双层混合

输入级混合解决图像构成层次的差异，特征级混合则进一步对语义表征层进行融合与对齐。

(a)输入级 QuadMix：通过 Hadamard 运算叠加帧、标签与光流模板；

(b)特征级 QuadMix：构建共享类别掩码区域，在特征图中动态拼接并共享表示；

我们还使用轻量化的1x1卷积模块实现特征融合，从而减少语义漂移区域，提高模型鲁棒性，并有效降低了计算成本。

三、时空聚合机制：让视频特征对齐更加细粒度

与图像不同，视频数据包含时序信息，如何充分利用时间结构进行语义对齐，是提升视频UDA性能的关键。

本文提出的“光流引导的时空聚合模块”，围绕三个维度展开：

3.1 光流引导的伪标签传播

(a)使用 ACCEL 网络结构获取光流；

(b)将光流用于伪标签warp操作，获得跨帧伪标签；

(c)保证语义一致性与时序鲁棒性；

该模块显著提高了伪标签在视频中的质量，为后续聚合与对齐奠定基础。

3.2 类别感知的空间聚合

(a)按类别构建特征子空间；

(b)对每类特征进行平均聚合，获得“类别代表向量”；

(c)使用该向量进行空间重构，提升类别判别力；

3.3 时间维度的信息聚合

(a)多帧空间聚合结果通过信息熵加权方式融合；

(b)构建时序一致的语义表示；

最终，整个模块实现类别–空间–时间三重维度的精细化特征对齐，为目标域提供了坚实的泛化支持。

$图 5. 展示了用于领域对齐的光流引导时空特征聚合过程，其中 t′ 表示前一时间步，ω^T_{t′→t}表示目标帧的时间聚合权重。𝑓̄{t′→t} 表示从前一时间步 t′ 通过光流引导 warp 得到的帧特征，其中 “→” 表示沿时间维度的 warp 方向。$

图 5. 展示了用于领域对齐的光流引导时空特征聚合过程，其中 t′ 表示前一时间步，ω^T_{t′→t}表示目标帧的时间聚合权重。𝑓̄{t′→t} 表示从前一时间步 t′ 通过光流引导 warp 得到的帧特征，其中 “→” 表示沿时间维度的 warp 方向。

四、实验验证：全面评估四大数据集，全面领先

我们在四个经典的 UDA-SS benchmark 上进行了严格验证，涵盖图像与视频两大类任务：

具体实验结果如下：

4.1 视频域适应语义分割任务

4.2 图像域适应语义分割任务

在各种任务上，我们的方法均显著超过现有 SOTA 方法，如 DACS、ProDA、DAFormer、SAC、CMOM 等。其中最引人注目的是：在 SYNTHIA-Seq → Cityscapes-Seq 视频迁移任务上，我们使用 Vision Transformer 架构（QuadMix ViT）实现了 67.2 的 mIoU，刷新历史最好结果，领先前 SOTA（PAT、TPL-SFC）近 12 个百分点。此外，在 GTAV → Cityscapes 图像迁移任务中，QuadMix 实现 66.8 的 mIoU，超过 DAFormer、SePiCo 等先进方法，展现统一方法在图像上的强大适应能力。

4.3 消融实验

4.4 可视化结果分析

图 6. 来自 Cityscapes-Seq 验证集的三个连续帧的定性结果。结果展示顺序如下：目标图像、真实标签、仅源域模型的语义分割结果、DA-VSN [16]、TPS [17]、CMOM [2] 以及本文提出的方法。我们的方法在分割精度上表现最佳，边缘更平滑、细节更精细。请放大查看细节。

更多可视化结果请参考视频demo: https://drive.google.com/file/d/1OT5GtsbC0CcW6aydBL27ADjve95YE5oj/view

4.5 特征空间分布TSNE分析

图 7. 展示了不同混合范式在 t-SNE 空间中的可视化效果，分别以 sign（第一行）和 pole（第二行）两个类别为例。子图 (a) 到 (e) 的实验设置对应表 VI 中的消融实验编号：Exp.ID 0*、ID 6、ID 1、ID 3 和 ID 12。请注意，子图 (b)、(d) 和 (e) 中的点数相同。子图 (b) 展示的是域内混合（intra-mixed）后的特征嵌入，呈现出较为连续的分布；而子图 (e) 展示的四向混合（quad-mixed）域则表现出更具泛化性的特征分布，而非聚集式的形式。这种分布更有效地缓解了域内不连续性问题，并更好地实现知识迁移中的细粒度特征分布拉近。