论文:(aaai2025) SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation
Localization through Spare-Coding Transformer代码:https://github.com/scu-zjz/SparseViT

这个论文研究的是图像篡改检测(Image Manipulation Localization, IML)问题。作者指出,几乎所有现有的模型都采用了“语义分割骨干网”与“手工设计特征”相结合的设计。作者认为,使用 sparse coding 对全局信息建模能够有效的检测图像中的篡改区域。
论文的整体框架如下图所示,包括两个部分:encoder with sparse self-attention 和 融合多尺度特征的LFF。其中,encoder包括4个阶段,前面2个阶段为卷积,阶段3和4为 sparse self-attention,sparse rate 包括8,4,2,1,在图中用不同颜色标明。
Sparse Self-Attention: 对于输入尺寸为 HxWxC 的特征,作者使用 sparsity rate 为S 来处理,将特征分解为大小为 SxS 个 non-overlapping patch,每个 patch 的尺寸为 (H/S)x(W/S),然后在每个 patch 内计算全局注意力。下图展示了 sparse rate = 2 的一个示例。
Learnable Feature Fusion(LFF): 结构如下图所示,阶段3和4的特征F1到F6分别通过卷积和上采样,变成一样的尺寸,通道数量均为512,最后相加融合。作者给每个通道都设计了一个可学习的参数 γ \gamma γ,自适应的调整 feature map 的权重。
作者实验分析了 sparse attention 的效果,可以看出稀疏化后,锚点的注意力更多地集中在包含非语义信息的与操作相关的边缘区域,而不是周围的语义区域。
其它实验可以参考作者论文,这里不过多介绍。