论文地址:https://arxiv.org/pdf/2503.18123v1
代码地址:https://github.com/SanderGielisse/MWT
关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
摘要
本研究提出了一种端到端的策略,用于初始化SIREN,并结合学习到的学习率方案,以产生能够提高分类准确率的表征。本研究表明,一个简单的、直接的Transformer模型应用于元学习的SIREN,无需引入显式的对称等变性,也能优于当前最先进的方法。在CIFAR-10 SIREN分类任务中,本研究在不使用数据增强的情况下,将最先进的性能从38.8%提高到59.6%,在使用数据增强的情况下,从63.4%提高到64.7%。本研究证明了在高分辨率Imagenette数据集上的可扩展性,实现了合理的重建质量和60.8%的分类准确率,并且首次在完整的ImageNet-1K数据集上进行了INR分类,实现了23.6%的SIREN分类性能。据本研究所知,没有其他SIREN分类方法能够在任何高分辨率图像数据集上建立分类基线。
引言
本研究主要关注如何将隐式神经表示(INR)应用于分类任务。INR作为一种将复杂连续信号编码到神经网络参数中的方法,在信号重建方面表现出色。然而,直接将INR应用于分类等下游任务并非易事,因为参数中固有的对称性带来了挑战。目前的研究主要集中在设计对这些对称性具有等变性的架构,但基于INR的分类性能仍然显著低于基于像素的方法,如卷积神经网络(CNN)。
为了解决这个问题,本研究提出了一种端到端的策略,用于初始化SIREN(一种常用的INR模型),并结合学习到的学习率方案,以产生能够提高分类精度的表示。研究表明,一个简单的Transformer模型应用于元学习的SIREN,在没有明确引入对称等变性的情况下,也能胜过当前最优的方法。在CIFAR-10 SIREN分类任务中,本研究在没有数据增强的情况下将当前最优结果从38.8%提高到59.6%,在使用数据增强的情况下从63.4%提高到64.7%。
此外,本研究还在高分辨率的Imagenette数据集上展示了方法的可扩展性,实现了合理的重建质量和60.8%的分类精度,并且首次在完整的ImageNet-1K数据集上进行了INR分类,实现了23.6%的SIREN分类性能。据本研究的了解,目前还没有其他SIREN分类方法能够在任何高分辨率图像数据集上建立分类基线。
使用基于MLP的隐式神经表示(INR)具有两个主要优点。首先,与基于固定分辨率像素网格的表示不同,模型在图像空间中的容量不一定是均匀分布的。其次,用作输入的信号不需要是等距像素网格,信号的任何观测子集都可以用来训练模型。不幸的是,虽然INR在用于高分辨率重建方面非常有效,但是直接使用这些隐式表示进行下游任务(例如分类)仍然具有挑战性,因为它需要对参数进行推理。
为了对参数执行诸如分类之类的下游任务,需要一个额外的模型,该模型将作为输入。这涉及到构建一个模型架构,该架构可以将另一个架构的权重作为其输入进行处理。然而,可能包含许多对称性。例如,在MLP的情况下,重新排序节点及其关联的权重会引入置换对称性;也就是说,权重的一种不同排列对应于完全相同的函数。类似地,尺度对称性允许以一种导致相同函数的方式缩放参数,即使已经改变。
一个解决这些对称性的方法是重新对齐权重,以便所有对称性都映射到同一个网络。不幸的是,这种对齐问题是难处理的。另一种解决方案是设计下游架构,使其对的对称性具有等变性,从而有效地绕过对齐问题。因此,许多最近的工作都采用了这种等变设计方法来设计下游架构。然而,这些方法的性能仍然落后于基于像素的分类方法。一个可能的原因是,对于下游模型而言,基于RGB像素的表示比另一个神经网络的权重更容易解释。可能是INR的权重缺乏足够的“结构”,这使得下游模型难以识别有用的图像特征。次优性能的原因是缺乏结构这一说法得到了研究的支持,他们发现,为所有图像使用相同的共享INR初始化,然后通过为每个特定图像INR更新共享初始化来生成特定于图像的INR,可以提高分类结果。这种共享初始化可能通过选择一个固定的参考点来避免对称性。
论文创新点
本研究提出了一个端到端的隐式神经表示(INR)分类框架,专注于提升基于SIREN的图像分类精度。该框架主要有以下几个创新点:
-
🚀 元学习初始化策略: 🚀
- 本研究开发了一种新颖的元学习初始化策略,用于SIREN网络。
- 该策略通过联合优化SIREN的初始化参数和一个元学习的学习率方案,使得SIREN能够更快地适应不同的图像,并且得到的参数结构更利于分类。
- 传统的INR分类方法通常分两步进行:首先将图像转换为INR表示,然后独立地训练分类器。而本研究将INR拟合过程融入到分类器的训练循环中,通过反向传播优化INR的结构,实现了端到端的训练,使得分类损失能够直接影响INR的权重结构,从而提高了分类性能。
-
⏱️ 计算效率优化: ⏱️
- 本研究注重计算效率,使得高分辨率图像的INR分类成为可能。
- 通过采用快速收敛的方法,本研究能够在训练中使用图像空间中的数据增强,进一步提升性能。
- 此外,本研究还探索了一种计算高效的变体,即在每个步骤中仅对图像像素的子集进行SIREN学习。这种方法在不显著降低重建质量或分类精度的前提下,进一步降低了计算成本。
-
💡 简化分类器设计: 💡
- 本研究采用了一个简单而直接的Transformer模型作为分类器,直接应用于元学习得到的SIREN表示。
- 与以往需要设计复杂的、对权重对称性具有等变性的分类器不同,本研究表明,通过对MLP参数施加结构约束,可以避免显式地对分类器中的等变性进行建模,从而可以使用标准的分类器并获得良好的性能。
-
✨ 显著提升分类性能: ✨
- 本研究在多个数据集上取得了显著的性能提升。
- 例如,在CIFAR-10数据集上,在没有数据增强的情况下,将当前最优的分类精度从38.8%提高到59.6%,在使用数据增强的情况下,从63.4%提高到64.7%。
- 更重要的是,本研究首次在高分辨率图像数据集上建立了SIREN分类的基线,在Imagenette数据集上实现了60.8%的分类精度,在ImageNet-1K数据集上实现了23.6%的分类精度。
-
🔍 全面的消融研究: 🔍
- 本研究对所提出的元学习和基于Transformer的方法的关键组成部分进行了详细的消融研究,分析了元初始化、学习率方案和Transformer架构选择对重建和分类性能的影响。
- 这些研究揭示了各个组件对整体性能的贡献,并为进一步优化INR分类方法提供了指导。
- 例如,研究发现分类器对元学习的影响(wcls)需要在重建质量和分类性能之间取得平衡。
论文实验