目录
1. 背景与挑战
2. AdcSR模型概述
2.1 模型架构
2.2 训练策略
3. 公式与原理
4. 创新点
5. 实验与结果
5.1 实验设置
5.2 结果对比
5.3 消融实验
6. 结论
在计算机视觉领域,图像超分辨率(Image Super-Resolution, ISR)一直是一个重要的研究方向。其目标是从低分辨率(Low-Resolution, LR)图像中重建出高分辨率(High-Resolution, HR)图像。然而,现实世界中的图像退化过程复杂且未知,这使得实世界图像超分辨率(Real-World Image Super-Resolution, Real-ISR)成为一个更具挑战性的任务。本文将详细介绍一种名为AdcSR的新型Real-ISR方法,该方法通过对抗扩散压缩(Adversarial Diffusion Compression, ADC)框架,显著提高了模型的效率和性能。
1. 背景与挑战
传统的ISR方法通常假设LR图像是HR图像的双三次下采样版本,但这种假设在现实世界中往往不成立。为了应对复杂的退化过程,研究者们提出了基于随机退化操作和高阶退化过程的Real-ISR方法。这些方法在合成数据上表现良好,但在实际应用中仍面临计算成本高、推理速度慢等问题。
近年来,基于扩散模型(Diffusion Models)的方法如Stable Diffusion(SD)在图像生成任务中表现出色。然而,这些方法通常需要多步推理,计算成本高昂,难以在实际部署中应用。为了解决这一问题,研究者们提出了多种一步推理的扩散模型,如OSEDiff和S3Diff。尽管这些方法在推理速度上有所提升,但它们仍然依赖于大规模的预训练SD模型,计算成本和参数量仍然较高。
2. AdcSR模型概述
AdcSR是一种基于对抗扩散压缩(ADC)框架的新型Real-ISR方法。其核心思想是通过结构化压缩(模块移除和剪枝)和对抗蒸馏(知识蒸馏与对抗损失)来简化基于一步扩散网络的Real-ISR模型,从而在保持生成能力的同时显著提高效率。
2.1 模型架构
AdcSR模型通过移除不必要的模块(如VAE编码器、提示提取器、文本编码器等)和剪枝剩余的可压缩模块(如去噪UNet和VAE解码器)来实现结构化压缩。具体来说,AdcSR模型包括以下三个模块:
- PixelUnshuffle层:将LR输入图像的像素重新排列到通道维度,以准备输入到去噪UNet。
- 剪枝后的SD UNet:处理重新排列的LR图像,保留原始深度,但不包含文本编码器、CA层和时间嵌入层。
- 剪枝后的VAE解码器:接收UNet的高维特征并生成超分辨率图像。
2.2 训练策略
AdcSR模型采用两阶段训练策略:
- 预训练剪枝后的VAE解码器:在OpenImage和LAION-Face数据集上预训练剪枝后的VAE解码器,以恢复其解码图像的能力。
- 对抗蒸馏:在特征空间中对齐学生模型(AdcSR)和教师模型(OSEDiff)的特征,以补偿性能损失。
3. 公式与原理
AdcSR模型的核心公式如下:
-
LR图像编码:
zLR=EOSEDiff(xLR),c=C(xLR) -
一步扩散去噪:
z^HR=[zLR−1−αˉTϵOSEDiff(zLR;T,c)]/αˉT -
解码生成HR图像:
x^HR=DSD(z^HR)
在AdcSR中,VAE编码器被移除,LR图像直接通过PixelUnshuffle操作输入到UNet。去噪UNet和VAE解码器通过剪枝和预训练来优化。
4. 创新点
AdcSR模型的主要创新点包括:
- 结构化压缩:通过移除不必要的模块和剪枝剩余的可压缩模块,显著减少了模型的参数量和计算成本。
- 对抗蒸馏:在特征空间中对齐学生模型和教师模型的特征,以补偿性能损失,保持生成能力。
- 高效推理:通过上述优化,AdcSR模型在推理速度、计算成本和参数量上均显著优于现有的基于一步扩散的Real-ISR方法。
5. 实验与结果
5.1 实验设置
实验在DIV2K-Val、RealSR和DRealSR数据集上进行,评估指标包括PSNR、SSIM、LPIPS、DISTS、NIQE、MUSIQ、MANIQA和CLIPIQA。
5.2 结果对比
如表1所示,AdcSR在多个指标上表现优异,特别是在PSNR、SSIM、LPIPS和DISTS等指标上优于现有的基于一步扩散的Real-ISR方法。
如图2所示,AdcSR在视觉质量和模型效率上均表现出色,提供了最高的推理速度、最低的计算成本和第二少的参数量。
5.3 消融实验
消融实验进一步验证了AdcSR模型中各个模块的有效性。例如,移除VAE编码器和优化UNet-VAE解码器连接的实验结果如表2和表3所示。
如图3所示,AdcSR的训练和推理过程清晰地展示了其结构化压缩和对抗蒸馏的优势。
6. 结论
AdcSR通过对抗扩散压缩框架,显著提高了基于一步扩散的Real-ISR模型的效率和性能。其结构化压缩和对抗蒸馏策略在保持生成能力的同时,显著减少了模型的参数量和计算成本。实验结果表明,AdcSR在多个指标上优于现有的基于一步扩散的Real-ISR方法,提供了最高的推理速度和最低的计算成本。
AdcSR的成功为实世界图像超分辨率任务提供了一种高效、可靠的解决方案,具有广泛的应用前景。未来,研究者可以进一步探索AdcSR在其他SD-based方法中的应用,并集成更多的生成先验,以进一步提升Real-ISR的性能。
论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Chen_Adversarial_Diffusion_Compression_for_Real-World_Image_Super-Resolution_CVPR_2025_paper.pdf