图片
论文地址:https://arxiv.org/pdf/2503.06671
代码地址:https://github.com/dslisleedh/ESC


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
图片

摘要

本研究解决了Transformer在高效图像超分辨率(SR)任务中的高计算开销问题。基于对自注意力层间重复性的观察,本研究引入了一个名为卷积注意力(ConvAttn)的卷积化自注意力模块,它利用单个共享的大卷积核和动态卷积核来模拟自注意力的远程建模能力和实例依赖加权。通过利用ConvAttn模块,本研究显著减少了对自注意力及其相关内存密集型操作的依赖,同时保持了Transformer的表示能力。此外,本研究克服了将Flash Attention集成到轻量级SR领域的挑战,有效地缓解了自注意力固有的内存瓶颈。本研究使用Flash Attention将窗口大小扩展到32×32,而不是提出复杂的自注意力模块,在Urban100 ×2上PSNR显著提高了0.31dB,同时延迟和内存使用量分别降低了16倍和12.2倍。基于这些方法,本研究提出的网络名为“用卷积模拟自注意力(ESC)”,与HiT-SRF相比,在Urban100 ×4上PSNR显著提高了0.27dB延迟和内存使用量分别降低了3.7倍和6.2倍。大量实验表明,尽管大部分自注意力被ConvAttn模块取代,ESC仍保持了Transformer的远程建模能力、数据可扩展性和表示能力
图片

引言

Transformer在高效图像超分辨率中的应用:用卷积模拟自注意力

本研究致力于解决Transformer在高效图像超分辨率(SR)任务中的高计算开销问题。当前,随着多媒体内容和生成模型需求的显著增长,SR技术的重要性日益凸显,因为它能够使用户在资源受限的条件下享受高质量内容。因此,实际部署已成为SR任务中的一个关键考虑因素,促使许多SR研究在提高性能的同时降低计算复杂度和参数规模。Transformer在SR任务中取得了比卷积神经网络(CNN)更优越的性能,同时具有更低的计算量和更少的参数,因此受到了广泛关注。通过自注意力机制捕获长距离依赖关系和执行依赖于输入的加权,Transformer展现出强大的表征能力和增强的性能,尤其是在训练数据量增加时。然而,许多研究忽略了自注意力机制造成的过度内存访问,这是由于需要实例化分数矩阵以及利用内存密集型操作(如张量重塑和窗口掩码)所导致的。在SR架构中,由于需要处理大特征图而没有patchify stem或下采样阶段,内存访问问题更加严重。例如,即使SwinIR-light的计算量和参数规模分别比重建×2比例高清图像的CNN少14.5倍和17倍,但其延迟却高4.7倍,内存使用量也高2倍。因此,尽管Transformer的性能很有前景,但在资源受限的设备(如消费级GPU)上部署它们仍然具有挑战性

本研究的初步分析表明,自注意力机制执行的相似性建模和提取的特征在多层之间保持高度一致。这一发现表明自注意力机制可能会提取重叠的特征,这意味着可以通过使用高效的替代方案来降低计算开销而不损害表征能力。基于此发现,本研究提出了一种设计策略,仅在每个块的第一层保留自注意力机制,而用本研究提出的高效替代方案——卷积注意力(ConvAttn)模块——替换其余层。为了有效地模拟自注意力的长距离建模和依赖于实例的加权,ConvAttn模块采用双重机制运作。首先,它通过在整个网络中应用具有共享的13×13大核的卷积来简化自注意力的长距离交互,仅针对一部分通道进行操作。其次,生成动态核以捕获依赖于输入的加权,模仿自注意力的自适应特性。通过结合这些组件,ConvAttn模块显著减少了对内存密集型自注意力的依赖,同时保持了Transformer的表征能力

通过用ConvAttn替换大部分自注意力层,本研究利用这种效率进一步增强了剩余的自注意力层。具体而言,本研究扩大了自注意力的窗口大小,在仅略微增加计算量的情况下显著提高了性能。然而,增加窗口大小会导致分数矩阵扩大,从而大幅增加峰值内存使用量。为了解决这个问题,本研究将Flash Attention引入到轻量级SR任务中,以避免实例化分数矩阵。本研究的优化实现允许将窗口大小扩展到32×32,同时将延迟和内存使用量分别减少16倍和12.2倍。基于这些方法,本研究介绍了一种名为“用卷积模拟自注意力(ESC)”的轻量级SR网络。与ATD-light相比,所提出的ESC在Urban100 ×4上PSNR提高了0.1dB,同时速度提高了8.9倍。此外,ESC-light在Urban100 ×2上PSNR超过ELAN-light 0.29dB,同时延迟降低了22%。本研究通过引入ESC-FP进一步验证了ESC在降低计算量和参数规模至关重要的场景下的有效性,ESC-FP在Manga109 ×4上的性能优于MambaIRV2-light,同时计算量和参数规模分别减少了20%和32%。通过广泛的实验,本研究证明了即使大部分自注意力被ConvAttn模块取代,ESC仍然充分利用了Transformer的优势,包括其大的感受野、表征能力以及关于数据量的可扩展性。本研究通过深入的实验支持了这些结果,表明所提出的ConvAttn模块提取的特征与自注意力机制相似

论文创新点

本研究提出了一个名为ESC的高效图像超分辨率网络,旨在降低Transformer在计算和内存方面的开销。本研究的创新点主要体现在以下几个方面:

  1. 基于卷积的注意力模块(ConvAttn):

    • 本研究观察到Transformer中自注意力机制的层间特征存在高度相似性,这表明自注意力机制在不同层提取的特征存在冗余。
    • 基于此,本研究设计了ConvAttn模块,它结合了共享的大核卷积和动态生成的深度卷积核,以模拟自注意力机制的长距离建模能力和实例依赖的加权能力。
    • ConvAttn模块有效地替代了Transformer中除了每个块的第一层以外的其他自注意力层,从而显著降低了对内存密集型自注意力操作的依赖,同时保持了Transformer的表示能力。
  2. 🚀 共享大核卷积: 🚀

    • ConvAttn 模块中的共享大核卷积(LK)贯穿整个网络,负责捕获全局上下文信息和长距离依赖关系。
    • LK 的参数在所有层之间共享,从而减少了模型的整体参数量和计算开销,并有助于稳定训练。
  3. ⚙️ 动态深度卷积核: ⚙️

    • 为了模拟自注意力机制的实例依赖加权,ConvAttn 模块引入了动态深度卷积核(DK)。
    • DK 根据输入特征动态生成,能够捕获特定实例的局部特征。
    • DK与 LK 协同工作,在降低内存开销的同时,实现了对全局和局部特征的有效建模。
  4. ⚡️ Flash Attention的集成: ⚡️

    • 为了进一步降低自注意力机制的内存开销,本研究将Flash Attention集成到轻量级SR任务中。
    • Flash Attention 通过避免显式计算和存储注意力矩阵,显著减少了自注意力操作的内存占用和延迟。
    • 本研究优化了 Flash Attention 的实现,使其能够支持更大的窗口大小(32x32),从而在轻量级SR任务中实现了性能的显著提升。
  5. 🌐 多尺度特征融合: 🌐

    • ESC 网络巧妙地融合了局部和全局特征。ConvFFN 模块提取局部特征,而 ConvAttn 模块捕获全局上下文信息。
    • 通过将这两个模块的输出进行融合,ESC 网络能够有效地利用多尺度信息,从而提高了图像超分辨率的性能。

通过这些创新,本研究提出的ESC网络在多个图像超分辨率基准数据集上取得了显著的性能提升,同时显著降低了计算和内存开销。此外,本研究还证明了 ESC 网络在数据扩展性和任意尺度超分辨率任务上的有效性,进一步验证了其优越的泛化能力和实用价值。

论文实验

图片
图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921678.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921678.shtml
英文地址,请注明出处:http://en.pswp.cn/news/921678.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【面试场景题】如何进行高并发系统的性能测试?

文章目录一、明确测试目标与指标二、测试环境搭建三、测试工具选型四、测试场景设计五、执行测试与监控六、瓶颈分析与调优七、测试报告与迭代总结高并发系统的性能测试是验证系统在极限流量下是否能保持稳定运行的关键环节,需要结合场景设计、工具选型、指标监控、…

攻防世界ReverseMe-120

这道题比较经典,涉及三个知识点,所以记录一下。首先给了一个文件,detect it easy看了下,是32位exe。放入ida中,找下main函数,F5反编译看一下伪代码。int __cdecl main(int argc, const char **argv, const …

小白也能看懂,HTTP中的文件上传与下载到底发生了什么?

HTTP 文件传输协议解析:上传与下载 这份文档会用最简单的方式,带你了解 HTTP 协议是如何处理文件下载和上传的。我们会专注于协议本身,看看客户端(比如你的浏览器)和服务端(网站服务器)之间到底…

快速构建数据集-假数据(生成划分)

快速构建数据集-假数据1、torch.randn(✅)2、HuggingFace Datasets(✅)🔹1. 从字典生成🔹2. 从 pandas.DataFrame 生成🔹3. 批量生成“业务型”假数据(配合 Faker)&#…

[修订版]Xenomai/IPIPE源代码情景解析

[修订版]Xenomai/IPIPE源代码情景解析 第一章:Interrupt Pipeline介绍 1.1 I-pipe与Xenomai1.2 I-pipe核心概念1.3 拉取I-pipe代码 第二章:I-pipe对ARM64异常的改造 2.1 ARM64中断机制与异常处理2.2 EL0_IRQ 中断改造之入口2.3 EL0_IRQ 中断改造之中断处…

【Qt开发】按钮类控件(三)-> QCheckBox

目录 1 -> 概述 2 -> 核心特性 2.1 -> 状态管理 2.2 -> 信号机制 2.3 -> 外观与文本 3 -> 应用场景 4 -> 代码示例 5 -> 总结 1 -> 概述 QCheckBox 是 Qt 框架中提供的一个基础控件,用于实现复选框功能。它允许用户在两种或三种…

在新发布的AI论文中 pytorch 和tensorflow 的使用比例

根据 2025 年最新的学术动态和行业报告,PyTorch 在 AI 论文中的使用比例已占据绝对主导地位,而 TensorFlow 的占比持续下降。以下是基于多个权威来源的综合分析: 一、顶级会议中的框架分布 在 NeurIPS、ICML、CVPR 等顶级学术会议中&#xff…

3DXML格式是什么?用什么软件可以打开?

3DXML 是一种开放标准的数据交换格式,主要用于三维 CAD(计算机辅助设计)模型的存储和交换。它是由 Dassault Systmes 开发的一种文件格式,常用于 CATIA V6 和其他支持该格式的应用程序中。3DXML 文件可以包含完整的 3D 模型数据&a…

9月8日星期一今日早报简报微语报早读

9月8日星期一,农历七月十七,早报#微语早读。1、中国火箭与月亮同框,遥感四十号03组卫星发射成功;2、湖南郴州开发区改革:编制数由815名减至680名,精简16.6%;3、水利部对广东、广西启动洪水防御Ⅳ…

windows系统搭建MQTT服务器

1、MQTT 协议 MQTT协议:实现MQTT协议需要客户端和服务器端通讯完成。 三种身份: 发布者(Publish)、代理(Broker)(服务器)、订阅者(Subscribe)。 消息的发布者和订阅者都是客户端,消息代理是服务器,消息发布者可以同时是订阅者。 MQTT&am…

从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

🔥从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型 “为什么所有大模型(LLM)都长一个样?” 因为它们都有一个共同的“基因”——Decoder-Only 架构。 在前面两节中,我们学习了: BER…

Codeforces Round 1047 (Div. 3)

由于最近这三天的数学建模,让我这个精力本来就不多的AI手更加力竭了,没注意到昨晚的cf,所以今天来补题了。 比赛连接:比赛传送门 A题: You are doing a research paper on the famous Collatz Conjecture. In your e…

C++经典的数据结构与算法之经典算法思想:贪心算法(Greedy)

贪心算法(Greedy Algorithm):通过局部最优达成全局最优的决策策略 贪心算法是一种通过每次选择局部最优解来期望全局最优解的算法思想。它不考虑未来的影响,仅根据当前信息做出最优选择,适用于具有贪心选择性质和最优子…

LangChain实战(二十一):构建自动化AI客服系统

本文是《LangChain实战课》系列的第二十一篇,将带领您构建一个完整的自动化AI客服系统。通过结合对话记忆、工具调用和业务知识库,我们将创建一个能够处理复杂客户查询的智能客服解决方案。 前言 在现代商业环境中,客户服务是企业成功的关键因素之一。传统客服系统往往面临…

一人公司智能管理系统概述

系统概述 项目结构 Al_Compny系统采用前后端分离的全栈架构,项目根目录下包含两个主要子目录:Al_Compny_backend(后端服务)和Al_Compny_frontend(前端应用)。核心功能模块 Al_Compny系统是一个面向"一…

OpenWrt | 在 PPP 拨号模式下启用 IPv6 功能

文章目录一、WAN 口配置二、LAN 口配置三、IPv6 测试本文将详细介绍 将光猫的网络模式改成桥接之后使用路由器拨号的上网方式的情况下,在 OpenWrt 上使用 PPP 拨号模式上网时,启用 IPv6 功能的方法。 一、WAN 口配置 首先,我们需要在 网络 …

Java如何实现一个安全的登录功能?

安全登录系统完整教程 📋 目录 项目概述技术栈安全特性项目结构核心组件详解安全实现原理部署和运行安全最佳实践常见问题解答进阶扩展 🎯 项目概述 这是一个基于Spring Boot和Spring Security的完整安全登录系统,专为初学者设计&#xff…

星辰诞愿——生日快乐

前言 今天这篇博客并非技术文章,而是庆祝我可爱的妹妹18岁生日以及介绍我半年以来的学习经历 祝生网站:星辰诞愿(用户列表里第一位就是我妹妹,希望大家能献上自己的祝福,能分享转发更好,我在此感谢大家。如果使用手机&…

基于STM32单片机的智能粮仓温湿度检测蓝牙手机APP设计

基于STM32单片机的智能粮仓温湿度检测蓝牙手机APP设计 1 系统功能介绍 本系统是一款基于STM32单片机的智能粮仓环境监测与控制装置,核心目标是通过传感器实时采集粮仓内的温度和湿度信息,并结合蓝牙通信模块将数据传输至手机端,实现对粮仓环境…

简单视频转换器 avi转mp4

直接上代码package com.example.videoconverter;import ws.schild.jave.Encoder; import ws.schild.jave.EncoderException; import ws.schild.jave.MultimediaObject; import ws.schild.jave.encode.AudioAttributes; import ws.schild.jave.encode.EncodingAttributes; impor…