文章目录

  • 一、论文信息
  • 二、论文概要
  • 三、实验动机
  • 四、创新之处
  • 五、实验分析
  • 六、核心代码
    • 注释版本
  • 七、实验总结

一、论文信息

  • 论文题目:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks
  • 中文题目:奔跑而非行走:追求更高FLOPS以实现更快神经网络
  • 论文链接:点击跳转
  • 代码链接:点击跳转
  • 作者:Jierun Chen (中文名:陈洁润),香港科技大学(HKUST)、Shiu-hong Kao (高诗鸿),香港科技大学(HKUST)、Hao He (何豪),香港科技大学(HKUST)、Weipeng Zhuo (卓伟鹏),香港科技大学(HKUST)\Song Wen (温松),罗格斯大学(Rutgers University)、Chul-Ho Lee (李哲昊),德州州立大学(Texas State University)、S.-H. Gary Chan (陈绍豪),香港科技大学(HKUST)
  • 单位: 香港科技大学(HKUST)、罗格斯大学、德克萨斯州立大学
  • 核心速览:提出一种新型部分卷积(PConv)和FasterNet架构,在减少FLOPs的同时提升FLOPS,实现更快的推理速度。

二、论文概要

本文指出当前轻量级神经网络虽然FLOPs低,但由于内存访问频繁导致FLOPS(每秒浮点运算次数)不高,实际延迟并未显著降低。作者提出部分卷积(PConv),仅对部分通道进行卷积,减少计算和内存访问,并基于此构建FasterNet,在多个视觉任务上实现速度与精度的最优平衡。

三、实验动机

  • 现有轻量网络(如MobileNet、ShuffleNet)虽FLOPs低,但FLOPS也低,导致实际延迟高。

  • 深度可分离卷积(DWConv)等操作内存访问频繁,成为速度瓶颈。

  • 目标:在减少FLOPs的同时保持高FLOPS,实现真正的高速度。

两个概念:FLOPS和FLOPs(s一个大写一个小写)
FLOPS: FLoating point Operations Per Second的缩写,即每秒浮点运算次数,或表示为计算速度。是一个衡量硬件性能的指标。
FLOPs: FLoating point OPerationS 即 浮点计算次数,包含乘法和加法,只和模型有关,可以用来衡量其复杂度。
总结起来,S大写的是计算速度,小写的是计算量。计算量 / 计算速度 = 计算时间Latency

在这里插入图片描述

四、创新之处

  • 提出PConv:仅对连续的一部分通道进行卷积,其余通道保留,大幅减少计算和内存访问。

  • T型感受野:PConv + PWConv 组合形成T型卷积,更关注中心位置,与常规卷积近似。

  • FasterNet架构:基于PConv构建,结构简洁,硬件友好,在多个设备上(GPU/CPU/ARM)均表现优异。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

五、实验分析

  • PConv速度对比:在相同FLOPs下,PConv的FLOPS显著高于DWConv和GConv。

  • ImageNet分类:FasterNet在相同精度下延迟更低,吞吐量更高。

  • 下游任务(检测/分割):在COCO数据集上,FasterNet作为Backbone显著提升检测与分割性能。

  • 消融实验:验证了部分比例 r=1/4 最优,BN比LN更高效,不同规模模型适用不同激活函数。

在这里插入图片描述

六、核心代码

class Partial_conv3(nn.Module):def __init__(self, dim, n_div, forward):super().__init__()self.dim_conv3 = dim // n_divself.dim_untouched = dim - self.dim_conv3self.partial_conv3 = nn.Conv2d(self.dim_conv3, self.dim_conv3, 3, 1, 1, bias=False)if forward == 'slicing':self.forward = self.forward_slicingelif forward == 'split_cat':self.forward = self.forward_split_catelse:raise NotImplementedErrordef forward_slicing(self, x: Tensor) -> Tensor:# only for inferencex = x.clone()   # !!! Keep the original input intact for the residual connection laterx[:, :self.dim_conv3, :, :] = self.partial_conv3(x[:, :self.dim_conv3, :, :])return xdef forward_split_cat(self, x: Tensor) -> Tensor:# for training/inferencex1, x2 = torch.split(x, [self.dim_conv3, self.dim_untouched], dim=1)x1 = self.partial_conv3(x1)x = torch.cat((x1, x2), 1)return x

注释版本

class Partial_conv3(nn.Module):def __init__(self, dim, n_div, forward):super().__init__()self.dim_conv3 = dim // n_div  # 计算要进行3x3卷积的通道数self.dim_untouched = dim - self.dim_conv3  # 计算保持不变的通道数self.partial_conv3 = nn.Conv2d(self.dim_conv3, self.dim_conv3, 3, 1, 1, bias=False)  # 定义3x3卷积# 根据forward参数选择前向传播的实现方式 两个函数实质上是等价的操作,只是实现方式不同而已。if forward == 'slicing':self.forward = self.forward_slicingelif forward == 'split_cat':self.forward = self.forward_split_catelse:raise NotImplementedErrordef forward_slicing(self, x: Tensor) -> Tensor:# 仅用于推理的切片方法x = x.clone()   # 克隆输入以保持原始输入不变(为了后续残差连接)# 只对前dim_conv3个通道进行卷积操作x[:, :self.dim_conv3, :, :] = self.partial_conv3(x[:, :self.dim_conv3, :, :])return xdef forward_split_cat(self, x: Tensor) -> Tensor:# 用于训练/推理的分割-连接方法# 将输入分割为两部分:要进行卷积的部分和保持不变的部分x1, x2 = torch.split(x, [self.dim_conv3, self.dim_untouched], dim=1)x1 = self.partial_conv3(x1)  # 对第一部分进行卷积x = torch.cat((x1, x2), 1)   # 将两部分重新连接return x

七、实验总结

  • PConv 在减少FLOPs的同时显著提升FLOPS,是替代DWConv的高效选择。

  • FasterNet 在ImageNet、COCO等任务上实现SOTA速度-精度权衡。

  • 方法简洁、通用性强,适用于多种硬件平台。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921960.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921960.shtml
英文地址,请注明出处:http://en.pswp.cn/news/921960.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM(二)--- 类加载子系统

目录 前言 一、类加载过程 1. loading阶段 2. Linking阶段 2.1 验证 2.2 准备 2.3 解析 3. Initialization阶段 二、类加载器 1. 类加载器的分类 2. 用户自定义类加载器 三、双亲委派机制 四、其他知识点 前言 JVM的内存结构如图所示: 一、类加载过程…

Docker 容器的使用

1.容器的基本信息[roothost1 ~]# docker ps -a CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 9ac8245b5b08 img-layers-test "python /app/app.py" 45 hours ago Exited (0) 45 hour…

LLMs之Hallucinate:《Why Language Models Hallucinate》的翻译与解读

LLMs之Hallucinate:《Why Language Models Hallucinate》的翻译与解读 导读:该论文深入分析了语言模型中幻觉现象的成因,认为幻觉源于预训练阶段的统计压力和后训练阶段评估体系对猜测行为的奖励。论文提出了通过修改评估方法,使其…

Spring Cloud @RefreshScope 作用是什么?

RefreshScope 是 Spring Cloud 中的一个重要注解,主要作用如下: 主要功能动态刷新配置 使 Bean 能够在运行时动态刷新配置属性当配置中心的配置发生变化时,无需重启应用即可生效作用域管理 为 Bean 创建一个特殊的作用域 refresh标记的 Bean …

Flutter SDK 安装与国内镜像配置全流程(Windows / macOS / Linux)

这是一份面向国内网络环境的 Flutter 从零到可运行指引:覆盖 SDK 安装、平台依赖准备、国内镜像配置(PUB_HOSTED_URL、FLUTTER_STORAGE_BASE_URL)、Android 侧 Gradle 仓库加速,以及 Java/Gradle 版本兼容的关键坑位与排查思路。文…

【Java】NIO 简单介绍

简介 从 Java 1.4 版本开始引入的一个新的 I/O API,可以替代标准的 Java I/O。提供了与标准 I/O 不同的工作方式,核心是 通道(Channel)、缓冲区(Buffer) 和 选择器(Selector)。支持非…

Java爬虫获取京东item_get_app数据的实战指南

一、引言京东开放平台提供了丰富的API接口,其中item_get_app接口可用于获取商品的详细信息。这些数据对于市场分析、价格监控、商品推荐等场景具有重要价值。本文将详细介绍如何使用Java编写爬虫,通过调用京东开放平台的item_get_app接口获取商品详情数据…

Vue3源码reactivity响应式篇之批量更新

概述 在vue3响应式系统设计中,批量更新是优化性能的核心机制之一。当短时间内频繁多次修改响应式数据时,批量更新可以避免频繁触发订阅者的更新操作,将这些更新操作合并为一次,从而减少不必要的计算和DOM操作。 批量更新也是利用链…

AI 模型训练过程中参数用BF16转向FP16的原因

大模型训练从 FP16 转向 BF16 是一个关键的技术演进,其核心原因在于 BF16 在动态范围和精度之间取得了更优的平衡,从而极大地提升了训练(尤其是大模型训练)的稳定性和有效性。 1. 背景 为什么需要半精度浮点数 (FP16)?…

python网络爬取个人学习指南-(五)

**************************************************************************************************************author:keyinfodate:2025-09-09 23:50title:网络信息爬取之多联级标题内容点击****************************************…

RAG - 检索增强生成

第一部分:RAG 详解一、RAG 是什么?RAG(Retrieval-Augmented Generation,检索增强生成)是一种将信息检索(或知识检索)与大语言模型(LLM)的生成能力相结合的技术框架。它的…

大数据毕业设计选题推荐-基于大数据的分化型甲状腺癌复发数据可视化分析系统-Spark-Hadoop-Bigdata

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

Spring Bean扫描

好的,没有问题。基于我们之前讨论的内容,这是一篇关于 Spring Bean 扫描问题的深度解析博客。Spring Bean扫描作者:Gz | 发布时间:2025年9月9日🎯 Spring如何找到你的Bean? 首先要理解原理。Spring的组件扫…

【 运维相关】-- HTTP 压测/负载发生器之新秀 oha

目录 oha 项目分析(hatoo/oha) 一、概述 二、安装 三、快速上手 三、常用参数(摘选) 四、输出解读(终端 TUI) 五、与其它工具对比 六、最佳实践 七、注意事项 八、参考 oha 项目分析(h…

淘宝闪购基于FlinkPaimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路

摘要:本文整理自淘宝闪购(饿了么)大数据架构师王沛斌老师在 Flink Forward Asia 2025 城市巡回上海站的分享。引言在数字化转型的浪潮中,企业对实时数据处理的需求日益增长。传统的实时数仓架构在面对业务快速变化和数据规模爆炸性增长时,逐渐…

Android应用添加日历提醒功能

功能 在安卓应用里调用系统日历&#xff0c;直接创建一个带提醒的日历事件&#xff0c;甚至不需要跳转到日历界面&#xff0c;只需要获取系统日历的读取权限即可。 需要的权限 在AndroidManifest.xml里添加 <uses-permission android:name"android.permission.READ_CAL…

‌Git Bisect 二分查找定位错误总结

# Git Bisect 二分查找指南## 1. 基本原理&#xff08;ASCII示意图&#xff09; 假设提交历史是一条时间线&#xff0c;Ggood&#xff08;正常&#xff09;&#xff0c;Bbad&#xff08;异常&#xff09;&#xff1a;提交顺序: G --- G --- G --- B --- B --- B | | | 初始正常…

ThingsKit物联网平台 v2.0.0 发布|前端UI重构、底层架构升级

v2.0.0 Release发布日期&#xff1a;2025/08/25 代码标签&#xff1a;v2.0.0_Release&#x1f947; 新增功能国标级联&#xff08;支持上级、下级国标级联&#xff09;视频回放、录像计划&#xff08;用户可以通过录像计划生成对应的视频回放并查看&#xff09;Modbus_TCP协…

Lua > Mac Mini M4安装openresty

Mac Mini M4安装openresty 主要参考 https://www.cnblogs.com/helios-fz/p/15703260.html brew uninstall nginxbrew update brew install pcre openssl #brew install geoip# brew tap openresty/brew # brew install openresty # brew install openresty/brew/openresty# VER…

【多线程案例】:单例模式

多线程案例8.1 单例模式饿汉模式懒汉模式懒汉模式-单线程版懒汉模式-多线程版懒汉模式-多线程版(改进)8.1 单例模式 单个实例. 在一个 java 进程中, 要求指定的类,只能有唯–个实例。&#xff08;尝试 new 多个实例的时候, 就会直接编译报错&#xff09; 单例模式是校招中最常…