Batch Normalization(批标准化,BN)通过标准化数据的操作,使得损失函数的优化地形(optimization landscape)更加平滑,从而达到更好地训练效果。BN常用于卷积神经网络(CNN)等。

1.原理

一般的gradient descend局限很大,RMSProp、small Batch、momentum等方法都是通过改变参数更新的策略实现优化,而Batch Normalization直接改变error surface

使各个feature处于同一范围的方法有很多,统称Feature Normalization,以下呈现的只是其中一种

2.实现

术语

standard deviation:标准差,variance:方差,tilde:波浪符号,converge:收敛

不仅是feature要标准化,中间的每层都需要标准化。标准化放在激活函数之前和之后效果相差不大。但是如果选择sigmoid,最好在sigmoid前标准化,因为sigmoid为s型,标准化后数据都在0附近,计算的gradient会更大,收敛会更快;否则收敛非常慢。

 

注意:下面标准化涉及的运算都是element-wise,对每个元素分别操作,而不是对向量处理。(比如求μ和σ)

一个有趣的事情是标准化后,Z1和后面所有的中间值关联起来了(图中标注了三角形的量)。但实际上不会选择full batch,把所有data一起丢进去训练,而是采用mini batch,所以这个方法叫做Batch Normalization。注意:batch size必须较大,因为只有batch里面的data足以表示整个训练集的分布时,才能用batch的Normalization近似代替训练集的Normalization。 

 这一步表示γ和作element-wise的乘法再加上β,目的:标准化强制数据均值为0、方差为1,但这种分布可能不符合实际任务的需求(例如,某些特征可能需要非线性的分布),通过 γγ 和 ββ 重新缩放和平移模型能够自适应地学习适合当前任务的分布,避免标准化对特征的过度约束。

开始时一般γ设为全1的向量,而β设为零向量。

3.实际运行的处理

上述方法中都是对batch标准化,但在inference(即testing)阶段,很可能没有batch,而是一个个单独的数据,所以必须调整策略

事实上在testing时并不需要自己处理,pytorch内部已经处理好了:使用moving average代替average。moving average即移动平均:一种通过使用过去若干时间段的平均值计算得出的平均值。移动平均值会定期变化,最早的数值会被基于最新数据的数值所替代。

 

4.实验结果 

蓝色的点表示相同的错误率,从图中可以看出Batch Normalization确实加快了训练速度。

粉色的线表示先进行Batch Normalization后sigmoid的结果,至于为什么没有先sigmoid,后Batch Normalization,作者说收敛速度太慢,训练不起来。

5. 有效性的解释

  

6.拓展:其他Normalization方法

BN不是唯一的Feature Normalization的方法,方法非常多:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/86932.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/86932.shtml
英文地址,请注明出处:http://en.pswp.cn/web/86932.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA在AI时代的智能编程实践:从工蜂到通义灵码的效能跃迁‌‌

引言‌ 在腾讯云工作期间,我曾使用‌工蜂的AI代码补全功能,结合IntelliJ IDEA(以下简称IDEA)极大提升了开发效率。如今离开腾讯云,面对外部开发环境,如何继续利用AI提升编码效率?本文将系统梳理…

MySQL 慢查询日志详解

慢查询日志(Slow Query Log)是 MySQL 提供的一种核心性能优化工具,用于记录执行时间超过指定阈值的 SQL 语句。通过分析这些日志,可以定位数据库性能瓶颈,优化低效查询,提升系统整体效率。 一、慢查询日志的…

UV安装Python指南总结

UV安装Python指南总结 UV是一个Python包管理工具,它可以帮助我们安装和管理Python版本。以下是关于UV安装Python的主要功能和用法总结。 基本使用 安装最新版Python uv python install注意:UV使用Astral的python-build-standalone项目提供的Python发行版,而不是…

运维基础-MYSQL数据库-笔记

序 欠10年前自己的一份笔记,献给今后的自己。 数据库介绍 数据的时代 涉及的数据量大数据不随程序的结束而消失数据被多个应用程序共享大数据 数据库的发展史 萌芽阶段:文件系统 使用磁盘文件来存储数据初级阶段:第一代数据库 出现了网状…

从GPTs到Real智能体:目前常见的几种创建智能体方式

文章目录 智能体的三个发展阶段低阶智能体(面向过程) VS 高阶智能体(面向目标)主流智能体创建平台实践基础型平台cherry-studio豆包讯飞星火腾讯元器 高阶智能体开发体系cline开发套件Coze平台Dify开源框架Manus突破性方案 技术演进趋势总结 智能体的三个发展阶段 当前智能体技…

WPF 实现自定义数字输入弹窗

1.前端代码实现 <Grid><Grid.RowDefinitions><RowDefinition Height"100" /><RowDefinition Height"*" /></Grid.RowDefinitions><BorderGrid.Row"0"BorderBrush"WhiteSmoke"BorderThickness"0…

基于yolo海洋垃圾物品识别系统flask

查看完整项目包点击文末名片 项目简介 本项目 基于YOLO的海洋垃圾物品识别系统 旨在利用深度学习中的YOLO&#xff08;You Only Look Once&#xff09;模型&#xff0c;实现对海洋垃圾的自动识别与分类。通过构建一个基于Flask的Web应用&#xff0c;用户可以方便地上传图片&…

从数据到决策:UI前端如何利用数字孪生技术提升管理效率?

hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 在数字化转型的深水区&#xff0c;企业管理者正面临数据过载与决策滞后的双重挑战 ——IDC 研…

Spring Boot高并发 锁的使用方法

Spring Boot高并发 锁的使用方法 在高并发场景中&#xff08;比如电商秒杀、抢票系统、转账交易&#xff09;&#xff0c;多个线程/用户会同时操作同一共享资源&#xff08;如库存、账户余额、订单号&#xff09;。如果不做控制&#xff0c;会导致数据错误&#xff08;如库存超…

二十九:Dynamic Prompts插件动态提示词讲解

引言:可变化提示词,随机抽取不固定 使用方式一:{提示词1|提示词2|。。。。}------从提示词种随机抽取生成 方式二:{25::提示词1|75::提示词2}------数字为每个提示词的占比,相当于权重 方式三:{2$$提示词1|提示词2|提示词3|提示词4|。。。}从中选区2个搭配生成(可以换 比…

vscode 改注释的颜色,默认是灰色的,想改成红色

修改VScode编辑器默认注释的颜色_databricks代码中怎么设置让注释是灰色的-CSDN博客 //改变注释颜色"editor.tokenColorCustomizations": {"comments": "#009933" // 注释}, //如果后面还加内容&#xff0c;记得块末用逗号隔开我自己用的vscdoe.…

chili3d笔记22 正交投影3d重建笔记3 面构建

双视图重建3d solid import { FaceNode } from "chili"; import {IDocument,IEdge,Logger,ShapeNode,XYZ } from "chili-core"; import { Graph } from "graphlib"; function pointToString(point: XYZ): string {return ${point.x.toFixed(0)}-…

Kotlin 协程使用与通信

一、协程基础使用 1. 协程的三种创建方式 (1) launch - 启动后台作业 val job CoroutineScope(Dispatchers.IO).launch {// 后台操作delay(1000)println("任务完成 ${Thread.currentThread().name}")// 输出&#xff1a;任务完成 DefaultDispatcher-worker-1 } j…

Ubuntu服务器(公网)- Ubuntu客户端(内网)的FRP内网穿透配置教程

以下是为Ubuntu服务器&#xff08;公网&#xff09;- Ubuntu客户端&#xff08;内网&#xff09;的FRP内网穿透配置教程&#xff0c;基于最新版本&#xff08;2025年6月&#xff0c;使用frp_0.61.1_linux_amd64&#xff09;整理&#xff1a; 一、服务端配置&#xff08;公网Ubu…

什么是哈希函数(SHA-256)

SHA-256 是区块链系统中最核心的加密基础之一&#xff0c;尤其是在比特币、以太坊、文件存证等场景中扮演“指纹识别器”的角色。下面是对它的详细讲解&#xff0c;包括原理、特点、用途和代码示例。 &#x1f4cc; 一、什么是 SHA-256&#xff1f; SHA-256 是一种密码学哈希函…

大模型的“Tomcat”:一文读懂AI推理引擎(Inference Engine)

点击下方“JavaEdge”&#xff0c;选择“设为星标” 第一时间关注技术干货&#xff01; 免责声明~ 任何文章不要过度深思&#xff01; 万事万物都经不起审视&#xff0c;因为世上没有同样的成长环境&#xff0c;也没有同样的认知水平&#xff0c;更「没有适用于所有人的解决方案…

《从0到1:C/C++音视频开发自学完全指南》

从0到1&#xff1a;C/C音视频开发自学完全指南 一、开篇&#xff1a;为什么选择C/C切入音视频开发&#xff1f; 当你刷着抖音短视频、参加腾讯会议、观看B站直播时&#xff0c;背后都是音视频技术在支撑。根据艾瑞咨询数据&#xff0c;2024年中国音视频相关产业规模已突破5000…

微信小程序之单行溢出隐藏和双行溢出隐藏

首先&#xff0c;我们做个text&#xff0c;加入了一个长文本&#xff0c;就像下面那样&#xff1a; wxml : <view class"container"><text>刘德华&#xff08;Andy Lau&#xff09;&#xff0c;1961年9月27日出生于中国香港&#xff0c;华语影视男演员、…

PHP安装使用教程

一、PHP 简介 PHP&#xff08;Hypertext Preprocessor&#xff09;是一种广泛应用的开源服务器端脚本语言&#xff0c;尤其适用于 Web 开发&#xff0c;可嵌入 HTML 中使用。其运行速度快、易学易用&#xff0c;支持多种数据库和平台。 二、PHP 安装教程 2.1 支持平台 PHP 支…

ThreadLocal、InheritableThreadLocal与TransmittableThreadLocal深度解析

文章目录 一、概念说明1、ThreadLocal2、InheritableThreadLocal3、TransmittableThreadLocal 二、使用场景1、ThreadLocal2、InheritableThreadLocal3、TransmittableThreadLocal 三、存在的问题1、ThreadLocal2、InheritableThreadLocal3、TransmittableThreadLocal 四、示例…