梯度下降算法(Gradient Descent)的数学公式可以通过以下步骤严格表达:


1. 基本梯度下降(Batch Gradient Descent)

目标:最小化损失函数L(θ)\mathcal{L}(\theta)L(θ),其中 θ\thetaθ是模型参数。
参数更新规则θt+1=θt−η⋅∇θL(θt)\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta \mathcal{L}(\theta_t)θt+1=θtηθL(θt)

  • θt\theta_tθt:第 $t $次迭代的参数值
  • η\etaη:学习率(Learning Rate)
  • ∇θL(θt)\nabla_\theta \mathcal{L}(\theta_t)θL(θt):损失函数对参数 θ\thetaθ的梯度(所有训练样本的平均梯度)。

2. 随机梯度下降(Stochastic Gradient Descent, SGD)

每次迭代随机选取一个样本计算梯度:
θt+1=θt−η⋅∇θL(θt;xi,yi)\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta \mathcal{L}(\theta_t; x_i, y_i)θt+1=θtηθL(θt;xi,yi)

  • ∇θL(θt;xi,yi)\nabla_\theta \mathcal{L}(\theta_t; x_i, y_i)θL(θt;xi,yi):仅基于单个样本 (xi,yi)(x_i, y_i)(xi,yi)的梯度。

3. 小批量梯度下降(Mini-Batch Gradient Descent)

每次迭代使用一个小批量(Batch)数据计算梯度:

θt+1=θt−η⋅1B∑i=1B∇θL(θt;xi,yi)\theta_{t+1} = \theta_t - \eta \cdot \frac{1}{B} \sum_{i=1}^B \nabla_\theta \mathcal{L}(\theta_t; x_i, y_i)θt+1=θtηB1i=1BθL(θt;xi,yi)

  • BBB:批量大小(Batch Size)
  • 1B∑i=1B∇θL\frac{1}{B} \sum_{i=1}^B \nabla_\theta \mathcal{L}B1i=1BθL:批量内样本梯度的平均值。

4. 带动量的梯度下降(Momentum)

引入动量项 vtv_tvt加速收敛并减少震荡:

vt+1=βvt+(1−β)∇θL(θt)v_{t+1} = \beta v_t + (1-\beta) \nabla_\theta \mathcal{L}(\theta_t)vt+1=βvt+(1β)θL(θt)
θt+1=θt−η⋅vt+1\theta_{t+1} = \theta_t - \eta \cdot v_{t+1}θt+1=θtηvt+1

  • β\betaβ:动量系数(通常设为 0.9),控制历史梯度的影响。

5. Adam 优化器

结合动量(一阶矩)和自适应学习率(二阶矩),并引入偏差修正:

mt+1=β1mt+(1−β1)∇θL(θt)(一阶矩估计)m_{t+1} = \beta_1 m_t + (1-\beta_1) \nabla_\theta \mathcal{L}(\theta_t) \quad \text{(一阶矩估计)}mt+1=β1mt+(1β1)θL(θt)(一阶矩估计)
vt+1=β2vt+(1−β2)(∇θL(θt))2(二阶矩估计)v_{t+1} = \beta_2 v_t + (1-\beta_2) \left( \nabla_\theta \mathcal{L}(\theta_t) \right)^2 \quad \text{(二阶矩估计)}vt+1=β2vt+(1β2)(θL(θt))2(二阶矩估计)
m^t+1=mt+11−β1t+1(一阶矩偏差修正)\hat{m}{t+1} = \frac{m{t+1}}{1 - \beta_1^{t+1}} \quad \text{(一阶矩偏差修正)}m^t+1=1β1t+1mt+1(一阶矩偏差修正)
v^t+1=vt+11−β2t+1(二阶矩偏差修正)\hat{v}{t+1} = \frac{v{t+1}}{1 - \beta_2^{t+1}} \quad \text{(二阶矩偏差修正)}v^t+1=1β2t+1vt+1(二阶矩偏差修正)
θt+1=θt−η⋅m^t+1v^t+1+ϵ\theta_{t+1} = \theta_t - \eta \cdot \frac{\hat{m}{t+1}}{\sqrt{\hat{v}{t+1}} + \epsilon}θt+1=θtηv^t+1+ϵm^t+1

  • β1,β2\beta_1, \beta_2β1,β2:衰减率(通常设为 0.9 和 0.999)
  • ϵ\epsilonϵ:数值稳定性常数(通常设为$10^{-8} $)。

6. 梯度下降的数学意义

梯度下降的更新方向由 负梯度方向 −∇θL-\nabla_\theta \mathcal{L}θL决定,其本质是沿着损失函数曲面的最速下降方向移动参数 θ\thetaθ。学习率 η\etaη控制步长,过大可能导致震荡,过小则收敛缓慢。


公式总结表

算法公式
批量梯度下降θt+1=θt−η⋅∇θL\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta \mathcal{L}θt+1=θtηθL
随机梯度下降θt+1=θt−η⋅∇θL(xi,yi)\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta \mathcal{L}(x_i, y_i)θt+1=θtηθL(xi,yi)
小批量梯度下降θt+1=θt−η⋅1B∑i=1B∇θL(xi,yi)\theta_{t+1} = \theta_t - \eta \cdot \frac{1}{B} \sum_{i=1}^B \nabla_\theta \mathcal{L}(x_i, y_i)θt+1=θtηB1i=1BθL(xi,yi)
Momentumvt+1=βvt+(1−β)∇θL),(θt+1=θt−ηvt+1v_{t+1} = \beta v_t + (1-\beta)\nabla_\theta \mathcal{L} ),( \theta_{t+1} = \theta_t - \eta v_{t+1}vt+1=βvt+(1β)θL)(θt+1=θtηvt+1
Adamθt+1=θt−η⋅m^t+1v^t+1+ϵ\theta_{t+1} = \theta_t - \eta \cdot \frac{\hat{m}{t+1}}{\sqrt{\hat{v}{t+1}} + \epsilon}θt+1=θtηv^t+1+ϵm^t+1

关键点

  1. 梯度方向:负梯度方向是函数值下降最快的方向(由泰勒展开的一阶近似可得)。
  2. 学习率选择:学习率 $\eta $需通过实验调参(或使用自适应方法如 Adam)。
  3. 收敛性:在凸函数中,梯度下降收敛到全局最优;在非凸函数中可能收敛到局部极小或鞍点。
  4. 复杂度:批量梯度下降计算成本高,小批量/随机梯度下降更适合大规模数据。

通过上述公式,梯度下降算法被严格地数学化,成为深度学习模型优化的基础工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90218.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90218.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/90218.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AM1.5G AAA稳态太阳光模拟器特点

光谱匹配度AM1.5G AAA稳态太阳光模拟器的光谱分布严格匹配国际标准IEC 60904-9中的AM1.5G光谱(波长范围300-4000nm),确保与自然太阳光的偏差在25%以内(AAA级标准)。光谱匹配度通过精密滤光片和氙灯或LED组合光源实现&a…

OSPF开放式最短路径优先

1OSPF简介(1)OSPF英文全称Open Shortest Path First (开放式最短路径优先)(2)OSPF是IETF 开发的一种链路状态路由协议,使用基于带宽的度量值。(3)OSPF采用SPF算法计算路由,从算法上保…

Lua(模块与包)

Lua 模块的基本概念Lua 中的模块是一个由函数、变量组成的代码库,通常保存在独立的 .lua 文件中。模块通过 return 语句导出其内容,供其他脚本调用。模块化设计可以提高代码复用性,便于管理。创建模块模块通常以 .lua 文件形式存在&#xff0…

1. boost::asio之socket的创建和连接

网络编程基本流程 网络编程的基本流程对于服务端是这样的 服务端 1)socket——创建socket对象。 2)bind——绑定本机ipport。 3)listen——监听来电,若在监听到来电,则建立起连接。 4)accept——再创建一个…

WPF 控制动画开关

记录一种实现方式:第一步:首先定义一个静态类,提供依赖属性,进而方便在xaml中实现绑定:public static class AnimationBehavior{// 定义附加属性public static readonly DependencyProperty IsAnimatingProperty Depen…

元素竖向的百分比设定是相对于父容器的高度吗?

元素竖向的百分比设定是相对于父容器的高度吗? 核心问题 在CSS中,当设置元素的竖向属性(如height、padding-top等)为百分比值时,其计算基准是父容器的高度还是宽度? 权威结论height属性 百分比值基于父容器…

web3.0怎么入局

Web3.0(第三代互联网)融合了区块链、去中心化应用(DApps)、NFT、DAO等新兴技术,给个人和机构提供了许多全新的赚钱机会。入局 Web3.0 赚钱主要有以下几种途径,根据你的技术背景、资金能力和时间投入可以选择适合自己的方式。 目录 一、普通用户赚钱方式(门槛低) 1. …

linux入门 相关linux系统操作命令(二)--文件管理系统 ubuntu22.04

以下有免费的4090云主机提供ubuntu22.04系统的其他入门实践操作 地址:星宇科技 | GPU服务器 高性能云主机 云服务器-登录 相关兑换码星宇社区---4090算力卡免费体验、共享开发社区-CSDN博客 兑换码要是过期了,可以私信我获取最新兑换码!&a…

Python-初学openCV——图像预处理(二)

目录 一、图像仿射变换 1、基本性质 二、cv2.warpAffine() 函数 1、图像旋转 2、图像平移 3、图像缩放 4、图像剪切 三、 插值方法 1、最近邻插值 2、双线性插值 3、像素区域插值 4、双三次插值 5、Lanczos插值 一、图像仿射变换 仿射变换(Affine Tr…

医疗AI轻量化部署方案的深度梳理与优化路径判研

摘要 医疗AI的快速发展为精准诊断、个性化治疗和医疗资源优化提供了新机遇。然而,大规模模型的高计算复杂度和资源需求限制了其在资源受限环境(如边缘设备、基层医疗机构)的应用。本文系统梳理了医疗AI轻量化部署的核心技术体系,包括模型压缩、参数高效微调(PEFT)、边缘-…

SSP通过SDK对接流量的原理与实现

一、核心概念解析 1.1 SSP(供应方平台) 定义:SSP是程序化广告生态中媒体方的核心工具,通过自动化技术帮助媒体(如网站、应用、视频平台)管理广告资源、优化填充率并最大化广告收益。核心功能:…

如何清理电脑c盘内存 详细操作步骤

电脑使用时间不断延长,许多用户可能会遇到一个问题——C盘空间不足,导致系统运行缓慢或无法安装新程序。如果C盘的存储空间被大量占用,可能会影响到计算机的性能。本文将介绍几种有效的方法,帮助你清理C盘内存,释放空间…

ESP32的ADF详解:5. Streams的API

一、算法流 (algorithm stream) 1. 初始化与配置API功能描述关键参数说明algo_stream_init()初始化算法流(AEC/AGC/NS/VAD)config->algo_mask 选择算法组合config->sample_rate 设置采样率(默认16kHz)config->partition_…

JavaScript对象键序问题解析

问题的发现: 我有一个接口返回一个json数据浏览器network里的Response里是从大到小排。 但Preview就是反过来的 问题的描述: 上面那个让我发现浏览器处理对象或者json是会对其键值对做排序!!! 在JavaScript中&am…

pandas库的数据导入导出,缺失值,重复值处理和数据筛选,matplotlib库 简单图绘制

目录 一.数据导入导出 1.CSV文件读取与参数说明 2.Excel与TST文件读取 3.数据导出操作 二.缺失值处理 1.填充缺失值 2.删除缺失值【删除整行数据】 三.重复值处理 四.数据筛选与条件查询 1.逻辑判断取数 2.字符匹配 3.逻辑运算: &(和&…

FPGA 如何实现另一个 FPGA?

如果你对 FPGA 有些了解,大概知道它的意思是“可编程逻辑器件”,可以把写好的逻辑电路(通常是 Verilog/VHDL)通过工具综合、布局布线、烧写进去,让一块芯片变成“你想要的电路”。但如果我告诉你,现在有个开…

文思助手、新华妙笔 AI材料星的公文写作深度测评

公文写作一直都是体制内工作人员的日常核心任务,写公文的难点不仅来自于对政策表述严谨性的高要求,也在于格式规范、内容深度以及效率压力的多重考验。随着AI技术的发展,越来越多的文字辅助工具出现,很大程度的缓解了写作压力&…

Flutter开发环境搭建与工具链

Flutter开发实战第1章:Flutter开发环境搭建与工具链1.1 Flutter简介与优势Flutter是Google推出的开源UI工具包,用于从单一代码库构建编译为原生性能的移动、Web和桌面应用程序。Flutter的核心优势包括:跨平台一致性:一套代码运行在…

io_uring:Linux异步I/O的革命性突破

目录 1. io_uring是什么? io_uring核心优势: 2. io_uring核心原理 2.1 双环形缓冲区设计 2.2 关键数据结构 1、完成队列CQ 2、提交队列SQ 3、Params 3. io_uring工作流程 3.1 初始化阶段 3.2 I/O操作流程 4. C代码示例(原始系统调…

线段树学习笔记 - 练习题(2)

文章目录1. 前言2. P3870 [TJOI2009] 开关3. P2184 贪婪大陆4. P1438 无聊的数列5. P1471 方差1. 前言 线段树系列文章: 线段树学习笔记。线段树学习笔记 - 练习题(1)。 前一篇做了几道线段树的题目,这篇文章就继续看下线段树的…