bicheng/2025/8/12 6:21:57/文章来源:https://blog.csdn.net/LINJOSHUA/article/details/150151719

学习率预热是什么？

学习率预热（Learning Rate Warmup） 是一种在深度学习训练初期逐渐增加学习率的策略。其核心思想是：在训练开始时使用较小的学习率，逐步增加到目标学习率，以避免模型参数在初始阶段因学习率过大而剧烈波动，导致训练不稳定。

数学公式(线性预热)

假设目标学习率为 $lr_{target}$ ，预热总步数为 $T_{warmup}$ ，当前步数为 $t（0≤t<T_{warmup}）$ ，则预热阶段的学习率 lrtlrt 可表示为：

$lrt=lrtarget⋅tTwarmuplr_t=lr_{target}⋅\frac{t}{T_{warmup}}$

如果预热阶段结束后，学习率会保持 $lr_{target}$ 或根据其他策略（如衰减）调整。

学习率预热的作用

缓解模型初始不稳定
模型参数在训练初期是随机初始化的，若直接使用大学习率更新参数，可能导致梯度爆炸或震荡。预热阶段通过小学习率逐步调整参数，使模型逐渐稳定。
加速收敛
预热后，学习率达到目标值，模型可以更快地收敛。例如，在Transformer模型中，预热策略能显著提升训练效率。
防止过拟合
初始阶段的小学习率有助于模型在数据分布上“探索”，避免过早过拟合到局部特征。

图示说明（文字描述）

假设预热总步数为 100，目标学习率为 0.001，则学习率变化如下：

学习率变化曲线：
|
|         /\
|        /  \
|       /    \
|      /      \
|     /        \
|    /          \
|   /            \
|  /              \
| /                \
|/__________________\______> 步数0   50  100

前 100 步（预热阶段）：学习率从 0 线性增加到 0.001。
第 100 步后：学习率保持 0.001 或按衰减策略调整。

生活中的例子

开车起步
想象你驾驶一辆新车，如果直接猛踩油门，车可能会突然加速导致失控。相反，缓慢踩下油门（预热阶段），让车速逐渐提升到目标速度（目标学习率），能更安全地行驶。
健身锻炼
刚开始跑步时，如果直接全力冲刺，容易肌肉拉伤或疲劳。通常会先慢走或慢跑热身（预热阶段），再逐渐加速到正常强度。

实现代码（PyTorch 示例）

from torch.optim.lr_scheduler import LambdaLR
import torch.optim as optim# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)# 预热总步数
T_warmup = 100# 定义学习率调度器
scheduler = LambdaLR(optimizer, lr_lambda=lambda t: t / T_warmup if t < T_warmup else 1.0)# 训练循环
for step in range(total_steps):# 训练代码...optimizer.step()scheduler.step()

学习率预热策略数学公式及说明

1. 线性预热 (Linear Warmup)

$lrt=lrtarget⋅tTwarmuplr_t=lr_{target}⋅\frac{t}{T_{warmup}}$

原理：学习率随时间线性增长
场景：最基础常用的预热方式，适用于大多数深度学习任务，BERT/GPT常用

2. 余弦预热 (Cosine Warmup)

$lrt=lrmax⋅1−cos⁡(π⋅tTwarmup)2lr_t=lr_{max}⋅\frac{1−cos⁡(π⋅\frac{t}{T_{warmup}})}{2}$

原理：平滑的余弦曲线增长
场景：需要更平缓过渡的视觉任务（如CNN、ResNet）

3. 指数预热 (Exponential Warmup)

$lr_t=lr_{max}⋅(1−e^{−αt/T_{warmup}})$

原理：指数趋近目标学习率（α控制增长速率）
场景：对初始学习率敏感的模型，需要平滑过渡的场景

4. 平方根预热 (Sqrt Warmup)

$lrt=lrmax⋅tTwarmuplr_t=lr_{max}⋅\sqrt{\frac{t}{T_{warmup}}}$

原理：初期增长快，后期趋缓
场景：配合自适应优化器使用

5. 阶梯预热 (Step Warmup)

$lrt=lrmax⋅⌊t/s⌋Nlr_t = lr_{max} \cdot \frac{\lfloor t/s \rfloor}{N}$

原理：分阶段跳跃式增长
场景：分布式训练等特殊需求

其中：

$t$ ：当前训练步数
$T_{warmup}$ ：预热总步数
$lr_{max}$ ：目标学习率
$s$ ：阶梯步长（仅阶梯预热）
$N$ ：阶梯数（仅阶梯预热）
$α$ ：指数系数（通常取5）

总结

学习率预热通过渐进式调整学习率，解决了训练初期的三大问题：参数震荡、梯度统计量不准确和优化器偏差。其核心价值在于：

稳定训练：避免初期高学习率导致的发散。
提升收敛：帮助模型找到更优的优化路径。
适配大模型：尤其对Transformer、LLM等架构至关重要26。

实践建议：

预热步数：通常设为总训练步数的5%~20%（如BERT用10%）。
峰值学习率：根据任务调整（大模型常用 $1 e - 4$ ~ $5 e - 4$ ）。
结合衰减策略：如“预热+余弦退火”效果更佳。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/92754.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/92754.shtml
英文地址，请注明出处：http://en.pswp.cn/bicheng/92754.shtml

如若内容造成侵权/违法违规/事实不符，请联系英文站点网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

初识SYSCFG（System Configuration Controller）寄存器映射

初识SYSCFG（System Configuration Controller）寄存器映射

SYSCFG（System Configuration Controller）寄存器映射的详细说明，以 STM32（如 F1/F4/F7 系列）为例。SYSCFG 控制器用于系统级配置，如外部中断映射、存储器重映射等。SYSCFG 寄存器映射概述基地址&#xff1…

阅读更多...

《P3403 跳楼机》

《P3403 跳楼机》

题目背景DJL 为了避免成为一只咸鱼，来找 srwudi 学习压代码的技巧。题目描述Srwudi 的家是一幢 h 层的摩天大楼。由于前来学习的蒟蒻越来越多，srwudi 改造了一个跳楼机，使得访客可以更方便的上楼。经过改造，srwudi 的跳楼机可以采…

阅读更多...

【GPT-OSS 全面测评】释放推理、部署和自主掌控的 AI 新纪元

【GPT-OSS 全面测评】释放推理、部署和自主掌控的 AI 新纪元

目录一、背景与意义二、核心参数对比三、性能评测（Benchmark） 四、硬件适配与优化五、安全性与风险六、部署方式七、适用场景八、大型语言模型对比表（2025 年 8 月版） 总结一、背景与意义 💡 为什么…

阅读更多...

医疗健康Agent：诊断辅助与患者管理的AI解决方案

医疗健康Agent：诊断辅助与患者管理的AI解决方案

医疗健康Agent：诊断辅助与患者管理的AI解决方案 🌟 Hello，我是摘星！ 🌈 在彩虹般绚烂的技术栈中，我是那个永不停歇的色彩收集者。 🦋 每一个优化都是我培育的花朵，每一个特性都是我放…

阅读更多...

python魔法属性__doc__介绍

python魔法属性doc介绍

doc: 魔法属性。类、函数的描述信息。 __doc__在python中类的使用方法： class Person(object):"""人类---类的描述信息""" # 只能使用多行注释，单行注释无效passprint(Person.__doc__)运行结果如图所示：__d…

阅读更多...

PostgreSQL 批量COPY导入优化参数配置

PostgreSQL 批量COPY导入优化参数配置

💡 场景假设我们进行的是频繁批量导入、对数据持久性容忍较高的场景，比如日志表、缓存表、临时数据表等。如果系统崩溃可重导入，那我们就可以牺牲一点写入安全性来换极致性能。⚙️ 参数配置推荐（postgresql.conf）参…

阅读更多...

BeanDefinition 与 Bean 生命周期（面试高频考点）

BeanDefinition 与 Bean 生命周期（面试高频考点）

Bean 是 Spring 应用的核心组件，而 BeanDefinition 作为 Bean 的 “元数据描述”，贯穿了 Bean 从定义到销毁的全生命周期。理解 BeanDefinition 的加载注册机制，以及 Bean 的完整生命周期，是掌握 Spring 容器管理逻辑的关键&#…

阅读更多...

node.js 学习笔记2 进程/线程、fs

node.js 学习笔记2 进程/线程、fs

进程和线程进程：进行中的程序。比如有一段程序，程序已经载入内存了，CPU正在执行这段程序，这时候就会产生一个进程。进程，也可以看做程序的一次执行过程。在window中打开任务管理器，可以查看计算机中的所…

阅读更多...

【线性代数】其他

【线性代数】其他

上一节：【线性代数】线性方程组与矩阵——（3）线性方程组解的结构总目录：【线性代数】目录文章目录11. 向量的内积、长度及正交性12. 方阵的特征值与特征向量13. 相似矩阵14. 对称矩阵的对角化15. 二次型及其标准形11. 向量的内积…

阅读更多...

Spring Cloud LoadBalancer 实现自定义负载均衡策略（基于服务元数据筛选）

Spring Cloud LoadBalancer 实现自定义负载均衡策略（基于服务元数据筛选）

💡 Spring Cloud LoadBalancer 实现自定义负载均衡策略（基于服务元数据筛选） 在微服务架构中，我们常常希望对服务实例进行更精细的路由控制，例如： 灰度发布：不同环境访问不同版本操作系统差异&a…

阅读更多...

Javaweb（1）html、css、js

Javaweb（1）html、css、js

注：图来自黑马一、HTML（超文本标记语言） HTML 是网页的 “骨架”，负责定义页面的结构和内容，通过标签（tag）描述文本、图片、链接等元素。 1. 基础结构文档声明：<!DOCTYPE html>（告诉浏览器这是 HTML5 文档）。根标签：<html> 包裹整个文档，包含 &l…

阅读更多...

MQTT：Dashboard数据集成（待补充）

MQTT：Dashboard数据集成（待补充）

目录一、工作原理二、基本使用三、连接器基本使用一、工作原理数据集成使用sink和source组件与外部数据系统对接。 sink：用于将消息发送到外部数据系统，例如MySQL、Kafka或Http服务等。source：用于从外部数据系统接收消息，例如…

阅读更多...

VisionMoE本地部署的创新设计：从架构演进到高效实现

VisionMoE本地部署的创新设计：从架构演进到高效实现

本地部署VisionMoE的时代需求在人工智能技术飞速发展的今天，视觉语言模型(Vision-Language Models, VLMs)已成为多模态理解的核心工具。然而，传统的大型视觉语言模型主要依赖云端GPU集群进行部署和推理，这不仅带来了高昂的运营成本&#xf…

阅读更多...

机试备考笔记 8/31

机试备考笔记 8/31

2025年8月8日小结：省流，写了俩道巨简单的（被卡好久的传参指针和指针的引用的区别），一题递归（意满）；这笔记还是0809写的，啧，今天可能不写了，明天也…

阅读更多...

java9学习笔记-part2

java9学习笔记-part2

进程 API在 Java 9 之前，Process API 仍然缺乏对使用本地进程的基本支持，例如获取进程的 PID 和所有者，进程的开始时间，进程使用了多少 CPU 时间，多少本地进程正在运行等。Java 9 向 Process API 添加了一个名为 Proce…

阅读更多...

AI智能编程工具汇总

AI智能编程工具汇总

AI智能编程工具汇总以下是一份关于主流大模型开发工具的综合介绍，涵盖 Gemini CLI、Qwen-Code、Kimi K2 等关键工具的功能特性、安装方式与使用建议。 🌟 Gemini CLI 开发者：Google DeepMind 简介：命令行工具，用于调…

阅读更多...

算法_python_牛客华为机试笔记_01

算法_python_牛客华为机试笔记_01

刷题是必须的，通过刷题以及别人对题目的解析，可以快速理解，提高效率。 00_题库与参考视频华为机试_在线编程_牛客网 HJ3 明明的随机数_哔哩哔哩_bilibili 这套华为机试是华为笔试面试机考在线练习，共138道题，目前…

阅读更多...

Java基础-完成局域网内沟通软件的开发

Java基础-完成局域网内沟通软件的开发

目录案例要求： 实现思路： itheima-chat-server包 src com.itheima Constant类： Server类: ServerReaderThread类: itheima-chat-system包 src com.itheima.ui ChatEntryFrame类： ClientChatFrame类: ClientReaderTh…

阅读更多...

windows内核研究（内存管理-线性地址的管理）

windows内核研究（内存管理-线性地址的管理）

内存管理线性地址的管理进程空间的地址划分分区x86 32位Windows空指针赋值区0x00000000 - 0x0000FFFF用户模式区0x00010000 - 0x7FFEFFFF64KB禁入区0x7FFF0000 - 0x7FFFFFFF内核0x80000000 - 0xFFFFFFFF线性地址有4GB，但是并不是所有的地方都能访问（这里…

阅读更多...

【问题解决】使用patch-package修改node-models中的源码

【问题解决】使用patch-package修改node-models中的源码

文章目录一、应用场景二、patch-package 和 postinstallpatch-packagepostinstall三、操作步骤1、使用yarn安装patch-package和postinstall-postinstall2、修改package.json3、修改node-model中源码、保存。4、找到修改文件对应的包名5、使用git将新增的patches文件同步到仓库6…

阅读更多...

最新文章