大模型微调时节约显存和内存是一个至关重要的话题，尤其是在消费级GPU（如RTX 3090/4090）或资源有限的云实例上。下面我将从显存（GPU Memory） 和内存（CPU Memory） 两个方面，为你系统地总结节约策略，并从易到难地介绍具体技术。

显存占用大头：
1. 模型权重：以FP16格式存储一个175B（如GPT-3）的模型就需要约350GB显存，这是最主要的占用。
2. 优化器状态：如Adam优化器，会为每个参数保存动量（momentum）和方差（variance），这通常需要2倍于模型参数（FP16）的显存。例如，对于70亿（7B）参数的模型，优化器状态可能占用 7B * 2 * 2 = 28 GB（假设模型权重占14GB FP16）。
3. 梯度：梯度通常和模型权重保持同样的精度（例如FP16），这又需要一份1倍的显存。
4. 前向传播的激活值：用于在反向传播时计算梯度，这部分占用与batch size和序列长度高度相关。
5. 临时缓冲区：一些计算操作（如矩阵乘）会分配临时空间。
内存占用大头：
1. 训练数据集：尤其是将整个数据集一次性加载到内存中。
2. 数据预处理：tokenization、数据增强等操作产生的中间变量。

这些策略通常需要结合使用，效果最佳。

FP16 / BF16 混合精度训练：这是现代深度学习训练的标配。
- 原理：将模型权重、激活值和梯度大部分时间保存在FP16（半精度）或BF16（Brain Float）中，进行前向和反向计算，以节约显存和加速计算。同时保留一份FP32的权重副本用于优化器更新，保证数值稳定性。
- 节省效果：显著。模型权重和梯度占用几乎减半。
- 实现：框架（如PyTorch）自带（torch.cuda.amp），或深度学习库（如Hugging Face Trainer）只需一个参数 fp16=True 即可开启。
INT8 / QLoRA 量化微调：
- 原理：将预训练模型的权重量化到低精度（如INT8），甚至在使用QLoRA时量化到4bit，然后在微调时再部分反量化回BF16/FP16进行计算，极大减少存储模型权重所需的显存。
- 节省效果：极其显著。QLoRA可以让一个70B模型在单张48GB显存卡上微调。
- 实现：使用 bitsandbytes 库和 peft 库可以轻松实现。

使用内存高效的优化器：
- 如：Adafactor, Lion, 或 8-bit Adam (bitsandbytes.optim.Adam8bit)。
- 原理：这些优化器以不同的方式减少了动量、方差等状态的存储需求。例如，8-bit Adam将优化器状态也量化到8bit存储。
- 节省效果：显著。可以节省大约 0.5~1倍 模型权重的显存（原本需要2倍）。

梯度检查点（Gradient Checkpointing）：
- 原理：在前向传播时只保存部分层的激活值，而不是全部。在反向传播时，对于没有保存激活值的层，重新计算其前向传播。这是一种 “用计算时间换显存” 的策略。
- 节省效果：非常显著。可以将激活值占用的显存减少到原来的 1/sqrt(n_layers) 甚至更少，但训练时间会增加约20%-30%。
- 实现：在Hugging Face Transformers中，只需在 TrainingArguments 中设置 gradient_checkpointing=True。

减少Batch Size和序列长度：
- 这是最直接但可能影响效果的方法。Batch Size和序列长度会线性影响激活值显存占用。
使用Flash Attention：
- 原理：一种更高效、显存友好的Attention算法实现。它通过分块计算避免存储完整的 N x N 注意力矩阵，从而大幅减少中间激活值的显存占用。
- 节省效果：显著，尤其对于长序列任务。
- 实现：需要安装对应的库（如 flash-attn），并确保你的模型支持。

数据并行（Data Parallelism）：多张GPU，每张存有完整的模型副本，处理不同的数据批次。这是最常见的方式，能增大有效Batch Size，但不减少单卡显存占用。
张量并行（Tensor Parallelism）：将模型层的矩阵运算拆分到多个GPU上。例如，一个大的线性层，将其权重矩阵切分到4张卡上计算。能减少单卡模型权重存储，但卡间通信开销大。
流水线并行（Pipeline Parallelism）：将模型的不同层放到不同的GPU上。例如，前10层在GPU0，中间10层在GPU1，最后10层在GPU2。能极大减少单卡模型存储。
ZeRO（Zero Redundancy Optimizer）：
- 原理：DeepSpeed库的核心技术。它将优化器状态、梯度和模型参数在所有GPU间进行分区，而不是每张GPU都保留一份完整副本。需要时通过通信从其他GPU获取。
- ZeRO-Stage 1：分区优化器状态。
- ZeRO-Stage 2：分区优化器状态 + 梯度。
- ZeRO-Stage 3：分区优化器状态 + 梯度 + 模型参数。
- 节省效果：极其显著。ZeRO-Stage 3几乎可以将显存占用随GPU数量线性减少。
- CPU卸载（Offload）：ZeRO-Infinity等技术甚至可以將优化器状态、梯度或模型参数卸载到CPU内存和NVMe硬盘，从而在单张GPU上微调超大模型。代价是通信速度慢。

使用迭代式数据加载：
- 不要一次性将整个数据集加载到内存中。使用PyTorch的 Dataset 和 DataLoader，它们会按需从磁盘加载和预处理数据。
使用高效的数据格式：
- 将数据集保存为parquet、arrow（Apache Arrow）或tfrecord等高效二进制格式，而不是json或csv文本格式，加载更快，占用内存更小。
优化数据预处理：
- 使用多进程进行数据预处理（DataLoader的 num_workers 参数），让CPU预处理和GPU计算重叠进行，避免GPU等待CPU，从而间接提升GPU利用率。

对于个人开发者或资源有限的团队，推荐按以下顺序尝试：

基础必备三件套：
- 开启混合精度训练 (fp16=True 或 bf16=True)。
- 使用梯度检查点 (gradient_checkpointing=True)。
- 使用内存高效优化器 (如 AdamW8bit)。
仅这三步，就足以让微调模型所需显存减少 50% 或更多。
进阶：QLoRA + 上述技巧：
- 如果基础三件套还不够，使用 QLoRA。
- 它结合了4bit量化、LoRA（低秩适配） 和分页优化器等技术，是当前在单卡上微调大模型的首选方案。
高级：分布式训练框架：
- 如果你拥有多卡服务器，需要全参数微调超大模型，那么需要学习使用 DeepSpeed（配置ZeRO）或 FSDP（Fully Sharded Data Parallel，PyTorch的原生方案，类似ZeRO-3）。

策略	主要节省对象	节省效果	实现难度	额外开销
混合精度 (FP16/BF16)	模型权重、梯度	显著（~50%）	低	几乎无
梯度检查点 (G-Checkpoint)	激活值	非常显著	低	增加计算时间 (~20%)
8-bit 优化器 (e.g., Adam8bit)	优化器状态	显著 (~50%)	低	几乎无
QLoRA (4bit + LoRA)	模型权重、优化器状态	极其显著	中	轻微性能损失
DeepSpeed ZeRO (Stage 2/3)	优化器状态、梯度、模型参数	极其显著	高	增加通信开销
减少Batch Size/Seq Length	激活值	直接但有限	低	可能影响效果
Flash Attention	激活值 (Attention)	显著（长序列）	中	无