随着大语言模型（LLM）的参数规模从几十亿（B）飙升到千亿（T）级别，模型的训练与推理效率变得尤为关键。为了在保证精度的同时节省显存、加快运算，混合精度训练（Mixed Precision Training） 成为主流技术路径。其中，bfloat16（Brain Floating Point 16）这种“脑力型”数据类型，在众多精度方案中脱颖而出。

本文将系统介绍：

bfloat16 是什么？
它和 float16、float32 有什么区别？
为什么在训练和推理大模型时选择它？
使用 bfloat16 的硬件要求与注意事项

一、什么是 bfloat16？

bfloat16，全称 Brain Floating Point 16，是 Google 为其 TPU（Tensor Processing Unit）训练深度神经网络设计的一种 16 位浮点数格式。

虽然 bfloat16 也是 16 位，但它和常见的 IEEE 标准 float16 在结构上有本质区别：

数据类型	符号位	指数位	尾数位（有效位）	动态范围（指数）	精度
float32	1	8	23	~ 1e-38~1e+38	高
float16	1	5	10	~ 1e-5~1e+5	中
bfloat16	1	8	7	~ 1e-38~1e+38	较低

🔍 总结一句话：

bfloat16 保留了 float32 的动态范围，但牺牲了精度（有效位只有 7 位）

二、为什么 bfloat16 对大语言模型训练很重要？

大语言模型的训练常常会遇到数值非常小或非常大的梯度、激活值，数值稳定性至关重要。而选择 bfloat16 的主要原因如下：

1. 更大的动态范围，避免梯度溢出/下溢

由于指数位和 float32 一样，bfloat16 能处理更大或更小的数：

float16 的指数只有 5 位，容易溢出（如 1e+5 以上）或下溢（如 1e-5 以下）；
bfloat16 有 8 位指数（与 float32 一致），能稳定表达极端值。

这对于训练大模型时的 数值稳定性 非常关键，尤其在深层 Transformer 或 LayerNorm 操作中。

2. 精度虽然低，但足够用于神经网络训练

虽然 bfloat16 只有 7 位有效位，不如 float16（10 位）精细，但神经网络在训练过程中对精度的需求并不高。尤其在使用混合精度训练（如 PyTorch AMP）时，关键参数仍保持高精度（如 float32 master weights），而中间值才使用 bfloat16，从而取得 速度与稳定性之间的最佳平衡。

3. 显存占用更低，Batch Size 更大

bfloat16 只需 16 位（2 字节）存储空间，和 float16 一样，相比 float32 节省了一半显存。这意味着：

可以训练更大的模型；
可以增大 batch size，提高吞吐量；
更适合部署到显存有限的环境中（如 A100 40GB 卡、TPU v3）。

4. 高端硬件对 bfloat16 支持强，计算更快

Google TPU 系列（v2/v3/v4）原生支持 bfloat16；
NVIDIA A100/H100 GPU 也对 bfloat16 提供专门硬件加速（比 float16 更快）；
PyTorch、TensorFlow、JAX 等框架都已原生支持。

也就是说：使用 bfloat16 不仅节省显存，而且还能获得更快的训练速度（不是简单压缩数据，而是利用硬件优化加速矩阵计算）。

三、bfloat16 在推理中的优势

虽然训练中使用 bfloat16 已成为主流，但在 推理（inference）阶段，它依然具有多方面优势：

推理目标	bfloat16 表现
减少延迟	16-bit 运算快于 float32
节省显存	可加载更大模型
多并发推理	提高 batch 吞吐量
稳定性（比 float16）	动态范围大，防止下溢

在像 vLLM、FasterTransformer、DeepSpeed-Inference 等推理框架中，bfloat16 是性能与稳定性的权衡首选。

四、什么时候不适合用 bfloat16？

虽然 bfloat16 非常强大，但它也不是万能的：

对于低端消费级 GPU（如 RTX 3090/4070），可能不支持 bfloat16 加速，需要回退到 float16。
某些模型在推理阶段可能仍对精度敏感（如科学计算场景），可能需要 float32。

建议： 有 A100/H100/TPU 时优先用 bfloat16；消费级设备优先 float16；极端压缩可考虑 int8/int4（量化）。

五、小结

对比维度	float32	float16	bfloat16
位数	32	16	16
精度（有效位）	✅ 23 位	⚠️ 10 位	⚠️ 7 位
范围（指数位）	✅ 8 位	⚠️ 5 位	✅ 8 位
显存需求	高	低	低
稳定性（训练时）	✅ 稳定	⚠️ 易溢出	✅ 稳定
硬件加速支持	普遍支持	普遍支持	✅ A100/TPU 强支持