背景
“GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。”
定义与关系
- 总参数量:模型中所有可训练参数的总和(包括嵌入层、注意力层、前馈网络等),反映模型的理论容量。
- 活跃参数:在单次前向传播中实际参与计算的参数子集。例如:
- 稀疏激活模型(如MoE):每次只激活部分专家网络(如Switch Transformer每次激活1/8的专家)。
- 动态参数共享(如LoRA、AdaLoRA):通过低秩分解或掩码动态选择参数。
- 条件计算(如专家选择、路由机制):根据输入动态决定激活哪些路径。
关系:
活跃参数 ≤ 总参数量(通常远小于)。例如,Switch Transformer总参数量1.6T,但单次计算仅激活约50B参数(活跃参数占比~3%)。
作用与意义
(1)效率提升
- 计算成本:活跃参数直接决定FLOPs和内存占用。稀疏激活(如MoE)允许在总参数量极大时,仍保持低计算量(如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近)。
- 存储优化:通过参数共享(如LoRA)或量化,减少实际存储需求(例如Meta的LLaMA-65B通过4-bit量化压缩至33GB)。
(2)性能与容量的权衡
- 总参数量:提供潜在容量(如知识存储),但需通过稀疏激活或动态路由有效利用。例如:
- MoE模型:总参数量大(如GLaM 1.2T),但活跃参数少(96B),在多项任务上超越GPT-3(175B全激活)。
- 过拟合风险:总参数量过大但活跃参数不足时,可能因参数利用率低导致欠拟合。
(3)训练与推理的差异化设计
- 训练阶段:总参数量影响梯度更新范围,但可通过梯度稀疏化(如ZeRO-3、DeepSpeed)减少实际通信量。
- 推理阶段:通过动态剪枝(如Block-Sparse Attention)或专家卸载(如MoE的路由缓存),进一步降低活跃参数。
总参数量是模型的“潜在智慧”,而活跃参数是其“实际执行力”。二者的分离设计(如稀疏化、动态路由)是大模型突破规模限制的核心技术,使得“用更少的计算,实现更强的性能”成为可能。