注：本文章方法只适用Pytorch FSDP1的模型，且切分策略为SHARDED_STATE_DICT场景。

在使用FSDP训练模型时，为了节省显存通常会把模型权重也进行切分，在保存权重时为了加速保存通常每个进程各自保存自己持有的部分权重，避免先汇聚到主进程再保存浪费大量时间的问题。保存成分片权重后，如果需要推理则还需要将分片权重进行合并。下面提供了保存分片权重以及将分片权重合并的代码示例，代码主要参考accelerate官方源码。

import osimport torch
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP, StateDictType
import torch.distributed.checkpoint as dist_cp
from torch.distributed.checkpoint.default_planner import DefaultSavePlanner
import torch.distributed.checkpoint.format_utils as dist_cp_format_utilsdef save_fsdp_model(model: FSDP, fsdp_ckpt_path: str):# refer accelerate/utils/fsdp_utils.py:save_fsdp_modelwith FSDP.state_dict_type(model, StateDictType.SHARDED_STATE_DICT):os.makedirs(fsdp_ckpt_path, exist_ok=True)state_dict = {"model": model.state_dict()}dist_cp.save(state_dict=state_dict,storage_writer=dist_cp.FileSystemWriter(fsdp_ckpt_path),planner=DefaultSavePlanner(),)def merge_fsdp_weights(fsdp_ckpt_path: str, save_path: str):# refer accelerate/utils/fsdp_utils.py:merge_fsdp_weightsstate_dict = {}dist_cp_format_utils._load_state_dict(state_dict,storage_reader=dist_cp.FileSystemReader(fsdp_ckpt_path),planner=dist_cp_format_utils._EmptyStateDictLoadPlanner(),no_dist=True,)# To handle if state is a dict like {model: {...}}if len(state_dict.keys()) == 1:state_dict = state_dict[list(state_dict)[0]]torch.save(state_dict, save_path)

相关文章

IDEA自动生成Mapper、XML和实体文件

单例模式的理解

NLP---IF-IDF案例分析

LaTeX（排版系统）Texlive（环境）Vscode（编辑器）环境配置与安装

【深入浅出STM32（1）】 GPIO 深度解析：引脚特性、工作模式、速度选型及上下拉电阻详解

第1节大模型分布式推理基础与技术体系

《软件工程导论》实验报告一软件工程文档

基于elk实现分布式日志

多模态RAG赛题实战之策略优化--Datawhale AI夏令营

09--解密栈与队列：数据结构核心原理

打造专属 React 脚手架：从 0 到 1 开发 CLI 工具

Python day43

python基于Hadoop的超市数据分析系统

如何用 COLMAP 制作 Blender 格式的数据集

[GESP202309 六级] 2023年9月GESP C++六级上机题题解，附带讲解视频！

linux 操作ppt

元数据管理与数据治理平台：Apache Atlas 基本搜索 Basic Search

LangChain4J-(1)-Hello World

HTTPS应用层协议-中间攻击人

利用 Makefile 高效启动 VIVADO 软件：深入解析与实践