本期分享的是一篇SOSP 2023论文:

Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints

Zhuang Wang (Rice University), Zhen Jia (Amazon Web Services, Inc.), Shuai Zheng (Amazon Web Services), Zhen Zhang (Amazon Web Services), Xinwei Fu (Amazon Web Services), T. S. Eugene Ng (Rice University) and Yida Wang (Amazon)

https://www.cs.rice.edu/~eugeneng/papers/SOSP23.pdf

图片

摘要

  最近,大型深度学习模型引起了学术界和工业界的广泛关注。然而,由于大模型训练涉及大规模资源和较长的训练时间,训练过程中频繁发生故障。现有解决方案由于远程存储带宽的限制,故障恢复成本较高。

  本文提出Gemini——一种分布式训练系统,该系统通过将CheckPoint存储在主机设备的CPU内存中,实现大模型训练中的快速故障恢复。然而,简单地将CheckPoint存储在CPU内存中存在两个挑战:

  • 首先,故障发生时,CPU内存中的CheckPoint可用性无法保证。
  • 其次,由于训练和CheckPoint通信共享同一网络,CheckPoint通信 可能会干扰训练通信,影响训练吞吐量。

  为了解决这两个挑战,本文提出:

  • 1) 一种可证明接近最优的CheckPoint放置策略,以最大化从CPU内存检查点恢复故障的概率;
  • 2) 一种CheckPoint通信调度算法,以最小化甚至消除检查点通信对模型训练的干扰。

  评估表明,Gemini的总体故障恢复速度比现有解决方案快13倍以上。

  论文 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/900257.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/900257.shtml
英文地址,请注明出处:http://en.pswp.cn/news/900257.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wordpress可视化数据采集Scrapes插件,WP博客网站自动采集发布

源码介绍 wordpress自动采集Scrapes插件,支持ripro,modown,子比,7b2等多种WordPress主题 支持PHP7.4,PHP8.0及以上不支持 上传插件到wp-content/plugins目录,然后解压 不需要写采集规则,傻瓜式…

JavaScript Math(算数)指南

JavaScript Math(算数)指南 引言 JavaScript的Math对象是一个内置对象,提供了进行数学运算的方法和值。它对于执行基本的数学计算、生成随机数以及执行更复杂的数学操作非常有用。本文将详细介绍JavaScript中的Math对象,涵盖其常…

Deep Reinforcement Learning for Robotics翻译解读

a. 机器人能力 1 单机器人能力(Single-robot competencies) 运动能力(Mobility) 行走(Locomotion)导航(Navigation) 操作能力(Manipulation) 静态操作&…

最新扣子(Coze)案例教程:最新抖音视频文案提取方法替代方案,音频视频提取文案插件制作,手把手教学,完全免费教程

👨‍💻 星球群同学反馈,扣子平台的视频提取插件已下架,很多智能体及工作流不能使用,斜杠君这里研究了一个替代方案分享给大家。 方案原理:无论是任何视频或音频转文案,我们提取的方式首先都是要…

yum list查询时部分包查找不到流程分析

以下是针对 yum list available -c xxx.repo(对应 DNF 的命令行操作)的详细流程解读,包括参数解析、配置初始化、元数据加载、数据库查询,以及读取不到特定包的场景分析。 1. 命令行参数解析与入口函数 代码入口: dnf.cli.main.m…

k8s 1.23升级1.24

0、简介 这里只用3台服务器来做一个简单的集群,当前版本是1.23.17目标升级到1.24.17 地址主机名192.168.160.40kuber-master-1192.168.160.41kuber-master-2192.168.160.42kuber-node-1 我这里设置的master2可调度pod,将master2的污点去掉 kubectl de…

# 实时人脸识别系统:基于 OpenCV 和 Python 的实现

实时人脸识别系统:基于 OpenCV 和 Python 的实现 在当今数字化时代,人脸识别技术已经广泛应用于各种场景,从手机解锁到安防监控,再到智能门禁系统。今天,我将通过一个完整的代码示例,详细讲解如何使用 Pyt…

Linux:(五种IO模型)

目录 一、对IO的重新认识 二、IO的五种模型 1.阻塞IO 2.非阻塞IO 3.信号驱动IO 4.IO多路转接 5.异步IO 6.一些概念的解释 三、非阻塞IO的代码实现 1.fcntl 2.实现主程序 一、对IO的重新认识 如果有人问你IO是什么,你该怎么回答呢? 你可能会说…

将电脑控制手机编写为MCP server

文章目录 电脑控制手机后,截屏代码复习MCP server构建修改MCP的config文件测试效果困惑电脑控制手机后,截屏代码复习 def capture_window(hwnd: int, filename: str = None) -> dict:""&

[ctfshow web入门] web6

前置知识 入口点(目录)爆破 还记得之前说过网站的入口的吗,我们输入url/xxx,其中如果url/xxx存在,那么访问成功,证明存在这样一个入口点;如果访问失败则证明不存在此入口点。所以我们可以通过遍历url/xxx,…

【计算机网络】Linux配置SNAT策略

什么是NAT? NAT 全称是 Network Address Translation(网络地址转换),是一个用来在多个设备共享一个公网 IP上网的技术。 NAT 的核心作用:将一个网络中的私有 IP 地址,转换为公网 IP 地址,从而…

Mathematics | Branch

注:本文为“遇见数学”翻译的 “数学分支概览” 两篇文章合辑。 数学世界的版图:主要分支概览(上) 原创 遇见数学 2025 年 04 月 03 日 12:02 河南 数学的分支(Areas of Mathematics) 在文艺复兴之前&am…

Ubuntu(CentOS、Rockylinux等)快速进入深度学习pytorch环境

这里写自定义目录标题 安装进入系统(如Ubuntu22.04)安装anacondapip、conda换源pip换源conda换源 安装nvidia安装pytorch环境针对于wsl的优化 安装进入系统(如Ubuntu22.04) docker 、 wsl 、 双系统 、服务器系统 推荐 Ubuntu 20…

什么是混杂模式?为什么 macvlan 依赖它

在 macvlan 场景中,物理网络是否支持混杂模式(Promiscuous Mode) 直接影响 macvlan 虚拟接口的通信能力。以下是详细解释和操作指南: 一、什么是混杂模式?为什么 macvlan 依赖它? 混杂模式的定义 当物理网络…

物理数据流图

物理数据流图(Physical Data Flow Diagram, PDFD)详解 物理数据流图是结构化系统分析中的一种建模工具,用于描述系统在物理环境下的具体实现方式,包括硬件、软件、人工操作和物理文件等实际组成部分。它与**逻辑数据流图&#xf…

Linux开发工具——vim

📝前言: 上篇文章我们讲了Linux开发工具——apt,这篇文章我们来讲讲Linux开发工具——vim 🎬个人简介:努力学习ing 📋个人专栏:Linux 🎀CSDN主页 愚润求学 🌄其他专栏&a…

在 Langflow 中构建灵活的自定义组件:从基础到高级实践

本文深入探讨了如何在 Langflow 平台中创建功能丰富的自定义组件。通过详细的目录结构解析、分步实现指南和多个实战案例,帮助开发者掌握利用 Python 生态扩展低代码平台的方法,打造高效的数据处理流程。 理解组件架构设计 自定义组件是在 Langflow 中创…

stm32+LTR-390UV使用教程含源码

stm32LTR-390UV使用教程含源码 (csdn首发源码),本人大四学生,考研已上岸,毕设做的全向轮小车,这个是环境检测部分LTR-390UV使用教程 文章目录 目录 文章目录 前言 一、硬件准备与连接 二、数据手册 1.…

【嵌入式系统设计师】知识点:第2章 嵌入式系统硬件基础知识

提示:“软考通关秘籍” 专栏围绕软考展开,全面涵盖了如嵌入式系统设计师、数据库系统工程师、信息系统管理工程师等多个软考方向的知识点。从计算机体系结构、存储系统等基础知识,到程序语言概述、算法、数据库技术(包括关系数据库、非关系型数据库、SQL 语言、数据仓库等)…

Java 项目灰度发布的详细实现与实践

前言 灰度发布是一种通过逐步将新功能或更新推向一部分用户来降低上线风险的技术。本文将详细介绍如何在 Java 项目中实现灰度发布,并提供相关的配置参数、代码示例以及 uml 图,帮助您更好地理解和应用这一技术。 一、灰度发布的核心思想 灰度发布的核…