参考:https://access.redhat.com/solutions/1257953

问题

nccl-test容器docker.io/library/nccl-tests:24.12中跑mpirun,buff设置为NCCL_BUFFSIZE=503316480
提示out of memory:

pod-1:78:91 [0] include/alloc.h:114 NCCL WARN Cuda failure 'out of memory'pod-1:78:91 [0] include/alloc.h:119 NCCL WARN Failed to CUDA host alloc -268435456 bytes
pod-1:78:91 [0] NCCL INFO transport/net.cc:517 -> 1
pod-1:78:91 [0] NCCL INFO transport/net.cc:719 -> 1
pod-1:78:93 [0] NCCL INFO transport.cc:193 -> 1
pod-1:78:93 [0] NCCL INFO group.cc:133 -> 1
pod-1:78:93 [0] NCCL INFO group.cc:75 -> 1 [Async thread]pod-1:78:91 [0] proxy.cc:1620 NCCL WARN [Service thread] Error encountered progressing operation=Connect, res=3, closing connection
pod-1:78:78 [0] NCCL INFO group.cc:426 -> 1
pod-1:78:78 [0] NCCL INFO group.cc:566 -> 1
pod-1:78:78 [0] NCCL INFO group.cc:106 -> 1
pod-1: Test NCCL failure sendrecv.cu:57 'unhandled cuda error (run with NCCL_DEBUG=INFO for details) / '.. pod-1 pid 78: Test failure common.cu:383.. pod-1 pid 78: Test failure common.cu:592.. pod-1 pid 78: Test failure sendrecv.cu:103.. pod-1 pid 78: Test failure common.cu:625.. pod-1 pid 78: Test failure common.cu:1123.. pod-1 pid 78: Test failure common.cu:893

问题确认

容器内执行ulimit -a显示max locked memory只有64k
在这里插入图片描述

放开容器max locked memory限制

在 /etc/systemd/system/docker.service中增加LimitMEMLOCK=infinity
在这里插入图片描述
然后重启docker:

systemctl daemon-reloadsystemctl restart docker

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/90549.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/90549.shtml
英文地址,请注明出处:http://en.pswp.cn/web/90549.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Zigee的温度数据采集系统

大家好,本文带来的是单片机课设-基于Zigee的温度数据采集系统。 一、设计内容和要求 基于Zigbee的数据采集系统 1.1设计内容 (1)分析对比Bluetooth、Zigbee、Lora方式组网的基本原理和性能差异,撰写分析报告; &#xf…

ATH12K 驱动框架分析

文章目录 Linux Wireless 驱动框架深入分析 **1. 核心框架层次结构** **1.1 cfg80211 子系统 (`net/wireless/`)** **1.2 mac80211 子系统 (`net/mac80211/`)** **2. ath12k 驱动架构分析** **2.1 核心管理文件** **2.2 数据路径文件** **2.3 平台接口文件** **2.4 功能模块文件…

OSPF路由协议单区域

RIP的不足 以跳数评估的路由并非最优路径 如果RTA选择S0/0传输,传输需时会大大缩短为3sRIP协议限制网络直径不能超过16跳 收敛速度慢 RIP定期路由更新 – 更新计时器:定期路由更新的时间间隔,默认30秒。 – 失效计时器:失效计时器…

Kubernetes部署与管理Scrapy爬虫:企业级分布式爬虫平台构建指南

引言:Kubernetes在爬虫领域的战略价值在大规模数据采集场景中,​​容器化爬虫管理​​已成为企业级解决方案的核心。根据2023年爬虫技术调查报告:采用Kubernetes的爬虫系统平均资源利用率提升​​65%​​故障恢复时间从小时级缩短至​​秒级​…

Web-Machine-N7靶机攻略

一.环境准备(VBox,kali虚拟机,靶机) 1.1Vbox下载地址: Downloads – Oracle VirtualBox 1.2将N7导入到这个虚拟机中 1.3将kali和Vbox都设置成桥接模式 1.4开启靶机 若鼠标出不来可以使用组合技,CtrlAltDelete强制退出 二.信息…

用毫秒级视频回传打造稳定操控闭环之远程平衡控制系统技术实践

在工业自动化、远程机器人、无人装备等复杂作业场景中,远程实时操控正逐步取代传统“监控指令”模式,成为提升效率与保障安全的关键能力。尤其在高风险、高精度的应用环境中,操作者不仅要“能控”,更要“看得准、反应快”。 真正…

瑞萨电子RA-T MCU系列新成员RA2T1——电机控制专家

RA2T1系列微控制器基于64MHz ArmCortex-M23内核设计,专为单电机控制应用而优化。RA2T1集成PWM定时器,以及配备3个采样保持电路的A/D转换器等先进的模拟功能,适用于电动工具,风扇和家用电器等高效的低端电机控制方案。RA2T1支持1.6…

Java排序算法之<选择排序>

目录 1、选择排序 1.1、介绍 1.2、稳定性 2、执行流程 3、java实现 4、优缺点 总结:Java 排序算法进阶路线 O(n) 算法(适合学习原理) 冒泡排序(最慢)→ 选择排序 → 插入排序(推荐先学) …

ESP8266 http收发数据

1.先修改基础配置 make menuconfig 打开配置菜单 选择component config 然后选择 修改波特率为115200 保存退出 2.修改彩色日志打印的 在component config目录下找到log output 选中点击空格关掉彩色日志输出,这样正常串口打印就没有乱码了 然后保存退出 3…

ZLMediaKit 源代码入门

ZLMediaKit 是一个基于 C11 开发的高性能流媒体服务器框架,支持 RTSP、RTMP、HLS、HTTP-FLV 等协议。以下是源代码入门的详细指南: 1. 源码结构概览 主要目录结构: text ZLMediaKit/ ├── cmake/ # CMake 构建配置 ├── …

智能Agent场景实战指南 Day 21:Agent自主学习与改进机制

【智能Agent场景实战指南 Day 21】Agent自主学习与改进机制 文章内容 开篇 欢迎来到"智能Agent场景实战指南"系列的第21天!今天我们将深入探讨智能Agent的自主学习与改进机制——这是使Agent能够持续提升性能、适应动态环境的核心能力。在真实业务场景…

微信小程序中英文切换miniprogram-i18n-plus

原生微信小程序使用 miniprogram-i18n-plus第一步:npm install miniprogram-i18n-plus -S安装完成后,会在项目文件文件夹 node_modules文件里生成 miniprogram-i18n-plus, 然后在工具栏-工具-构建npm,然后看到miniprogram_npm里面…

LeetCode 127:单词接龙

LeetCode 127:单词接龙问题本质:最短转换序列的长度 给定两个单词 beginWord 和 endWord,以及字典 wordList,要求找到从 beginWord 到 endWord 的最短转换序列(每次转换仅改变一个字母,且中间单词必须在 wo…

docker搭建ray集群

1. 安装docker 已安装过docker 没安装流程 启动 Docker 服务: sudo systemctl start docker sudo systemctl enable docker # 设置开机即启动docker验证 Docker 是否安装成功: docker --version2. 部署ray # 先停止docker服务 systemctl stop docker…

【iOS】SideTable

文章目录前言1️⃣Side Table 的核心作用:扩展对象元数据存储1.1 传统对象的内存限制1.2 Side Table 的定位:集中式元数据仓库2️⃣Side Table 的底层结构与关联2.1 Side Table 与 isa 指针的关系2.2 Side Table 的存储结构2.3 SideTable 的工作流程3️⃣…

【Spring Cloud Gateway 实战系列】高级篇:服务网格集成、安全增强与全链路压测

一、服务网格集成:Gateway与Istio的协同作战在微服务架构向服务网格演进的过程中,Spring Cloud Gateway可与Istio形成互补——Gateway负责南北向流量(客户端到集群)的入口管理,Istio负责东西向流量(集群内服…

一文说清楚Hive

Hive作为Apache Hadoop生态的核心数据仓库工具,其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。 一、Hive底层分布式计算框架对比 Hive本身不直接执行计算,而是将HQL转换…

SeaweedFS深度解析(三):裸金属单机和集群部署

#作者:闫乾苓 文章目录2.2.4 S3 Server(兼容 Amazon S3 的接口)2.2.5 Weed(命令行工具)3、裸金属单机和集群部署3.1 裸金属单机部署3.1.1安装 SeaweedFS3.1.2 以Master模式启动2.2.4 S3 Server(兼容 Amazon…

相机ROI 参数

相机的 ROI(Region of Interest,感兴趣区域) 参数,是指通过设置图像传感器上 特定区域 作为有效成像区域,从而只采集该区域的图像数据,而忽略其他部分。这一功能常用于工业相机、科研相机、高速相机等场景&…

Vue基础(24)_VueCompinent构造函数、Vue实例对象与组件实例对象

分析上一节代码中的school组件:该组件是一个名为VueCompinent的构造函数。截取部分vue.js源码,分析Vue.extend:// 定义一个名为VueComponent的构造函数对象Sub,往Sub对象调用_init(options)方法,参数为配置项&#xff…