使用多卡运行 Pytorch出现下面的报错:

E0619 10:29:15.774000 5065 site-packages/torch/distributed/elastic/multiprocessing/api.py:874] failed (exitcode: -11) local_rank: 0 (pid: 5184) of binary: /root/miniconda3/bin/python
Traceback (most recent call last):
File “/root/miniconda3/bin/torchrun”, line 8, in
sys.exit(main())
File “/root/miniconda3/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/init.py”, line 355, in wrapper
return f(*args, **kwargs)
File “/root/miniconda3/lib/python3.10/site-packages/torch/distributed/run.py”, line 892, in main
run(args)
File “/root/miniconda3/lib/python3.10/site-packages/torch/distributed/run.py”, line 883, in run
elastic_launch(
File “/root/miniconda3/lib/python3.10/site-packages/torch/distributed/launcher/api.py”, line 139, in call
return launch_agent(self._config, self._entrypoint, list(args))
File “/root/miniconda3/lib/python3.10/site-packages/torch/distributed/launcher/api.py”, line 270, in launch_agent
raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

/root/autodl-tmp/LLaMA-Factory/src/llamafactory/launcher.py FAILED

Failures:
<NO_OTHER_FAILURES>

Root Cause (first observed failure):
[0]:
time : 2025-06-19_10:29:15
host : autodl-container-f5de4b862a-e994ae7c
rank : 0 (local_rank: 0)
exitcode : -11 (pid: 5184)
error_file: <N/A>
traceback : Signal 11 (SIGSEGV) received by PID 5184


解决办法,安装与CUDA版本对应的Pytorch

https://pytorch.org/get-started/previous-versions/

在这里插入图片描述
在这里插入图片描述

注意:本机使用的CUDA版本可以使用 下面的代码查看

import torch # 如果pytorch安装成功即可导入
print(torch.cuda.is_available()) # 查看CUDA是否可用,如果True表示可以使用
print(torch.cuda.device_count()) # 查看可用的CUDA数量,0表示有一个
print(torch.version.cuda) # 查看CUDA的版本号

复制完整的命令进行安装即可

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/911726.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/911726.shtml
英文地址,请注明出处:http://en.pswp.cn/news/911726.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes 架构的两种节点

前言 Kubernetes 采用主从(master-node)架构模式&#xff0c;主要由主节点&#xff0c;也称 控制平面(Control Plane)和工作节点(node)组成。 master 节点职责&#xff1a; ‌集群管理‌&#xff1a;负责整个集群的全局决策和状态管理API服务‌&#xff1a;通过 kube-apiser…

数据迷雾中的灯塔:奥威BI+AI数据分析如何照亮企业决策之路

决策进化史&#xff1a;从“盲人摸象”到“智能导航” 在每天83%的中国企业所面临的决策场景中&#xff0c;数据往往沉默不语&#xff0c;无法为管理者提供明确的指引。从决策依赖人工统计的“石器时代”&#xff08;2010年前&#xff09;&#xff0c;到依赖静态报表的“铁器时…

Flutter 与 原生(Android/iOS)通信 Platform Channel

在Flutter中&#xff0c;Platform Channel是实现Flutter与原生平台&#xff08;Android/iOS&#xff09;通信的核心机制&#xff0c;其设计遵循轻量级异步通信原则&#xff0c;用于解决Flutter跨平台开发时与原生功能的交互需求。 一、核心作用 Flutter作为跨平台框架&#x…

django调用 paramiko powershell 获取cpu 个数

在Django中调用paramiko库执行PowerShell命令来获取CPU个数&#xff0c;可以通过以下步骤实现&#xff1a; 步骤1&#xff1a;安装paramiko 首先&#xff0c;确保你的Django项目中已经安装了paramiko库。如果尚未安装&#xff0c;可以通过pip安装&#xff1a; pip install pa…

React 表单太卡?也许你用错了控制方式

&#x1f399; 欢迎来到《前端达人 播客书单》第 23 期。 视频版&#xff08;播客风格更精彩&#xff09; 今天我们聚焦一个「写前端永远逃不掉」的主题&#xff1a;表单处理。 你有没有遇到过这些问题&#xff1a; 表单怎么一改就卡&#xff1f;state 是不是用错了&#xff1…

`customRef` 在实战中的使用:防抖、计算属性缓存和异步数据获取

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 &#x1f35a; 蓝桥云课签约作者、…

腾讯混元3D制作角色模型的教程-3

腾讯混元3D中实现角色骨骼绑定与动画生成的详细操作指南,结合官方功能说明及实操要点整理: ⚙️ 一、前期准备:模型要求 角色姿态规范 仅支持标准T-pose(大字型站立) 的全身人物模型(如卡通角色)。 非标准姿态或非人形模型(如动物、道具)暂不支持自动绑骨。 模型来源…

React 和 Vue 项目中集成基于 Svelte 的 `Bytemd` 库 || @bytemd/react` 底层实现原理

Bytemd 并使用Svelte 框架编写的。Svelte 是一种不同的前端框架&#xff0c;它的核心思想是在编译时将组件代码转换成高效、原生 JavaScript&#xff0c;从而避免运行时虚拟 DOM 的开销。 理解了这一点&#xff0c;我们就可以深入探讨如何在 React 和 Vue 项目中适配 Svelte 编…

【新品解读】高性能紧凑型 RFSoC FPGA 开发平台 AXW22,重塑射频开发体验

如果您正在烦恼如何在有限的物理空间和预算内&#xff0c;依然实现卓越的射频带宽与处理能力&#xff0c;ALINX 基于 AMD RFSoC FPGA 开发板 AXW22 正是为您准备的。 &#xff08;AMD Zynq UltraScale RFSoC FPGA 射频开发平台 AXW22&#xff09; 和所有 RFSoC 平台一样&#…

Spring @ModelAttribute注解全解析:数据绑定与模型管理

Spring 的 @ModelAttribute 注解主要用于数据绑定和模型属性管理,支持方法级别和参数级别的应用,以下是其核心特性和使用场景: 🔧 一、核心功能 数据绑定 将 HTTP 请求参数(如表单字段、查询参数)自动绑定到 Java 对象。支持从请求参数、URI 路径变量、请求头等多来源获…

[project-based-learning] 开源贡献指南 | 自动化链接验证 | Issue模板规范

第四章&#xff1a;贡献指南 欢迎回来&#xff01;在上一章《项目分类体系》中&#xff0c;我们探讨了README.md文件如何通过编程语言和子类别组织教程&#xff0c;从而提升检索效率。 现在已了解教程列表的构成&#xff08;《教程列表》&#xff09;、条目编写规范&#xff…

OSCP备战-LordOfTheRoot靶机复现步骤

PDF下载&#xff1a; Target-practice/Range at main szjr123/Target-practice 一、靶机描述 靶机地址&#xff1a;https://www.vulnhub.com/entry/lord-of-the-root-101,129/ 靶机难度&#xff1a;中等&#xff08;CTF&#xff09; 靶机描述&#xff1a;这是KoocSec为黑…

苹果或140亿美元收购Perplexity,AI搜索格局面临重构

据多家媒体报道&#xff0c;苹果内部高管近期就竞购AI初创公司Perplexity的可能性举行了初步会谈。若交易最终达成&#xff0c;可能将以接近140亿美元的估值完成&#xff0c;成为苹果历史上最大规模的收购案12。尽管讨论仍处于早期阶段&#xff0c;且苹果尚未与Perplexity管理层…

屠龙刀策略

该策略是一个针对金融市场的自动化交易策略,主要用于日内交易,特别关注于在中国金融期货市场(如沪深300指数期货(IF))的日间交易时段(09:20至15:15)进行操作。下面是该策略核心部分的代码注解解析: 参数定义 - `Nnn1(5)` 和 `Nnn2(20)`:策略中的两个参数,用于内部计…

【本机已实现】使用Mac部署Triton服务,使用perf_analyzer、model_analyzer

我们的目标是星辰大海 硬件配置&#xff1a;Apple M224 GB Tirtion实现过程 1️⃣Docker安装 Tirtion的实现&#xff0c;首先要确保系统上的Docker可用 使用默认源会导致拉取失败&#xff0c;因为墙 Error response from daemon: Get "https://registry-1.docker.io/v2…

idea依赖下载慢解决

setttings.xml <mirrors><mirror><id>aliyunmaven</id><name>阿里云公共仓库</name><url>https://maven.aliyun.com/repository/public</url><mirrorOf>*</mirrorOf> <!-- 匹配所有仓库请求 --></mirr…

C# WPF常用调试工具汇总

除了Live Visual Tree、Live Property Explorer和Snoop外&#xff0c;WPF开发还有多种强大的调试工具。以下是完整的工具集合及其详细使用方法&#xff1a; 1. WPF Performance Suite (WPF性能分析套件) 简介 微软官方提供的专业WPF性能分析工具&#xff0c;包含多个组件用于诊…

《Vuejs设计与实现》第 11 章(快速 diff 算法

目录 11.1 相同的前置元素和后置元素 11.2 判断是否需要进行 DOM 移动操作 11.3 如何移动元素 11.4 总结 我们将探讨第三种用于比较新旧子节点集合的方法&#xff1a;快速Diff算法。 这种算法的速度非常快&#xff0c;最早应用于 ivi 和 inferno 框架&#xff0c;DOM 操作方…

JavaScript 存储对象 sessionStorage (会话存储) 和 localStorage(本地存储)

深入理解 localStorage localStorage 是浏览器提供的一种客户端存储机制&#xff0c;用于在用户浏览器中存储键值对数据。与 cookie 相比&#xff0c;它提供了更大的存储容量&#xff08;通常为 5-10MB&#xff09;&#xff0c;并且不会随 HTTP 请求发送到服务器&#xff0c;因…

Z-Ant开源程序是简化了微处理器上神经网络的部署和优化

​一、软件介绍 文末提供程序和源码下载 Z-Ant &#xff08;Zig-Ant&#xff09; 是一个全面的开源神经网络框架&#xff0c;专门用于在微控制器和边缘设备上部署优化的 AI 模型。Z-Ant 使用 Zig 构建&#xff0c;为资源受限的硬件上的模型优化、代码生成和实时推理提供端到端…