LLaMA Factory 是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架之一。但是在矩池云上如何使用LLaMA-Factory多机多卡训练模型呢?接下来就让小编给大家介绍如何在矩池云中使用LLaMA- Factory进行多机多卡训练吧😊

GitHub地址:https://github.com/hiyouga/LLaMA-Factory

一、租用机器

先租用两台两卡的机器,小编使用的的机器类型是8区4090,机器驱动为550,镜像使用的是Pytorch 2.6.0_cuda_12.4,小编建议驱动可以选择高一点。
在这里插入图片描述

二、加入集群

首先需要创建一个集群,在矩池云主页左下角点击我的集群,然后在右上角选择区域,最后点击创建集群

在这里插入图片描述

接下来就是把所租用的机器加入集群中,并设置好master机器
在这里插入图片描述

三、安装LLaMA-Factory

我们需要在主从机器上都安装LLaMAFactory

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

需要注意的是,第三部必须执行,才能使用llamafactory-cli命令执行训练。否则会提示报错

四、训练测试

执行完前面三步操作之后,我们就测试一下是否能正常运行多机多卡训练

FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=0 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml  #在主服务器上运行FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=1 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml  #在第二个服务器上运行,MASTER_ADDR和MASTER_PORT仍写主服务的ip和端口

需要注意的是,模型运行需要下载数据集,除亚太二区外其他区域的机器需要开代理

如需使用WebUI,参考链接:

https://editor.csdn.net/md/?articleId=147334646

如遇断点重训问题,参考链接:

https://blog.csdn.net/xiong_wq/article/details/143189413

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95476.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95476.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/95476.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx的反向代理与正向代理及其location的配置说明

一、Nginx中location匹配优先级Nginx中location匹配优先级location支持各种匹配规则,在多个匹配规则下,Nginx对location的处理是有优先级的,优先级高的规则会优先进行处理;而优先级低的规则可能会最后处理或者不进行处理。注意&am…

神经网络正则化三重奏:Weight Decay, Dropout, 和LayerNorm

正则化是机器学习中防止模型过拟合、提升泛化能力的核心技术。Weight Decay、Dropout和LayerNorm是三种最常用的方法,但它们的工作原理和首要目标截然不同。下面的流程图揭示了它们的核心区别与联系: #mermaid-svg-vymek6mFvvfxcWiM {font-family:"…

两台电脑通过网线直连共享数据,设置正确,却互相ping不通的解决方法

因为某些原因,需要两台电脑互传资源,但是某台电脑可能无法连接外网。如果手头有根网线,很容易想到通过一根网线连接两台电脑互传数据。 这里先说一下基本的设置: 两台电脑最好都关闭防火墙;两台电脑都打开专用网络和公…

面试新纪元:无声胜有声,让AI成为你颈上的智慧伙伴

面试,无论是对于面试官还是求职者,都像一场无声的战争。 一方要精准识人,一方要完美自荐;一方怕问不到点子上,一方怕答不到心坎里。 紧张、遗忘、表达失误、准备不足……这些问题几乎每个人都经历过。 有没有一种方…

qt-C++笔记之QtDesigner-Creator按钮图标与样式

qt-C笔记之QtDesigner-Creator按钮图标与样式 整理:如何用 .qrc 管理资源、在 Designer/Creator 中为 QPushButton 设置图标(资源或系统主题),以及用样式表调整文字样式。涵盖 C/Qt 与 PySide/PyQt;Linux 桌面优先&am…

maven 常用指令

Maven 是 Java 项目构建和依赖管理的得力助手。这里为你总结了一些常用指令,希望能帮你提升开发效率。下面这个表格汇总了 Maven 最核心和常用的一些命令:命令主要功能典型使用场景mvn clean清理项目,删除 target 目录及其所有编译输出文件。…

# pdf.js完全指南:构建现代Web PDF查看与解析解决方案

在当今Web开发中,实现高质量的PDF查看功能一直是前端开发者面临的挑战之一。作为最受欢迎的JavaScript PDF库,pdf.js已经成为解决这一问题的行业标准。由Mozilla开发并维护的pdf.js项目,通过纯JavaScript实现PDF解析与渲染,彻底改…

高效对象属性复制工具

日常编程中,经常会碰到对象属性复制的场景,比如 VO、DTO、PO、VO 等之间的转换,关于什么是VO、DTO、PO、VO 等可以看上篇文章,VO、DTO、PO、VO 等对象具体有哪些方式可以使用呢? set/get 方式 性能最好的方式&#x…

大疆图传技术参数对比 你了解多少?

无人机是现代航空技术与智能控制技术结合的产物,已从军事领域广泛渗透至民用场景,成为推动各行业效率升级的关键工具。无人机的全称为 “无人驾驶航空器(Unmanned Aerial Vehicle,简称 UAV)”,简言之&#…

Redis 缓存热身(Cache Warm-up):原理、方案与实践

在 Redis 缓存架构中,“缓存热身”是指在系统正式提供服务前(如重启、扩容后),主动将热点数据加载到 Redis 中的操作。其核心目标是避免**缓存穿透**(请求直达数据库)和**缓存雪崩**(大量请求同…

基于SpringBoot的大学生就业招聘系统

1. 在线演示: 后台:http://springbootiv1oo.xiaobias.com/springbootiv1oo/admin/dist/index.html 前台:http://springbootiv1oo.xiaobias.com/springbootiv1oo/front/index.html 管理员:abo/abo 用户:用户1/123456、…

Java反序列化漏洞揭秘:从原理到攻击实战

一、背景 熟悉接口开发的同学一定知道,能将数据对象很轻松的实现多平台之间的通信、对象持久化存储,序列化和反序列化是一种非常有效的手段,例如如下应用场景,对象必须 100% 实现序列化。 DUBBO:对象传输必须要实现序…

Time-MOE 音频序列分类任务

prompt 我准备做语音疾病分类任务。语音音频是 WAV 格式的音频,基本上分为两类,分别是疾病类和非疾病类。也有少数数据集是多分类,现在我找到了26个数据集,我准备我已经在 MLP CNN 上面测试了它们的基准,下面我找到了一…

[嵌入式embed][Qt]Qt5.12+Opencv4.x+Cmake4.x_测试Qt编译的opencv4.x的库

[嵌入式embed][Qt]Qt5.12Opencv4.xCmake4.x_测试Qt编译的opencv4.x的库编译Qt-Opencv库测试流程-①创建一个简单的qt-ui工程配置 & 测试配置库编译环境测试代码百度云-工程(opencv4.xqt5.12的工程)参考文档编译Qt-Opencv库 [嵌入式embed][Qt]Qt5.12Opencv4.xCmake4.x_用Qt…

相较于传统AR矿物鉴定有哪些优势?

与传统的矿物鉴定方法相比,AR矿物鉴定就像是一位全面升级的“超级助手”,展现出了无可比拟的优势。传统的矿物鉴定方法,往往依赖于地质学家或专业鉴定人员的丰富经验。他们需要通过肉眼观察矿物的颜色、光泽、硬度等物理特征,再结…

第5节:分布式文件存储

本节主要是讲解的是分布式文件存储,主要介绍了阿里云OSS云存储和Minio文件存储,本章重点主要是掌握怎么在SpringBoot项目里面接入文件存储。 记录、交流、实践,让每一份付出皆可看见,让你我共同前行😁 1.分布式文件存…

当 GitHub 宕机时,我们如何协作?

一、引言1.1 GitHub 的重要性及宕机影响在当今软件开发的生态系统中,GitHub 已然成为全球开发者不可或缺的核心平台。它为无数开源项目与企业级开发团队提供了高效的代码托管、版本控制、协作开发以及项目管理等服务。然而,2025 年 8 月那场波及全球的 G…

Ansible 常用模块归纳总结

[studentmaster ansible]$ ansible-galaxy collection install http://ansible.example.com/materials/community-general-6.3.0.tar.gz -p collections/##将第三方模块下载到collections下 [studentmaster ansible]$ ansible-galaxy collection install http://ansible.exampl…

计算机网络:概述层---TCP/IP参考模型

🌐 TCP/IP四层模型详解:互联网的核心协议架构深度剖析 📅 更新时间:2025年9月3日 🏷️ 标签:TCP/IP模型 | 互联网协议 | 四层模型 | 计算机网络 | 协议栈 | 网络通信 | 王道考研 摘要: 本文将深入浅出地解析…

打工人日报#20250902

打工人日报#20250902 今天晚上去了玄武湖,来南京三次了,终于来了一次知识点 不确定度 “不确定度” 是测量领域的核心概念,用于量化测量结果的可靠性与分散程度—— 简单来说,它回答了 “这个测量值有多可信?真实值可能…