更快的速度、更省的内存训练、运行、评估大模型

1 支持的模型

All Our Models | Unsloth Documentation

1.1 Dynamic GGUF/instruct 4-bit

  • llama.cpp使用的新模型格式,专为高效、本地推理设计
  • 注:GGUF无法微调
    • 只保留推理所需的内容,如量化后的权重、推理元信息
    • 不包含训练所需的梯度结构、参数层名、优化器状态

    • 不支持反向传播

    • 通常是 4-bit 静态量化,已经丢失了训练精度所需的权重信息

  • Instruct 4-bit (safetensors)

    • Instruct:代表模型是指令微调(Instruction-Tuned)版本,即已经训练过能更好理解指令/对话任务

    • 4-bit:表示该模型已经被4-bit 量化(通常用于 QLoRA),显著降低了显存需求。

    • safetensors:是一种更安全的模型文件格式(相对 .bin),支持高效加载、避免执行恶意代码。

    • 可直接用于低成本推理或继续进行LoRA / QLoRA 微调

1.1.1 deepseek家族

1.1.2 llama家族

1.1.3 gemma家族

1.1.4 Qwen家族

1.1.5 mistral家族

1.1.6 Phi家族

1.1.7 其他

1.2 16-bit and 8-bit Instruct

基本上instruct 4-bit的有的这边都有

也可用于推理和微调,区别主要在于精度和资源消耗

1.3  Base 4 + 16-bit

未经过指令微调的模型的4-bit和16-bit量化版本

1.3.1 llama家族

1.3.2 qwen家族

1.3.3 gemma 家族

1.3.4 Mistral家族

1.4 unsloth版本模型命名后缀说明

unsloth-bnb-4bitUnsloth 的动态 4bit 量化模型,精度更高,占用略多显存
bnb-4bit普通 BitsAndBytes 4bit 量化模型
无后缀原始模型(16/8bit)

2 可调参数推荐

max_seq_length下文长度,Llama-3 支持到 8192,但建议先用 2048 测试
dtype 默认None,若使用新 GPU 可设为 torch.float16 或 bfloat16
load_in_4bit

启用 QLoRA,减少 4 倍显存消耗

QLoRA 的准确性如今已经接近甚至超过 LoRA,建议默认使用

full_finetuning若设为 True,则执行全参数微调(不推荐)

3 选择instruct模型还是base模型

数据量情况推荐选择说明
超过 1000 行Base 模型数据量充足,能充分训练出新行为
300–1000 行高质量数据Base 或 Instruct视任务而定,两者都可以
少于 300 行Instruct 模型小样本建议保留已有指令能力,仅做轻微定制
  • 任务明确 + 数据少 → 用 Instruct 模型做轻微定制即可

  • 任务复杂 / 数据多 → 从 Base 模型开始训练,得到效果更稳的定制模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95870.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95870.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/95870.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

博众测控 | 一文看懂菊水电源产品在半导体测试中的应用

01 半导体在各行业上的应用半导体作为现代工业体系的“核心神经”,其性能参数与应用场景深度绑定,不同行业因核心设备的功能需求差异,对半导体的电流、电压承载能力及类型选择有着明确且严格的要求,具体应用细节如下:1…

【STM32】贪吃蛇 [阶段 8] 嵌入式游戏引擎通用框架设计

这篇博客是 承接:【项目思维】贪吃蛇(嵌入式进阶方向)中 嵌入式游戏引擎雏形(终极进阶), 是我们此前从 “写一个小游戏”提升到“构建可复用游戏框架” 的飞跃阶段。我们以“贪吃蛇游戏”为例,抽…

Vue图标按钮好用的样式

图标按钮示例一 <template><div class"icon-button-group"><button class"icon-btn icon-btn--default"><i class"el-icon-moon"></i></button><button class"icon-btn icon-btn--primary"&g…

Nginx 实战系列(一)—— Web 核心概念、HTTP/HTTPS协议 与 Nginx 安装

文章目录前言一、Web 概念1.1 Web 的基本概念1.1.1 Web的特点1.2 B/S 架构模型1.3 Web 请求与响应过程&#xff08;重点&#xff09;1.4 静态资源与动态资源1.5 Web 的发展阶段1.6 案例&#xff1a;搭建最小 Web 服务1.6.1 目标1.6.2 搭建步骤1.7 小结二、HTTP 与 HTTPS 协议2.…

一种用geoserver发布复杂样式矢量服务的方法

最近因为系统需要在国产系统中部署&#xff0c;遇见了国产系统不支持ArcGIS的尴尬局面&#xff0c;好在geoserver还是可以支持的&#xff0c;遂用geoserver解决服务问题。 在发布过程中&#xff0c;遇到比较难受的点就是矢量数据的样式配图&#xff0c;在我用QGIS配好导出sld后…

为什么神经网络网络算法比机器学习模型算法更加强大?

神经网络&#xff08;尤其是深度神经网络&#xff09;相比传统机器学习模型&#xff08;如线性回归、决策树、支持向量机等&#xff09;的“强大”主要体现在其更强的表达能力、自适应特征学习能力以及对复杂模式的建模能力。但这种“强大”并非绝对&#xff0c;而是有特定条件…

中国移动浪潮云电脑CD1000-系统全分区备份包-可瑞芯微工具刷机-可救砖

中国移动浪潮云电脑CD1000-系统全分区备份包-可瑞芯微工具刷机-可救砖 开启ADB教程&#xff1a; 可查看&#xff1a;浪潮CD1000-移动云电脑-RK3528芯片-232G-安卓9-开启ADB ROOT破解教程 可轻松打开了wifi adb和USB调试。 往期详细内容-文章&#xff1a;浪潮CD1000-移动云电脑…

C++两个字符串的结合

这段代码实现字符串拼接功能。用户输入两个字符串a和b后&#xff0c;使用append()方法将b追加到a后面&#xff0c;然后输出拼接后的结果。代码简洁但存在改进空间&#xff1a;1. 缺少输入验证 2. 直接修改原字符串a可能不符合某些场景需求 3. 可考虑更高效的拼接方式。适合基础…

UE4 Rider调试时添加自定义命令行参数

1、打开 Rider 右上角&#xff0c;针对你的项目&#xff08;例如叫做“Mini”&#xff09;打开 Edit 2、输入自定义的参数&#xff0c;如下图的例子是输入 -dx12 -norhithread &#xff0c;然后Apply并OK。3、开始调试&#xff08;虫子按钮&#xff09;

混合架构大型语言模型(Jamba)

Jamba是由AI21 Labs开发的混合架构大型语言模型&#xff08;LLM&#xff09;&#xff0c;结合了Transformer的语义理解能力和Mamba结构化状态空间模型&#xff08;SSM&#xff09;的高效性&#xff0c;旨在解决长文本处理中的计算瓶颈。 一、技术特点 1.混合架构设计 Jamba采用…

2025 年高教社杯全国大学生数学建模竞赛C 题 NIPT 的时点选择与胎儿的异常判定详解(一)

基于胎儿Y染色体浓度的孕周与BMI建模分析摘要本文利用某竞赛提供的胎儿Y染色体浓度数据&#xff0c;建立了以孕周和孕妇BMI为自变量的多项式回归模型&#xff0c;探讨了其对Y染色体浓度的影响。通过数据清洗与筛选&#xff0c;共获得1082条有效男胎样本。结果显示&#xff1a;Y…

PyTorch DDP 随机卡死复盘:最后一个 batch 挂起,NCCL 等待不返回

PyTorch DDP 随机卡死复盘&#xff1a;最后一个 batch 挂起&#xff0c;NCCL 等待不返回&#xff0c;三步修复 Sampler & drop_last很多人在接触深度学习的过程往往都是从自己的笔记本开始的&#xff0c;但是从接触工作后&#xff0c;更多的是通过分布式的训练来模型。由于…

计算机专业考研备考建议

对于全国硕士研究生招生考试&#xff08;考研&#xff09;&#xff0c;考试科目主要由两大部分组成&#xff1a;全国统一命题的公共课 和 由招生单位自主命题的专业课。具体的考试科目取决于你报考的专业和学校。下面我为你详细拆解&#xff1a;一、考试科目构成&#xff08;绝…

关于嵌入式学习——单片机1

基础整体概念以应用为中心:消费电子(手机、蓝牙耳机、智能音响)、医疗电子(心率脉搏、呼吸机)、无人机(大疆D)、机器人(人形四足机器人) 计算机技术:计算机五大组成:运算器(数据运算)、控制器(指令控制)、存储器(内存外存)、输入设备(鼠标、键盘、摄像头)、输出设备(显示器)软件…

LightDock.server liunx 双跑比较

LightDock: a new multi-scale approach to protein–protein docking The LightDock server is free and open to all users and there is no login requirement server 1示例 故去除约束 next step 结果有正有负合理 2.常见警告⚠ Structure contains HETATM entries. P…

SQL面试题及详细答案150道(61-80) --- 多表连接查询篇

《前后端面试题》专栏集合了前后端各个知识模块的面试题,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs,nodejs,mangoDB,MySQL,Linux… 。 前后端面试题-专栏总目录 文章目录 一、本文面试题目录 61. 什么是内连接(INNE…

【实操】Noej4图数据库安装和mysql表衔接实操

目录 一、图数据库介绍 二、安装Neo4j 2.1 安装java环境 2.2 安装 Neo4j&#xff08;社区版&#xff09; 2.3 修改配置 2.4 验证测试 2.5 卸载 2.6 基本用法 2.7 windows连接服务器可视化 三、neo4j和mysql对比 3.1 场景对比 3.2 Mysql和neo4j的映射对比 3.3 mys…

【mysql】SQL查询全解析:从基础分组到高级自连接技巧

SQL查询全解析&#xff1a;从基础分组到高级自连接技巧详解玩家首次登录查询的多种实现方式与优化技巧在数据库查询中&#xff0c;同一个需求往往有多种实现方式。本文将通过"查询每个玩家第一次登录的日期"这一常见需求&#xff0c;深入解析SQL查询的多种实现方法&a…

MySQL常见报错分析及解决方案总结(9)---出现interactive_timeout/wait_timeout

关于超时报错&#xff0c;一共有五种超时参数&#xff0c;详见&#xff1a;MySQL常见报错分析及解决方案总结(7)---超时参数connect_timeout、interactive_timeout/wait_timeout、lock_wait_timeout、net等-CSDN博客 以下是当前报错的排查方法和解决方案&#xff1a; MySQL 中…

第13章 Jenkins性能优化

13.1 性能优化概述 性能问题识别 常见性能瓶颈&#xff1a; Jenkins性能问题分类&#xff1a;1. 系统资源瓶颈- CPU使用率过高- 内存不足或泄漏- 磁盘I/O瓶颈- 网络带宽限制2. 应用层面问题- JVM配置不当- 垃圾回收频繁- 线程池配置问题- 数据库连接池不足3. 架构设计问题- 单点…