【如何把领域文献批量转换为可供模型微调的数据集?】 https://www.bilibili.com/video/BV1y8QpYGE57/?share_source=copy_web&vd_source=8f9078186b93d9eee26026fd26e8a6ed

几个问题

首先要先搞清楚这几个问题

  • LLM 训练方法
  • 如何选择合适的训练方式
  • 如何判断是否需要微调 LLM
  • LLM 微调数据集准备
  • 数据质量/数量
  • 数据多样性
  • LLM的数据管道如何构建

几篇论文

在书生大模型微调模型打榜过程中,很明显的一个感受就是数据质量的好坏,直接影响模型的评估效果,所以我要看几篇论文来了解模型微调的数据处理的技术论文。
数据处理在微调过程中扮演着核心角色,包括数据清洗(去除噪声和冗余)、预处理(格式化数据以适应模型输入)和增强(增加数据多样性以提高泛化能力)
大模型微调前的数据预处理和数据科学中建模前的数据预处理本质是一样的,在数据科学界流传着一种说法,“数据决定了模型的上限,算法决定了模型的下限”,这足以说明数据处理的重要性。

论文1

  • Fine-tuning large language models for domain adaptation: exploration of training strategies, scaling, model merging and synergistic capabilities (面向领域适应的大语言模型微调:训练策略探索、规模扩展、模型融合与协同能力)
  • 发表信息:Nature, 2025
  • 链接:https://www.nature.com/articles/s41524-025-01564-y
  • 摘要:本文探讨了LLMs在领域适应的微调策略,包括持续预训练(CPT)、监督微调(SFT)、直接偏好优化(DPO)和几率比偏好优化(ORPO),以及模型合并技术(如SLERP)。研究重点在于如何通过数据处理提升模型性能,特别适用于材料科学和工程领域的技术任务。
  • 数据处理技术:
    • CPT:使用原始文本数据,添加起始标记(start token),采用样本打包(sample packing)提高效率。训练脚本可参考https://github.com/lamm-mit/LLM-finetuning。
    • SFT:使用问答格式,角色包括用户和助手,采用样本打包,填充标记(pad token)与结束标记(EOS token)区分。
    • DPO和ORPO:使用选择和拒绝响应对进行微调,最大化DPO损失的似然,ORPO使用对数几率比项,无需参考模型。
    • 模型合并(SLERP):使用球面线性插值(Spherical Linear Interpolation)合并模型参数,涉及非线性参数交互。
  • 数据集示例:使用约21,000条蜘蛛丝相关问答对和5,000条生物启发材料数据,处理工具包括Marker(https://github.com/VikParuchuri/marker)用于PDF转换。
  • 实验细节:Llama(8B)和Mistral(7B)在8xH100节点(8 GPU)上训练,SmolLM(1.7B)在单GPU上训练,数据集规模对性能有显著影响,扩展数据集(3826条额外论文)可能因格式多样性降低性能。
  • 贡献:该论文提供了系统化的数据处理流程,特别适用于领域适应的微调,强调了数据格式化和增强的重要性。

论文2

  • Parameter-efficient fine-tuning in large language models: a survey of methodologies (大型语言模型中的参数高效微调:方法综述)

  • 发表信息:Artificial Intelligence Review, 2025
    发表信息:《人工智能评论》,2025 年

  • 链接:https://link.springer.com/article/10.1007/s10462-025-11236-4

  • 摘要:本文对参数高效微调(PEFT)方法进行了全面综述,涵盖添加式PEFT(如适配器、软提示)、重参数化PEFT(如LoRA)、选择性PEFT(如参数掩码)、混合PEFT(如MAM-Adapter)、量化PEFT(如QLoRA)和多任务PEFT(如AdapterFusion)。这些方法显著降低了计算成本(例如,从400万GPU小时减少到40万GPU小时用于LLaMA-3.1 405B)。

  • 数据处理技术:

    • 添加式PEFT:通过添加适配器(如Houlsby et al.)或软提示(如Li and Liang, 2021)处理数据,更新参数比例≤0.01%。
    • 重参数化PEFT:如LoRA,使用低秩矩阵(A为d×r,B为r×k,r≪min(d,k))适应模型,涉及数据通过低秩近似的处理。
    • 选择性PEFT:通过掩码选择参数进行微调,如U-Diff使用L0范数剪枝,BitFit修改偏置项。
    • 混合PEFT:如UniPELT动态激活子模块,涉及数据通过不同适配器的处理。
    • 量化PEFT:如QLoRA将权重量化到4位NormalFloat(NF4),涉及数据处理以适应低精度计算。
  • 数据集示例:预训练评估使用Common Crawl(8年以上,多语言)和The Pile(22个子集,内容多样)。

  • 实验细节:综述了2019年6月至2024年7月超过100篇相关文章,强调PEFT在多任务学习和资源有限设备上的应用。

  • 贡献:该论文提供了PEFT方法的系统性综述,涵盖了数据处理在微调中的多种形式,特别适用于资源受限场景。

论文3

  • Parameter-efficient fine-tuning of large language models using semantic knowledge tuning (基于语义知识调优的大语言模型参数高效微调)

  • 发表信息:Nature, 2024

  • 链接:https://www.nature.com/articles/s41598-024-75599-4

  • 摘要:本文提出了一种名为语义知识微调(SK-Tuning)的新方法,使用语义有意义的提示或前缀进行适配器训练,充分利用LLM的零样本能力。论文还回顾了适配器训练、提示微调、前缀微调和低秩适应(LoRA)等方法。

  • 数据处理技术:

    • SK-Tuning:使用真实语义提示,加速收敛,RoBERTa-base(125M参数)使用0.60M参数,RoBERTa-large(355M参数)使用1.02M参数。
    • 适配器训练:插入小神经网络(适配器)处理数据,挑战在于确定最佳位置和捕获复杂数据模式。
    • 提示微调:使用软提示(自然语言提示)处理数据,支持连续学习,包括动态和层次化变体。
    • 前缀微调:在每个Transformer层输入添加可学习前缀,保持原始参数固定,涉及数据增强。
    • LoRA:学习低秩矩阵适应模型,评估排名为2和4,涉及数据通过低秩近似的处理。
  • 数据集示例:评估使用GLUE基准(如CoLA、SST-2、MRPC),数据集链接包括https://huggingface.co/datasets/glue/viewer/cola/等。

  • 实验细节:使用Bloom 7b、Llama2 7b、Mistral 7b等模型,学习率范围为1×10^-4 至2×10^-6
    ,训练10个周期,丢弃率0.2。

  • 贡献:该论文提出了创新的SK-Tuning方法,强调了数据提示增强在微调中的重要性,适用于多种NLP任务。

比较总结

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/87910.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/87910.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/87910.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高效处理大体积Excel文件的Java技术方案解析

高效处理大体积Excel文件的Java技术方案解析 引言 在数据密集型应用中,处理数百MB甚至GB级的Excel文件已成为业务刚需。传统基于DOM模型的Excel解析方式(如Apache POI的XSSF)在处理大规模数据时存在严重的内存瓶颈。本文将深入探讨Java生态中…

JVM垃圾回收机制深度解析

🗑️ JVM垃圾回收机制深度解析 文章目录🗑️ JVM垃圾回收机制深度解析🔍 垃圾判定算法🔢 引用计数法🌐 可达性分析算法🔄 垃圾回收算法🏷️ 标记-清除算法📋 复制算法🔧 …

Docker:容器化技术的基石与实践指南

在现代软件开发和部署中,Docker 作为一种领先的容器化平台,已经成为了开发人员和运维工程师不可或缺的工具。它不仅简化了应用的部署过程,还提高了应用的可移植性和可扩展性。本文将深入探讨 Docker 的核心概念、基本操作以及如何在实际项目中…

java web7(黑马)

Filter简介概念: Filter 表示过滤器,是 JavaWeb 三大组件(Servlet、Filter、Listener)之一。过滤器可以把对资源的请求拦截下来,从而实现一些特殊的功能。过滤器一般完成一些通用的操作,比如:权限控制、统一编码处理、敏感字符处理等等.快速入…

React-forwardRef-useImperativeHandle

forwardRef 暴露dom节点作用:使用ref暴露DOM节点给父组件案例例如在父组件中想要获取子组件input的输入值,和让input获取焦点父组件import { Button } from antd-mobile import Son from "./components/son"; import { useState,useRef } fro…

Unity 用AI自动开发游戏----Cursor研究(实现一套利用Cursor生成模板快速实现原型的框架)

Unity 快速原型开发框架(基于 Cursor AI) 🧩 框架简介 本框架结合了 AI 编程助手 Cursor 的代码生成能力,构建出一套适用于 Unity 项目的模块化原型开发架构。它旨在极大提升开发效率、降低试错成本,特别适用于快速搭…

D触发器实现2分频verilog及电路

使用D触发器完成2分频电路即通过时钟的上升沿或下降沿到来时进行翻转得到,信号的两个状态所占时间长度相同,因此它的输出时钟的占空比为50%。 D触发器实现2分频的电路图如下所示:通过将D触发器2分频电路级联,可实现输入时钟的2N倍…

UniApp完美对接RuoYi框架开发企业级应用

UniApp完美对接RuoYi框架的完整方案及可开发系统类型,结合企业级实践与开源项目经验整理而成,涵盖技术对接、系统设计及实战案例。 🔧 一、UniApp与RuoYi对接全流程 1. 后端配置(RuoYi-Vue/RuoYi-Cloud) 跨域支持 在网…

【通识】深度学习理论基础

1. 深度学习导论 导论和简介的基础知识和路径。 深度学习的各项涵盖范围:深度学习MLPs,然后是机器学习、逻辑回归,知识基础等等 1)连结神经网络等等:Cybernetics控制论,Connectionism连结主义&#xff0…

sql-labs(11-12)-万能密码登录

sql-labs(11-12)万能密码登录 第十一关: 这关是一个登陆口,也是一个sql注入的漏洞,也就是常说的万能密码。 在输入框账号密码种分别输入 1’ 和1’ 页面会报错。后台使用的单引符号进行的拼接。账号输入1’ or ‘1’‘1 密码输入 1’ or …

MsSql 其他(2)

✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨Mysql中的MVCC 一、MVCC 的核心目标与设计背景 MVCC(Multi-Version Concurrency Control,多版本并发控制) 是 InnoDB 存储引擎为实现高并发事务处理而设计的核心机制。其核心目标是:在不牺牲事务隔…

解决本地部署n8n,域名访问为什么一直有connection lost的报错

问题:本地部署的n8n服务用IP访问一切都正常,但是使用域名后报错connection lost思路:首先怀疑是ngnix配置问题或者是docker中的环境问题查看docker logsOrigin header does NOT match the expected origin. (Origin: "nxxx.online:1181&…

传统架构开发VS PREEvision:一场效率与可靠性的降维打击

当前,整车功能数量激增,意味着需要更庞大的整车数据库、更复杂的硬件传感器与执行器网络、更密集的跨系统交互接口以及更难以预测的耦合效应。这样一来,单一功能的微小改动,可能会因复杂的依赖关系而引发意想不到的连锁反应&#…

深度学习基础1

一、张量 张量其实就是数组,不过是在深度学习中是这样的叫法 1.张量的创建 (1)基本创建方式 torch.tensor():根据指定数据创建张量 import torch import numpy as np """创建张量标量""" data to…

力扣网编程274题:H指数之普通解法(中等)

一. 简介 本文记录力扣网上涉及数组,排序方面的编程题:H指数。 二. 力扣网编程274题:H指数(中等) 给你一个整数数组 citations ,其中 citations[i] 表示研究者的第 i 篇论文被引用的次数。计算并返回该研…

iptables防火墙,多IP环境下, 指定某个目的IP地址通过某个本地IP访问,策略路由!

需求在CentOS 7.9中,若需从特定源IP(10.0.0.3)访问目标网段 1.1.1.0/24方法一:策略路由(支持网段)1. 创建自定义路由表# 添加名为custom_table的路由表(ID200) echo "200 custo…

数字孪生技术引领UI前端设计新趋势:数据可视化与交互设计的深度融合

hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言:数字孪生驱动 UI 设计的范式革新在大数据与三维可视化技术爆发的今天&…

【机器学习笔记 Ⅱ】6 激活函数

激活函数是神经网络的核心组件,其作用远不止“引入非线性”。以下是系统化的解析:1. 核心作用 (1) 引入非线性没有激活函数:多层神经网络等价于单层线性变换(矩阵连乘仍是线性)。加入激活函数:每层通过非线…

AI无标记动捕如何结合VR大空间技术打造沉浸式游戏体验

随着数字科技的迅猛发展,VR大空间技术正逐步成为各行业探索沉浸式体验的重要方向。在VR游戏领域,市场对于高度沉浸式体验的需求日益增长,而传统VR游戏主要依赖手柄和基础体感进行交互,而在VR大空间中,用户可以通过全身…

Qt智能指针

在 Qt 框架中,智能指针用于自动管理对象的生命周期,防止内存泄漏。以下是 Qt 中主要的智能指针及其用法详解:1. QScopedPointer作用:独占所有权,超出作用域时自动释放对象(类似 std::unique_ptr&#xff09…