【如何把领域文献批量转换为可供模型微调的数据集？】 https://www.bilibili.com/video/BV1y8QpYGE57/?share_source=copy_web&vd_source=8f9078186b93d9eee26026fd26e8a6ed

几个问题

首先要先搞清楚这几个问题

LLM 训练方法
如何选择合适的训练方式
如何判断是否需要微调 LLM
LLM 微调数据集准备
数据质量/数量
数据多样性
LLM的数据管道如何构建

几篇论文

在书生大模型微调模型打榜过程中，很明显的一个感受就是数据质量的好坏，直接影响模型的评估效果，所以我要看几篇论文来了解模型微调的数据处理的技术论文。
数据处理在微调过程中扮演着核心角色，包括数据清洗（去除噪声和冗余）、预处理（格式化数据以适应模型输入）和增强（增加数据多样性以提高泛化能力）
大模型微调前的数据预处理和数据科学中建模前的数据预处理本质是一样的，在数据科学界流传着一种说法，“数据决定了模型的上限，算法决定了模型的下限”，这足以说明数据处理的重要性。

论文1

Fine-tuning large language models for domain adaptation: exploration of training strategies, scaling, model merging and synergistic capabilities （面向领域适应的大语言模型微调：训练策略探索、规模扩展、模型融合与协同能力）
发表信息：Nature, 2025
链接：https://www.nature.com/articles/s41524-025-01564-y
摘要：本文探讨了LLMs在领域适应的微调策略，包括持续预训练（CPT）、监督微调（SFT）、直接偏好优化（DPO）和几率比偏好优化（ORPO），以及模型合并技术（如SLERP）。研究重点在于如何通过数据处理提升模型性能，特别适用于材料科学和工程领域的技术任务。
数据处理技术：
- CPT：使用原始文本数据，添加起始标记（start token），采用样本打包（sample packing）提高效率。训练脚本可参考https://github.com/lamm-mit/LLM-finetuning。
- SFT：使用问答格式，角色包括用户和助手，采用样本打包，填充标记（pad token）与结束标记（EOS token）区分。
- DPO和ORPO：使用选择和拒绝响应对进行微调，最大化DPO损失的似然，ORPO使用对数几率比项，无需参考模型。
- 模型合并（SLERP）：使用球面线性插值（Spherical Linear Interpolation）合并模型参数，涉及非线性参数交互。
数据集示例：使用约21,000条蜘蛛丝相关问答对和5,000条生物启发材料数据，处理工具包括Marker（https://github.com/VikParuchuri/marker）用于PDF转换。
实验细节：Llama（8B）和Mistral（7B）在8xH100节点（8 GPU）上训练，SmolLM（1.7B）在单GPU上训练，数据集规模对性能有显著影响，扩展数据集（3826条额外论文）可能因格式多样性降低性能。
贡献：该论文提供了系统化的数据处理流程，特别适用于领域适应的微调，强调了数据格式化和增强的重要性。

论文2

Parameter-efficient fine-tuning in large language models: a survey of methodologies （大型语言模型中的参数高效微调：方法综述）
发表信息：Artificial Intelligence Review, 2025
发表信息：《人工智能评论》，2025 年
链接：https://link.springer.com/article/10.1007/s10462-025-11236-4
摘要：本文对参数高效微调（PEFT）方法进行了全面综述，涵盖添加式PEFT（如适配器、软提示）、重参数化PEFT（如LoRA）、选择性PEFT（如参数掩码）、混合PEFT（如MAM-Adapter）、量化PEFT（如QLoRA）和多任务PEFT（如AdapterFusion）。这些方法显著降低了计算成本（例如，从400万GPU小时减少到40万GPU小时用于LLaMA-3.1 405B）。
数据处理技术：
- 添加式PEFT：通过添加适配器（如Houlsby et al.）或软提示（如Li and Liang, 2021）处理数据，更新参数比例≤0.01%。
- 重参数化PEFT：如LoRA，使用低秩矩阵（A为d×r，B为r×k，r≪min(d,k)）适应模型，涉及数据通过低秩近似的处理。
- 选择性PEFT：通过掩码选择参数进行微调，如U-Diff使用L0范数剪枝，BitFit修改偏置项。
- 混合PEFT：如UniPELT动态激活子模块，涉及数据通过不同适配器的处理。
- 量化PEFT：如QLoRA将权重量化到4位NormalFloat（NF4），涉及数据处理以适应低精度计算。
数据集示例：预训练评估使用Common Crawl（8年以上，多语言）和The Pile（22个子集，内容多样）。
实验细节：综述了2019年6月至2024年7月超过100篇相关文章，强调PEFT在多任务学习和资源有限设备上的应用。
贡献：该论文提供了PEFT方法的系统性综述，涵盖了数据处理在微调中的多种形式，特别适用于资源受限场景。

论文3

Parameter-efficient fine-tuning of large language models using semantic knowledge tuning （基于语义知识调优的大语言模型参数高效微调）
发表信息：Nature, 2024
链接：https://www.nature.com/articles/s41598-024-75599-4
摘要：本文提出了一种名为语义知识微调（SK-Tuning）的新方法，使用语义有意义的提示或前缀进行适配器训练，充分利用LLM的零样本能力。论文还回顾了适配器训练、提示微调、前缀微调和低秩适应（LoRA）等方法。
数据处理技术：
- SK-Tuning：使用真实语义提示，加速收敛，RoBERTa-base（125M参数）使用0.60M参数，RoBERTa-large（355M参数）使用1.02M参数。
- 适配器训练：插入小神经网络（适配器）处理数据，挑战在于确定最佳位置和捕获复杂数据模式。
- 提示微调：使用软提示（自然语言提示）处理数据，支持连续学习，包括动态和层次化变体。
- 前缀微调：在每个Transformer层输入添加可学习前缀，保持原始参数固定，涉及数据增强。
- LoRA：学习低秩矩阵适应模型，评估排名为2和4，涉及数据通过低秩近似的处理。
数据集示例：评估使用GLUE基准（如CoLA、SST-2、MRPC），数据集链接包括https://huggingface.co/datasets/glue/viewer/cola/等。
实验细节：使用Bloom 7b、Llama2 7b、Mistral 7b等模型，学习率范围为1×10^-4 至2×10^-6
，训练10个周期，丢弃率0.2。
贡献：该论文提出了创新的SK-Tuning方法，强调了数据提示增强在微调中的重要性，适用于多种NLP任务。