网罗开发 （小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员
👋 大家好，我是展菲！
📱 全网搜索“展菲”，即可纵览我在各大平台的知识足迹。
📣 公众号“Swift社区”，每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。
💬 微信端添加好友“fzhanfei”，与我直接交流，不管是项目瓶颈的求助，还是行业趋势的探讨，随时畅所欲言。
📅 最新动态：2025 年 3 月 17 日
快来加入技术社区，一起挖掘技术的无限潜能，携手迈向数字化新征程！

文章目录

- 摘要
- 引言
- 对齐训练的三大阶段
- - 监督微调（SFT）
  - 奖励模型训练（RM）
  - 策略优化（PPO / DPO）
  - - PPO
    - DPO（更轻量）
- 应用场景与代码示例
- - 场景一：客服对话系统
  - 场景二：内容安全助手
  - 场景三：医疗助手
- QA 环节
- 总结

摘要

在大语言模型日益强大的今天，我们会发现一个问题：它们虽然“能说会道”，但有时候却说得不靠谱——比如编造事实、回答偏激，甚至出现违背常识和伦理的问题。

为了让模型“听得懂话、说得靠谱”，我们就需要对齐训练（Alignment Training）。这背后的核心方法是 人类反馈强化学习（RLHF），它通过人类偏好来调整模型行为，确保模型输出不仅正确，而且符合价值观。

本文将系统介绍 RLHF 的三个阶段：监督微调（SFT）、奖励模型训练（RM）、策略优化（如PPO、DPO），结合 HuggingFace + TRL + DPO 框架进行实战演示，帮助你掌握一整套对齐训练的开发流程。

引言

大语言模型训练分两步走：

预训练（Pretraining）：学会“说话”，但不懂“人话”。
对齐训练（Alignment）：学会“说得对”，还得“说得人喜欢”。

早期对齐方法主要是规则过滤或黑名单，但效果有限。直到 OpenAI 推出 InstructGPT 和 ChatGPT，通过 RLHF 结合人类反馈训练出更符合人类偏好的模型，才真正解决了这一问题。

随着对齐技术的发展，又涌现了许多轻量替代品，如 DPO（Direct Preference Optimization），省去了 RL 中复杂的采样和价值函数估计，成为更轻便的替代方案。

对齐训练的三大阶段

监督微调（SFT）

这是最基础的一步。我们先用成对的指令-回复数据（如“请写一封道歉信” - “很抱歉我错了………”）让模型学会基本的“格式”与“语气”。

# 使用transformers进行SFT训练
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainermodel = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-hf")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")train_data = [{"input": "请写一封道歉信", "output": "很抱歉给您带来了不便……"},{"input": "总结这段内容", "output": "这段文字讨论了……"},
]def tokenize(example):prompt = f"### 指令：\n{example['input']}\n\n### 回复：\n{example['output']}"tokens = tokenizer(prompt, truncation=True, padding="max_length", max_length=512)tokens["labels"] = tokens["input_ids"]return tokenstokenized_data = list(map(tokenize, train_data))training_args = TrainingArguments(output_dir="./sft_model", per_device_train_batch_size=1, num_train_epochs=3)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data)
trainer.train()

奖励模型训练（RM）

接下来，我们需要训练一个“奖励模型”来判断哪一段回复更好。它是 RLHF 的核心。

我们准备多组 A/B 选择数据，例如：

Prompt: “你怎么看待加班文化？”
A: “加班是奋斗精神的体现。”
B: “长期加班会损害身心健康。”

人类选择 B，我们用这个偏好训练一个二分类奖励模型。

# 简化版：奖励模型结构
from transformers import AutoModel, AutoTokenizer
import torch.nn as nnclass RewardModel(nn.Module):def __init__(self, base_model="meta-llama/Llama-2-7b-hf"):super().__init__()self.backbone = AutoModel.from_pretrained(base_model)self.value_head = nn.Linear(self.backbone.config.hidden_size, 1)def forward(self, input_ids, attention_mask):outputs = self.backbone(input_ids=input_ids, attention_mask=attention_mask)last_hidden = outputs.last_hidden_state[:, -1, :]return self.value_head(last_hidden)

奖励模型训练完成后，我们就能用它来为策略模型提供“偏好评分”。

策略优化（PPO / DPO）

这是整个对齐过程的“高能环节”：我们用奖励信号来“调教”模型。

PPO

PPO 是最经典的 RLHF 策略训练方法，但实现较复杂，需要一个“回放缓冲区”和 KL 约束。HuggingFace 的 trl 库帮我们封装好了：

from trl import PPOTrainer, PPOConfigppo_config = PPOConfig(model_name="sft_model", learning_rate=5e-6)
ppo_trainer = PPOTrainer(config=ppo_config, model=model, tokenizer=tokenizer, reward_model=reward_model)for prompt in prompts:response = ppo_trainer.model.generate(tokenizer(prompt, return_tensors="pt")["input_ids"])reward = reward_model(response)ppo_trainer.step([prompt], [response], [reward])

DPO（更轻量）

相比 PPO，DPO 不需要 RL 环节，直接最小化“好回复”优于“坏回复”的概率差。用法上更简单，训练速度也快。

# DPO 示例
from trl import DPOTrainerdpo_trainer = DPOTrainer(model=model,ref_model="sft_model",  # 作为对比基线beta=0.1,train_dataset=your_pairwise_data,
)dpo_trainer.train()

应用场景与代码示例

场景一：客服对话系统

用户发来复杂问题，模型需要不仅准确，还要语气温和。这时候用指令微调 + DPO 就能有效提升回答的“人性化”。

问：你们怎么还没发货？我要投诉！
答：非常抱歉给您带来了不便，我们已加急处理……

场景二：内容安全助手

我们希望模型能主动避免生成敏感或不当内容。通过奖励模型过滤，结合 DPO 优化，可以有效减少“毒性”回答。

场景三：医疗助手

医生问诊类对话，需要模型“谨慎回答”。我们可以使用专业领域的反馈数据，对回答策略进行 DPO 调整，增强模型的“责任感”。

QA 环节

Q: DPO 和 PPO 有啥区别？用哪个好？
A: PPO 是正统 RLHF 的核心方案，但训练成本高。DPO 是后起之秀，更适合中小团队快速部署，效果也不错，特别适合垂类场景。

Q: 对齐训练会不会让模型“失去创造力”？
A: 这是个平衡问题。如果奖励信号设计得太保守，会抹杀多样性。但合理设计偏好训练目标，可以在安全与创造之间找到平衡。

总结

对齐训练是让大模型“更接近人类思维”的关键一步。无论是 RLHF 还是 DPO，本质上都是在“教模型做人”：

用 SFT 学习基础指令理解
用 RM 学会什么是“好回复”
用 PPO/DPO 优化行为策略

对于想在特定领域（医疗、法律、客服）构建可靠模型的开发者来说，这是一条必须掌握的路径。

文章目录

摘要

引言

对齐训练的三大阶段

监督微调（SFT）

奖励模型训练（RM）

策略优化（PPO / DPO）

PPO

DPO（更轻量）

应用场景与代码示例

场景一：客服对话系统

场景二：内容安全助手

场景三：医疗助手

QA 环节

总结

相关文章

GO 原子操作面试题及参考答案

MATLAB 山脊图绘制全解析：从数据生成到可视化进阶

跨境电商每周资讯—6.16-6.20

计算机网络网络层：数据平面（一）

Suna本地部署详细教程

LeetCode 每日一题打卡｜若谷的刷题日记 3day--最长连续序列

EfficientVLA：面向视觉-语言-动作模型无训练的加速与压缩

wireshark抓包分析TCP数据包

同等学力申硕-计算机统考-历年真题和备考经验

OSI网络通信模型详解

C++ 检测文件大小和文件传输

Ubuntu 中修改网卡 IP

记录学习three.js 为什么 .glTF 是更适合 Web 的 3D 模型格式？——从 .OBJ 到 .glTF 的转变⑭

H递归函数.go

软件功能测试的测试标准

EchoEar（喵伴）：乐鑫发布与火山引擎扣子联名 AI 智能体开发板

图像特征检测算法SIFT

光纤通道收发器：市场洞察、技术演进与未来机遇

candence17.4如何设置两个焊盘之间在TOP与BOTTOM可以存在两根线

Dify：参数调节，让LLM从能用到好用的机制