更多面试题,请看
大模型面试题总结-CSDN博客
或者
https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md
最好将URL复制到浏览器中打开,不然可能无法直接打开
-------------------------------------------------------------------------------------------------
1. RL 的过优化现象
在 RLHF(强化学习人类反馈)训练过程中,策略模型如果对奖励模型(RM)进行过度优化,可能会导致模型输出与人类真实偏好背道而驰。例如,策略模型可能会过度迁就奖励模型的某些偏差,从而在训练后期导致验证集上的性能不升反降。
2. 缓解方法
-
提前停止(Early Stopping):通过监控验证集上的性能,在模型性能开始下降之前及时停止训练,避免进一步的优化导致性能恶化。
-
限制模型偏离(KL 惩罚项):在训练中引入 PPO(近端策略优化)算法的 KL 散度惩罚项,限制策略模型与初始模型之间的差异,防止其过度偏离人类偏好。
-
奖励模型更新:通过提升奖励模型的泛化能力和鲁棒性来缓解过优化问题。例如,采用多目标奖励机制或对抗训练,使奖励模型更加稳定和可靠。