目录
- 4.9. 环境和分布偏移
- 1)分布偏移的类型
4.9. 环境和分布偏移
机器学习应用常被忽视数据来源和模型输出处理。许多模型在测试集上表现好,但数据分布改变时会部署失败,甚至模型决策本身可能破坏数据分布(如贷款模型基于“穿牛津鞋就会还款”决策,导致所有人都穿牛津鞋但信用未提升)。解决这些问题需多方面的思考和方法,如优化数据、强化学习、考虑算法伦理等,以提升机器学习系统的可靠性和适应性。
1)分布偏移的类型
分布偏移指训练与测试数据分布不同,如训练数据来自分布 p S ( x , y ) p_S(\mathbf{x}, y) pS(x,y),测试数据来自 p T ( x , y ) p_T(\mathbf{x}, y) pT(x,y)。**若无假设两者关系,学习到一个分类器是不可能的。**如狗猫分类问题,若输入分布不变但标签全翻转,无法区分情况。需在合理假设下用算法检测调整分布偏移,提升分类器精度。
分布偏移的类型:
-
协变量偏移:指特征的分布发生了变化,但标签函数保持不变。例如,训练集包含真实照片,测试集包含卡通图片时,模型可能难以适应新的特征分布。
-
标签偏移:指标签的边缘概率分布发生了变化,但类别条件分布保持不变。例如,预测疾病时,疾病的发病率(标签的边缘概率)可能随时间变化,但症状与疾病的关联关系保持不变。
-
概念偏移:指标签的定义发生变化。例如,不同地区对“软饮”的名称存在差异,这可能导致机器翻译系统在不同地区产生不同的翻译结果。
声明:资源可能存在第三方来源,若有侵权请联系删除!