在训练阶段,训练算法通过优化目标/损失函数在训练数据集上的表现,不断更新模型参数θ。在监督学习场景中,训练数据集由输入-标签对(真实输出值)组成。目标函数应当奖励模型根据训练输入成功预测真实输出的行为,同时也需避免过拟合、训练集偏差或对其他非代表性训练数据的过度依赖。
由于训练模型的质量本质上与训练数据的质量相关,应尽可能减少训练数据中的标注错误。然而仍需假设此类错误可能存在,并采取措施降低其污染模型的风险。
在数据预处理阶段,必须确保数据不包含任何无效值,例如空值、无穷大或与特定特征预期类型不匹配的值。当检测到数据中的错误时,首先需要思考的问题是:"应如何修正这些错误?"一个简单的解决方案可能是直接删除包含缺失或损坏特征的记录。然而,这种做法可能导致大量经过微小调整即可使用的数据被剔除。
针对此类问题,可采用多种处理技术:无效值可以用最小值、最大值或平均值替代;另一种解决方案是训练一个较小的模型,利用其他所有特征来预测特定特征,进而填补缺失或损坏的值。部分数据科学家甚至建议直接删除异常值,将其视为"可能的错误",但需谨慎操作,因为异常值未必意味着数据收集错误。
在测试和评估模型时,选择能准确反映模型需求的评估指标至关重要。例如,若银行训练金融欺诈检测模型,评估指标可能需要同时考虑误判正常交易的代价与漏判恶意交易的损失。由于不同错误的代价可能存在差异,简单的准确率指标可能不足,甚至可能曲解根本目标。
隐私问题
据估算,2024年全球每日将消耗149泽字节(10²¹字节)数据。尽管数据规模如此庞大,但可用于模型训练的现成数据——尤其是高质量标注数据——仍是珍贵且稀缺的资源,研究人员往往难以获取。由于商业利益、伦理道德或法律监管等方面的考量,数据所有者出于隐私保护、保密要求等因素,通常不愿共享其数据。
即便模型完成训练后,数据科学家仍面临各类隐私隐患:既可能从训练好的模型中提取出私密数据,也能从聚合数据中还原出个人身份信息。虽然各类匿名化技术能在一定程度上缓解隐私问题,但这些技术往往需要在隐私保护与数据准确性/可用性之间作出权衡。
上述问题主要涉及个人身份信息(PII)的保护,但还需考虑防范以模型权重形式存在的知识产权(IP)被盗风险。攻击者既可能通过系统入侵窃取完整模型,也能在黑盒模型使用场景中实施基于查询的攻击算法。
发送至模型作为查询输入的数据,也可能通过中间人攻击泄露给恶意行为者。此类情况下,能够截获数据传输的恶意黑客 运行该模型的计算机平台会等待数据被解密后,再交由分析模型进行处理,随后窃取有价值的明文信息。最后,模型输出和分析结果也可能被视为敏感信息,因此必须确保学习过程的安全性,以免涉及金融、医疗或其他机密信息的结果落入不法分子之手。
应对上述隐私问题,除了全同态加密(FHE)外,以下简要讨论几种常见方法和技术:
多方计算(MPC)技术通过强密码学保障实现数据保护,无需依赖专用硬件或软件。该技术允许多方在不泄露各自输入数据的前提下,协同计算某个函数或算法的结果——最终仅向指定方或全体参与方公开计算结果。但MPC存在显著局限性:其底层算法的实现可能因多方间频繁交互而产生巨大的网络开销[3]。
MPC的理论雏形最初由姚期智提出双方案例,后经Goldreich、Micali和Wigderson推广至多方场景。文献[16]提出的混淆电路(GC)概念为MPC理论奠定了基础。GC协议使两个互不信任的方无需第三方中介即可进行安全计算。
MPC的核心驱动力源于跨实体/组织数据共享场景中隐私保护与数据价值挖掘的双重需求。当机构间能安全共享隐私数据时,将产生无数带来重大商业利益的场景用例。某些情况下,以隐私保护方式实现多方数据共享甚至能催生全新商业模式。
实际应用的MPC协议多针对特定场景开发,如隐私投标和安全集合求交。但由于实施难度大、计算与通信开销远高于其他隐私保护方案,该技术在工业界的应用仍受限。
2008年丹麦甜菜拍卖应用[7]成为多方计算(MPC)领域的重要里程碑。这是首个大规模实际应用的 商业领域的多方计算(MPC)。丹麦甜菜种植者协会代表、丹麦甜菜加工企业丹尼斯克公司以及MPC协议实施团队成功运行了一场基于MPC协议的虚拟拍卖。该技术的运用确保了农民的投标信息对丹麦市场唯一甜菜加工商丹尼斯克保密,同时降低了整体拍卖流程成本。鉴于农民报价可能暴露其经济状况与生产能力,必须防止丹尼斯克获取这些信息并在销售合同时谋取优势。
机密计算(CC)是通过基于硬件的可信执行环境(TEE,又称安全飞地)处理数据的技术。在TEE部署软件时需进行认证流程,确保运行软件栈的合法性。IBM、英特尔和AMD等厂商提供的TEE方案中,内存数据全程加密,仅在中央处理器(CPU)内部解密。相较于MPC和全同态加密(FHE)等技术,该方案具有显著时效优势,但其安全假设存在固有局限——必须预设安全飞地内的硬件与软件栈始终未被攻破。这种假设在软件漏洞与侧信道攻击频发的背景下尤其值得商榷。此外,安全飞地技术无法实现多方间的敏感数据安全协同处理。
差分隐私(DP)通过量化潜在数据泄露量来提供强隐私保障,但会降低数据效用与保真度,制约工业场景应用。该方法通过向私有属性添加特定噪声来保护个体隐私,同时保持群体趋势可观测性。经定制调参的噪声分布能隐藏个体在数据集中的存在状态,使攻击者无法区分包含特定个体的分析结果与替换个体数据的分析结果。这种"无法检测个体数据是否存在于数据集"的特性,正符合隐私法规对参与者身份不可识别性的要求。