研究背景:
异构联邦中各客户端模型结构,精度,算力都不同,无法像传统联邦那样共享梯度,只能通过“查询-响应”使用辅助数据来训练模型。这种方法存在严重隐私问题:直接共享查询样本会泄露敏感信息,以及响应预测可能会泄露模型梯度和训练数据的隐私。
相关知识:
伪随机函数(PRF):一种确定性函数,以一个均匀随机种子Sk和一个输入x作为参数,输出一个固定长度的伪随机字符串。安全性体现在,输出的伪随机字符串与均匀分布的字符串在计算上是不可区分的。
研究思路:
本文提出了GuardHFL的新方法,基于标准HFL范式(本地训练,查询,本地再训练),通过轻量级密码技术增强隐私保护,制定安全查询方案。
步骤:
- 安全查询数据共享
为避免样本直接暴露,查询方需要将查询数据x秘密共享给响应方和服务器。借助 PRF,查询方和响应方通过预共享的种子Sk生成相同的随机值r,使得响应方非交互地获得x的份额,而查询方仅需将剩余份额发送给服务器,避免了查询数据的直接暴露。
2. 安全模型预测
服务器在查询方和响应方的协助下,对秘密共享的查询数据执行安全模型预测。包含三层:线性层,ReLU和最大池化层。线性层:通过改进的矩阵乘法协议,响应方持有模型参数和服务器协作计算。利用 PRF 生成随机矩阵,通过 1 轮通信和 3 个环元素交换,高效实现安全乘法。ReLU 激活函数:基于最高有效位判断输入正负,MSB 通过并行前缀加法器计算,仅依赖 AND 和 XOR 操作。最大池化层:通过递归划分输入为两半,转化为 ReLU 计算。
3. 安全结果聚合
为避免单条预测泄露隐私,服务器聚合多个响应方的预测结果后返回给查询方。每个响应方生成随机值r( 与查询方共享),计算份额并发送给服务器;服务器汇总结果,并将掩码聚合结果发送给查询方;查询方通过累加随机值恢复最终聚合结果。
实验设置:
数据集:SVHN、CIFAR10、Tiny ImageNet;
在 SVHN、CIFAR10、Tiny ImageNet 上,使用私有训练数据(Q-priv)或合成样本(Q-syn)作为查询数据,模型精度比原始 HFL 提高 4%∼10%;
非独立同分布(Non-IID)数据下,GuardHFL 仍能显著提升模型性能。
未来方向:
降低通信成本(如借鉴 k - 正则图思想);
扩展至恶意攻击者模型。