基于扩散模型的人脸隐私保护方法——DiffPrivacy,解决了两类人脸隐私任务:匿名化(anonymization)和视觉身份信息隐藏(visual identity information hiding)。


1. 研究背景

随着人工智能和大数据技术的普及,个人身份图像(尤其是人脸图像)面临隐私泄露风险。研究者提出两类主要保护方法:

  • 匿名化

    • 目标:让人和机器都无法识别到原来的身份,但保留面部结构,使检测器仍能正常工作。

    • 场景:社交媒体照片,公开发布。

  • 视觉身份信息隐藏

    • 目标:人类看不到真实身份,但机器可准确识别(如加密存储、后续智能识别)。

    • 场景:云端存储加密,人脸认证等。

挑战:这两类任务的目标是矛盾的,难以通过同一模型实现。例如,匿名化需要让模型无法识别,而视觉身份隐藏则要求机器仍能正确识别。此外,现有方法多为专用,需大量高质量人脸数据,且容易留下编辑痕迹,恢复能力有限。


DiffPrivacy设计:

  • 多尺度图像反演模块(MSI)
    利用扩散模型在不同时间步关注图像的不同级别(尺度)信息,设计MSI模块获取原始图像的条件嵌入(conditional embedding),支持多样化调控。

  • 身份指导能量函数(Energy-based Identity Guidance)
    在扩散生成过程的去噪阶段,根据任务需求进行梯度修正。即:

    • 匿名化:最大化对原身份的混淆(让识别模型识别错误)

    • 信息隐藏:确保加密图像能被机器准确识别

  • 嵌入调度策略(Embedding Scheduling)
    结合不同时间步分配不同的嵌入,使生成与恢复流程灵活切换。


Figure 1:DiffPrivacy方法生成的加密/匿名人脸:

  • 既能在视觉上高度逼真地改变身份(真实感极强),

  • 也能在需要时无损地恢复原始身份,

  • 与对比方法相比,既不易被识破,也能灵活支持不同应用场景。

2. Related Work

2.1 Anonymization

1. 基础低层方法
  • 低级图像处理如模糊(blurring)、马赛克(mosaicing)、遮罩(masking)、像素化(pixelization)等,直接破坏脸部可辨识特征。这些方法有效消灭身份,但往往严重损害图片可用性:检测、识别、分析都受影响。
2. 基于生成式模型
  • GANs/虚拟脸替换
    • 用生成对抗网络(GANs)生成新的、虚拟的面部区域替换原始身份,例如inpainting生成新脸(如Sun等[39])。
    • 不足:生成的面部常常不自然,表情属性单一。
    • 提升:Maximov等[25]利用人脸关键点信息生成多样化加密脸,但高分辨率下自然度仍有限。
3. 可恢复匿名化
  • 最近工作([5], [13], [22]等)专注于可逆加密和匿名。典型方法:
    • 条件GAN,输入密码条件,输出加密脸(Gu等[13])。
    • 抽取属性/身份向量,旋转改变身份(Cao等[5])。
    • 将原图投射到StyleGAN2潜空间,密码与transformer一起处理生成加密代码(Li等[22])。
  • 局限性:训练强依赖高质量人脸数据,加密和恢复的图像质量满意度一般。

2.2 Visual Information Hiding 视觉信息隐藏

1. 基于同态加密(Homomorphic Encryption, HE)
  • 利用密码学加密图像,理论上安全,但不适用深度模型,对图像推理兼容性很差。
2. 基于感知加密(Perceptual Encryption, PE)
  • 专注人类感知的加密域设计,如直接用加密图像训练模型,准确率受较大影响。
  • 例如Ito等[18]结构化变换网络,确保分类器依然可正确识别但视觉信息隐藏,不可恢复原始图像
3. 对抗攻击启发方法
  • Su等[38]应用Type-I攻击迭代加密,可恢复和识别,但生成内容接近噪音,容易被黑客识别为加密图片;且在线优化,速度慢。

2.3 Diffusion Models 扩散模型

演进与应用
  • 经典Diffusion:基于马尔可夫链反复迭代,早期[14]慢,样本质量好。
  • DDIM[35]:确定性采样,极大提升生成速度。
  • 引入类别/条件信息:如Dhariwal等[8],提升真实度但训练成本高。
  • Classifier-Free Diffusion:条件+无条件共同训练更平衡([15])。
  • Latent Diffusion:从像素空间到潜空间生成(Rombach等[30]),极大节省算力。
  • 当前已广泛用于密度估计、样本生成及视觉任务。

3. Diff-Privacy方法原理详细解析

总体框架

Diff-Privacy设计为三步:

  1. 条件嵌入学习(key-E):通过多尺度(multi-stage embedding)反演模块(MSI)学习原图在预训练SDM(Stable Diffusion Model)中的条件嵌入(embedding)。
  2. 隐私保护图像生成(key-I):通过能量函数身份指导+嵌入调度策略,在去噪流程中引导生成加密/匿名化脸,并通过DDIM反演得到噪音图。
  3. 身份恢复:使用key-I和key-E(作为条件嵌入),利用DDIM采样逆向还原出原始图。

3.1 扩散模型与DDIM采样/反演

  • SDM将原图编码到潜空间(latent space):z₀ = Enc(x₀)
  • 加噪过程:zt = sqrt(αₜ)z₀ + sqrt(1-αₜ)ε(ε为高斯噪声)
  • 去噪(采样):使用UNet网络生成epsilon估计
  • DDIM逆过程:采样和反演公式(见Eq. 2,4),使噪音图能够还原原图。

3.2 条件嵌入(Conditional Embedding)学习

1. 多阶段条件嵌入空间(C*)
  • 观察:扩散模型去噪初期决定布局、结构;中期决定内容;末期生成纹理。
  • 10阶段嵌入方案:1000步去噪分10段,每段一个嵌入(每个token配768维向量)——更细粒度调控。
  • 如何获取嵌入:不是直接优化而是用MSI模块,结合CLIP图像编码器多层特征(五层768向量),分别与时间步embedding相乘,通过注意力模块聚合,最终对齐并得到embedding组。
2. 训练目标
  • 优化MSI,使SDM去噪误差最小(Eq. 7)
  • cross-attention做dropout防过拟合。

3.3 隐私保护机制设计

3.3.1 嵌入调度策略
  • 利用多阶段嵌入,不同privacy目标采用分阶段切换:如去噪初/中期用无条件embedding,后期用learned embedding。
  • 匿名化:前40%用无条件embedding,后60%用learned embedding。
3.3.2 能量函数身份指导模块
  • 目标:通过能量函数对去噪方向做梯度修正,实现身份相似/不同可控。
  • 主要步骤:
    1. 利用预训练人脸识别模型,得到embedding空间表示;
    2. 构建identity loss:
      • 匿名化用identity dissimilarity loss(LIdis):多种噪音下生成新脸,最大化与原脸embedding夹角,保证身份差异;
      • 信息隐藏用identity similarity loss(Lis):最大化加密脸和原脸embedding夹角接近(0.95),保证机器可识别。
    3. 构建diversity loss(Ldiv):同一原图噪不同,加密后身份embedding也应分散,增强加密样本多样性。
    4. 在去噪流程中加能量函数引导采样方向,Eq. 14为带能量修正的采样。
3.3.3 匿名化细节
  • 初始加0.6强度噪音(保持布局、破坏面部)
  • 结合identity dissimilarity loss和diversity loss引导生成新脸
  • 先用无条件embedding,后改为learned embedding(见Eq. 18)
  • 保存对应步骤DDIM逆反得到的噪音地图,作为恢复密钥
3.3.4 信息隐藏细节
  • 初始噪音强度调高至0.8(连背景/姿态也可变)
  • 用identity similarity loss增强加密脸和原脸embedding接近,机器仍能识别
  • embedding调度比匿名化更偏向无条件(60%)
  • 同样保存DDIM噪音地图,配对密钥恢复

3.4 身份恢复机制

  • 用加密/匿名后的噪音图(key-I)+相应embedding(key-E),进入逆DDIM采样,逐步去噪最终还原原脸。

总结

DiffPrivacy通过:

  • 多尺度嵌入学习(MSI)解决少样本高质量控制;
  • 能量函数身份引导模块实现不同身份相似/差异需求的梯度修正;
  • 分阶段嵌入调度,将扩散模型去噪的各阶段与属性控制灵活结合;
  • 恢复过程依赖于密钥(noise map+embedding),确保安全性。

4. Experiments

4.1 实现细节

  • 模型参数:仅训练提出的MSI模块,其余全部采用预训练SDM默认参数。
  • 训练设备与耗时:NVIDIA RTX3090,每张图训练约20分钟,batch size=1,学习率0.001。
  • 评测数据集:CelebA-HQ [19] + LFW [16],涵盖高质量与真实场景多样性。

4.2 Anonymization

4.2.1 De-identification

对比方法

  • RiDDLE [22](可恢复)
  • FIT [13](可恢复)
  • CIAGAN [25]
  • DeepPrivacy [17]

定性分析(Figure 4):

  • CIAGAN去匿名后图像扭曲严重。
  • FIT改变身份但视觉质量差,属性错乱(如女性图生成男性脸)。
  • RiDDLE生成多样脸,但细节不自然(如眼部畸形)。
  • DeepPrivacy虽逼真,但表情等非身份属性无法保留。
  • Diff-Privacy优势:自然逼真的面部特征,保留表情、姿态等非身份属性,整体视觉效果优胜。

定量分析

  • 成功保护率SR(Table 1):利用人脸识别网络(FaceNet、ArcFace),当加密脸与原脸embedding距离超过阈值,认为保护成功。
  • Diff-Privacy在SR指标高于其它方法,安全性强。

人脸检测可用性(Table 2):

  • 在MtCNN和Dlib检测下评估检测率以及人脸框/关键点距离(像素偏差)。
  • Diff-Privacy检测率最高,且结构保持度、关键点一致性均优。
  • 支持去身份后用于一般CV任务,实用性强。

身份多样性(Figure 5, t-SNE可视化):

  • Diff-Privacy能生成多样去身份脸,且分布更分散。
  • 200组加密脸embedding分布覆盖超大区域——隐私防护性、多样性强于FIT等方法(后者聚类紧凑,泛化差)。

4.2.2 身份恢复

对比方法:FIT, RiDDLE(可恢复)

  • 用识别率(Table 1底部)、原-恢复图像相似度(MSE,PSNR,SSIM,LPIPS)(Table 3)。
  • Diff-Privacy恢复后图像清晰度、结构一致性都高于竞品,视觉效果、像素级和感知级分数均优(Figure 7)。


4.3 Visual identity information hiding 视觉身份信息隐藏

4.3.1 加密评测(对比AVIH [38])
  • 按AVIH流程选定12身份/10图,other身份样本共12878张。
  • 用FaceNet和ArcFace识别,加密后判断同身份/异身份匹配难度。
  • Diff-Privacy在FaceNet识别率高于AVIH 3个百分点,ArcFace下则基本相当,接近未加密原图识别率。
  • 隐私安全性:加密脸保留真实感,黑客难判定是否被加密,提升安全性。
4.3.2 身份恢复
  • 对比恢复后图像质量(Figure 6, Table 3):AVIH像素级与Diff-Privacy相近,但感知级指标(LPIPS, SSIM)Diff-Privacy明显优,且恢复区域更完整,无明显伪影。

4.4 Ablation Study 消融实验

① 条件嵌入组的作用
  • 只用单一嵌入(Ours-OE)vs. 用组嵌入(完整MSI)。
  • 图像编辑性、属性解耦、加密/恢复质量,组嵌入全面优于单嵌入(Figure 8, Table 5)。
② Embedding调度策略
  • 实验不同τ值(分阶段使用无条件/学习嵌入)对于匿名化/信息隐藏后图像identity距离的影响(Figure 8,9)。
  • 匿名化推荐τ=0.4(最大化脱敏且属性不变);信息隐藏τ=0.6(人眼变化最大但机器可识别)。
③ 噪音强度(Sns)
  • 噪音变弱,生成图像更靠近原图;Sns=0.6适合匿名化(属性保留),Sns=0.8最大身份差异(用于信息隐藏)(Figure 10)。
④ Diversity loss多样性损失
  • 移除多样性损失功能后,去身份脸embedding聚集,分布减小,多样性明显降级(Figure 11)。

5. Conclusion 结论

论文贡献总结

  1. 统一两大隐私需求:提出Diff-Privacy方案,兼顾可恢复匿名化和信息隐藏。
  2. 三阶段架构:多尺度条件嵌入(key-E)、能量函数+调度引导加密(key-I)、可逆恢复。
  3. 实验表现:量化与定性结果均超过主流竞品,图片质量、恢复效果、身份多样性更优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/98026.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/98026.shtml
英文地址,请注明出处:http://en.pswp.cn/web/98026.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React 原理篇 - 深入理解虚拟 DOM

一、什么是虚拟 DOM? 在前端开发中,“虚拟 DOM” 是一个高频出现的术语,尤其在 React 生态中被广泛讨论。但很多开发者对它的理解往往停留在 “JS 对象” 这个表层认知上。 实际上,虚拟 DOM 是一种编程概念—— 在这个概念里&…

对汇编的初理解

此处是一个简单的函数,里面将调用了一个函数add()函数这里是函数的原型这里是调用lcd函数产生的汇编语言,翻译过来就是r11,r0cnt(r4cnt,前文有提及),然后调用add函数,此处BL是指会回到指令的下一…

《Python 自动化实战:从零构建一个文件同步工具》

《Python 自动化实战:从零构建一个文件同步工具》 一、开篇引入:为什么我们需要文件同步? 你是否有过这样的困扰: 公司电脑和家里电脑上都有工作项目,每次更新都要手动复制? U 盘频繁传输文件,不仅麻烦还容易出错? 项目文件夹动辄几 G,每次同步都耗时长、效率低? 在…

工业相机与镜头的靶面尺寸详解:选型避坑指南

在机器视觉系统中,相机与镜头的靶面尺寸匹配是一个非常关键却又经常被忽略的细节。选错了,不但影响图像质量,还可能导致画面“黑角”、视野不符、镜头浪费等问题。 今天我们就用通俗易懂的方式,聊一聊相机与镜头靶面尺寸的那些事儿…

使用 Go 和 go-commons 实现内存指标采集并对接 Prometheus

文章目录一、准备工作二、编写内存采集代码三、运行 Exporter四、接入 Prometheus五、可扩展思路总结在运维和监控领域,资源指标采集 是必不可少的一环。CPU、内存、磁盘、网络这些系统资源,需要实时采集并上报到监控系统中。 本文以 内存指标采集 为例&…

webrtc弱网-IntervalBudget类源码分析与算法原理

一、核心功能 IntervalBudget 类用于基于时间窗口的带宽预算管理。它根据设定的目标比特率(kbps)和一个固定时间窗口(500ms),计算在该时间窗口内可用的字节数(即“预算”),并支持预…

深度学习基本模块:RNN 循环神经网络

循环神经网络(RNN)是一种专门用于处理序列数据的神经网络架构。与处理空间数据的卷积神经网络(Conv2D)不同,RNN通过引入循环连接使网络具有"记忆"能力,能够利用之前的信息来影响当前的输出&#…

React18学习笔记(二) React的状态管理工具--Redux,案例--移动端外卖平台

文章目录一.Redux的基础用法1.示例:普通网页中的Redux计步器2.Redux管理数据的流程3.配套工具和环境准备3.1.配套工具3.2.环境准备4.示例:React项目中的Redux计步器思路步骤step1:创建子模块step2:导入子模块step3:注入store实例step4:React组件内使用store中的数据step5:在组件…

34.Socket编程(UDP)(上)

点分十进制字符串IP 转 32位网络序列IP 分析:1)IP转成4字节 2)4字节转成网络序列 思路: "192.168.1.1" 进行字符串划分,以 "." 为分割符,分割出"192",&qu…

Redis的持久化工具包—RDB AOF

文章目录 前言 一、RDB 持久化(快照持久化) 1. 定义 2. RDB 触发机制 (1)手动触发 (2)自动触发 3. RDB 持久化流程 4. RDB 核心配置 5. RDB 优缺点 二、AOF 持久化(日志持久化) 1. 定…

【Web安全】XXL-JOB框架SRC高频漏洞分析总结

文章目录前言一、核心漏洞分类与技术细节二、漏洞关联利用与攻击路径三、版本演进与修复策略四、安全运维建议五、典型漏洞复现环境搭建六、总结前言 XXL-JOB是国内主流的开源分布式任务调度框架,由徐雪里开发维护,以轻量易用、高可用、适配分布式场景等…

Capacitor 打包后接口访问不到的排查经历

我最近在用 Quasar Capacitor 6 做一个 Android App,前端用的是 Vue3 Quasar,打包交给 Capacitor 去跑在手机的 WebView 里,后端是 FastAPI 提供接口。开发模式下一切顺利,浏览器里访问接口没有任何问题,我甚至觉得打…

【正点原子】Linux应用编程入门~概念及环境介绍

应用编程概念 应用编程(也可称为系统编程)与驱动编程、裸机编程有何不同?系统调用;何为库函数;应用程序的 main()函数;应用程序开发环境的介绍;系统调用 定义系统调用(system call&a…

一、HTML 完全指南:从零开始构建网页

文章目录前言一、 HTML 结构认识 HTML 标签HTML 文件基本结构标签层次结构快速生成代码框架二、 HTML 常见标签详解2.1 注释标签2.2 标题标签 (h1 - h6)2.3 段落标签 (p)2.4 换行标签 (br)2.5 格式化标签2.6 图片标签 (img)2.7 超链接标签 (a)2.8 表格标签基本使用合并单元格2.…

基于POI-TL实现动态Word模板的数据填充:【散点图】特殊处理方案

基于POI-TL实现动态Word模板的数据填充:散点图特殊处理方案 在使用POI-TL进行Word模板动态数据填充时,图表生成是一个常见需求。最近在项目中使用POI-TL处理散点图时遇到了一个特殊问题,经过研究后找到了解决方案,特此记录分享。 问题背景 POI-TL作为一款优秀的Java Wor…

使用node-Express框架写一个学校宿舍管理系统练习项目-前后端分离

今天继续分享一个新的练习项目,是使用node做为后端语言,来写的一个前后端分离项目:学校宿舍管理系统。我们如果想掌握一门编程语言,就是需要大量的练习。所以当我们学习到了一些知识,自己想一下 可以拿学到的知识&…

Kafka 运维实战基本操作含命令与最佳实践

1. 基础概览与工具入口 Kafka 发行包的所有 CLI 工具均在 bin/ 目录下。任何工具不带参数运行都会显示所有可用选项。本文命令默认:--bootstrap-server localhost:9092;生产请替换为你的控制面或内网 VIP。 2. 主题管理(创建 / 修改 / 删除 /…

贪心算法应用:航班起降问题详解

Java中的贪心算法应用:航班起降问题详解 贪心算法是一种在每一步选择中都采取当前状态下最优的选择,从而希望导致全局最优解的算法策略。在航班起降问题中,贪心算法可以有效地解决机场跑道调度问题,即如何安排航班的起降顺序以最大…

uniapp scroll-view 设置scrollTop无效

当我们使用 scroll-view的scroll-top的时候 默认想让它回到顶部,当我们设置值为0的时候会不生效,在实际运用过程中,发现设置了scroll-top无效,滚动条位置并没有发生变化,是因为微信小程序的官方框架处于性能考虑&#…

网络与通信

1.TCP协议与UDP协议TCP(Transmission Control Protocol,传输控制协议)和 UDP(User Datagram Protocol,用户数据报协议)是 TCP/IP 协议族中两种核心的传输层协议,它们在数据传输方式、可靠性、适…