一幅精美的图片,一段精彩的视频,可能始于一片纯粹的噪声。
2024年的计算机视觉顶会CVPR上,扩散模型成为绝对主角。从图像生成到视频理解,从超分辨率到3D建模,扩散模型正以惊人的速度重塑着AIGC(AI生成内容)的每一个领域。
这些模型不仅展示了人工智能在创造力方面的巨大潜力,也在不断解决着实际应用中的核心挑战:如何让生成更快、更可控、更公平。
扩散模型的核心:从混沌中创造秩序
扩散模型的工作原理仿佛是一种数字炼金术——通过逐步去噪的过程将随机噪声转化为结构化的图像。这个过程分为两个关键阶段:前向扩散和反向扩散。
在前向扩散过程中,模型逐步向训练图像添加噪声,直到图像变成完全随机的噪声。反向过程则是学习如何逆转这种噪声添加过程,从而从随机噪声中重建出原始图像。
这种去噪过程需要多次迭代,传统上需要数百甚至数千步计算,导致生成速度缓慢。这正是当前研究的重点突破方向之一——在保持质量的同时大幅提升生成速度。
加速采样:打破速度壁垒
扩散模型生成速度慢的主要原因在于其采样过程需要多次迭代计算。CVPR 2024上提出的一种新方法通过优化时间步长来加速这一过程。
传统方法使用均匀时间步长进行采样,但这在使用较少采样步骤时并不是最优选择。新框架通过设计一个优化问题,寻求特定数值ODE求解器更合适的时间步长,将基本解和相应数值解之间的距离最小化。
实验结果令人印象深刻:在CIFAR-10和ImageNet等数据集上,优化时间步长显著提高了图像生成性能,同时减少了采样时间。这种方法与最先进的采样方法UniPC结合时,表现尤为突出。
DistriFusion项目地址:https://github.com/mit-han-lab/distrifuser
分布式推理:高分辨率生成的突破
生成高分辨率图像带来的计算成本极高,往往导致交互式应用的延迟令人难以接受。DistriFusion应运而生,它通过利用多个GPU之间的并行性来解决这个问题。
该方法将模型输入分成多个patch,每个分配给一个GPU。简单实现这种方法会破坏patch之间的交互并丢失保真度,而考虑这种交互又会导致巨大的通信开销。
DistriFusion的解决方案是利用扩散过程的顺序性质,通过重复使用前一时间步的预计算特征图为当前步骤提供上下文。这种方法支持异步通信,可以通过计算进行流水线处理。
大量实验证明,DistriFusion可以应用于最近的Stable Diffusion XL而不会降低质量,相对于单个NVIDIA A100设备,可以实现高达6.1倍的加速。
偏差问题:AI公平性的挑战
扩散模型往往会反映训练数据集中存在的偏差,在人脸生成中尤为令人担忧——模型可能更偏爱某个人口群体而不是其他群体(例如女性比男性)。
CVPR 2024上提出的一种新方法可以在不依赖额外数据或模型重新训练的情况下对扩散模型进行去偏置。这种称为分布引导的方法强制生成的图像遵循指定的属性分布。
该方法建立在去噪UNet的潜在特征具有丰富的人口群体语义这一发现上,可以利用这些特征来引导去偏置生成。研究人员训练了一个属性分布预测器(ADP),这是一个将潜在特征映射到属性分布的小型多层感知机。
这种方法减少了单个/多个属性上的偏差,在无条件和文本条件下的扩散模型方面明显优于过去的方法。此外,它还提出了通过生成数据对训练集进行再平衡来训练公平属性分类器的下游应用。
SingDiffusion项目地址:https://github.com/PangzeCheung/SingDiffusion
起点和终点的奇异性问题
大多数扩散模型假设反向过程服从高斯分布,但这种近似在时间间隔的端点(t=0和t=1)处尚未得到严格验证,尤其是在奇异点附近。
不恰当处理这些点会导致应用中的平均亮度问题,限制模型生成具有极端亮度或深暗度的图像。
CVPR 2024上的研究从理论和实践角度解决了这个问题。研究人员首先建立了反向过程逼近的误差界限,展示了在奇异时间步骤时的高斯特征。基于这一理论认识,他们确认t=1的奇异点是有条件可消除的,而t=0时的奇异点是固有属性。
基于这些结论,研究人员提出了SingDiffusion,这是一种新的即插即用方法,用于处理初始奇异时间步骤的采样。这种方法不仅可以在没有额外训练的情况下有效解决平均亮度问题,还能提高模型的生成能力,实现显著较低的FID得分。
实际应用:超越图像生成
虽然图像生成是扩散模型最著名的应用,但它们的能力远不止于此。在CVPR 2024上,扩散模型被应用于各种视觉任务,包括超分辨率、图像修复、目标检测、甚至视频生成。
ViewDiff项目探索了使用文生图模型生成3D一致图像的方法。现有文本到3D方法使用预训练文本到图像扩散模型解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。
ViewDiff提出利用预训练的文本到图像模型作为先验,并从真实世界数据中单一去噪过程中学习生成多视角图像。研究人员将3D体渲染和跨帧注意力层集成到现有文本到图像模型的每个块中,并设计了一种自回归生成方法,可以从任意视点渲染出更具3D一致性的图像。
与现有方法相比,ViewDiff生成的结果更加一致,并且具有更好的视觉质量——FID减少30%,KID减少37%。
ViewDiff项目页面:https://lukashoel.github.io/ViewDiff/
无记忆生成:保护训练数据版权
预训练扩散模型及其输出具有出色的合成高质量图像的能力,加上开源特性,使得这些模型及其输出可广泛轻易获得。这导致用户在推断过程中可能面临诉讼风险,因为模型容易记忆并复制训练数据。
反记忆指导(AMG)框架采用了三种有针对性的指导策略,应对图像和caption重复,以及高度具体的用户提示等主要记忆原因。AMG确保了无记忆输出,同时保持高图像质量和文本对齐。
AMG还具有创新的自动检测系统,用于在推断过程的每一步中检测潜在的记忆,允许选择性地应用指导策略,最大程度地不干扰原始的采样过程。将AMG应用于预训练的去噪扩散概率模型和稳定扩散的各种生成任务中,实验结果表明,AMG是第一个成功消除所有记忆实例而对图像质量和文本对齐几乎没有或轻微影响的方法。
扩散模型的无限可能
扩散模型的发展速度令人惊叹。从最初的简单图像生成,到现在的各种应用场景,扩散模型正在不断突破人工智能创造的边界。
在自动驾驶领域,甚至有公司开始探索利用扩散模型进行轨迹规划。哈啰Robotaxi采用以扩散模型为输出核心的新范式,解决传统自回归模型端到端的多模态问题。
这种方法的优势在于,它能够生成多样化的轨迹样本,而不是假设交通场景只有一个最好的处理策略。正如哈啰Robotaxi联合创始人于乾坤解释的:“同样一个交通场景,两个老司机的策略可能完全不同,并且都能安全通过,这就是所谓自动驾驶的多模态效应。”
随着技术的不断成熟,扩散模型很可能将进一步渗透到更多领域,从艺术创作到工业设计,从娱乐到教育,改变人们创造和沟通的方式。
技术的进步永远不会停止,扩散模型的发展也不例外。从速度优化到偏差减少,从记忆消除到新应用探索,研究人员正在不断解决着扩散模型面临的挑战。
尽管扩散模型已经表现出令人印象深刻的能力,但它们仍然处于发展的早期阶段。未来的研究可能会带来更快的采样方法、更精细的控制能力,以及更广泛的应用场景。
CVPR 2024论文合集:https://blog.csdn.net/lgzlgz3102/article/details/137852991