一幅精美的图片,一段精彩的视频,可能始于一片纯粹的噪声。

2024年的计算机视觉顶会CVPR上,扩散模型成为绝对主角。从图像生成到视频理解,从超分辨率到3D建模,扩散模型正以惊人的速度重塑着AIGC(AI生成内容)的每一个领域。

这些模型不仅展示了人工智能在创造力方面的巨大潜力,也在不断解决着实际应用中的核心挑战:如何让生成更快、更可控、更公平。

扩散模型的核心:从混沌中创造秩序

扩散模型的工作原理仿佛是一种数字炼金术——通过逐步去噪的过程将随机噪声转化为结构化的图像。这个过程分为两个关键阶段:前向扩散和反向扩散。

在前向扩散过程中,模型逐步向训练图像添加噪声,直到图像变成完全随机的噪声。反向过程则是学习如何逆转这种噪声添加过程,从而从随机噪声中重建出原始图像。

这种去噪过程需要多次迭代,传统上需要数百甚至数千步计算,导致生成速度缓慢。这正是当前研究的重点突破方向之一——在保持质量的同时大幅提升生成速度

加速采样:打破速度壁垒

扩散模型生成速度慢的主要原因在于其采样过程需要多次迭代计算。CVPR 2024上提出的一种新方法通过优化时间步长来加速这一过程。

传统方法使用均匀时间步长进行采样,但这在使用较少采样步骤时并不是最优选择。新框架通过设计一个优化问题,寻求特定数值ODE求解器更合适的时间步长,将基本解和相应数值解之间的距离最小化。

实验结果令人印象深刻:在CIFAR-10和ImageNet等数据集上,优化时间步长显著提高了图像生成性能,同时减少了采样时间。这种方法与最先进的采样方法UniPC结合时,表现尤为突出。

DistriFusion项目地址:https://github.com/mit-han-lab/distrifuser

分布式推理:高分辨率生成的突破

生成高分辨率图像带来的计算成本极高,往往导致交互式应用的延迟令人难以接受。DistriFusion应运而生,它通过利用多个GPU之间的并行性来解决这个问题。

该方法将模型输入分成多个patch,每个分配给一个GPU。简单实现这种方法会破坏patch之间的交互并丢失保真度,而考虑这种交互又会导致巨大的通信开销。

DistriFusion的解决方案是利用扩散过程的顺序性质,通过重复使用前一时间步的预计算特征图为当前步骤提供上下文。这种方法支持异步通信,可以通过计算进行流水线处理。

大量实验证明,DistriFusion可以应用于最近的Stable Diffusion XL而不会降低质量,相对于单个NVIDIA A100设备,可以实现高达6.1倍的加速

偏差问题:AI公平性的挑战

扩散模型往往会反映训练数据集中存在的偏差,在人脸生成中尤为令人担忧——模型可能更偏爱某个人口群体而不是其他群体(例如女性比男性)。

CVPR 2024上提出的一种新方法可以在不依赖额外数据或模型重新训练的情况下对扩散模型进行去偏置。这种称为分布引导的方法强制生成的图像遵循指定的属性分布。

该方法建立在去噪UNet的潜在特征具有丰富的人口群体语义这一发现上,可以利用这些特征来引导去偏置生成。研究人员训练了一个属性分布预测器(ADP),这是一个将潜在特征映射到属性分布的小型多层感知机。

这种方法减少了单个/多个属性上的偏差,在无条件和文本条件下的扩散模型方面明显优于过去的方法。此外,它还提出了通过生成数据对训练集进行再平衡来训练公平属性分类器的下游应用。

SingDiffusion项目地址:https://github.com/PangzeCheung/SingDiffusion

起点和终点的奇异性问题

大多数扩散模型假设反向过程服从高斯分布,但这种近似在时间间隔的端点(t=0和t=1)处尚未得到严格验证,尤其是在奇异点附近。

不恰当处理这些点会导致应用中的平均亮度问题,限制模型生成具有极端亮度或深暗度的图像。

CVPR 2024上的研究从理论和实践角度解决了这个问题。研究人员首先建立了反向过程逼近的误差界限,展示了在奇异时间步骤时的高斯特征。基于这一理论认识,他们确认t=1的奇异点是有条件可消除的,而t=0时的奇异点是固有属性。

基于这些结论,研究人员提出了SingDiffusion,这是一种新的即插即用方法,用于处理初始奇异时间步骤的采样。这种方法不仅可以在没有额外训练的情况下有效解决平均亮度问题,还能提高模型的生成能力,实现显著较低的FID得分。

实际应用:超越图像生成

虽然图像生成是扩散模型最著名的应用,但它们的能力远不止于此。在CVPR 2024上,扩散模型被应用于各种视觉任务,包括超分辨率、图像修复、目标检测、甚至视频生成

ViewDiff项目探索了使用文生图模型生成3D一致图像的方法。现有文本到3D方法使用预训练文本到图像扩散模型解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。

ViewDiff提出利用预训练的文本到图像模型作为先验,并从真实世界数据中单一去噪过程中学习生成多视角图像。研究人员将3D体渲染和跨帧注意力层集成到现有文本到图像模型的每个块中,并设计了一种自回归生成方法,可以从任意视点渲染出更具3D一致性的图像。

与现有方法相比,ViewDiff生成的结果更加一致,并且具有更好的视觉质量——FID减少30%,KID减少37%。

ViewDiff项目页面:https://lukashoel.github.io/ViewDiff/

无记忆生成:保护训练数据版权

预训练扩散模型及其输出具有出色的合成高质量图像的能力,加上开源特性,使得这些模型及其输出可广泛轻易获得。这导致用户在推断过程中可能面临诉讼风险,因为模型容易记忆并复制训练数据。

反记忆指导(AMG)框架采用了三种有针对性的指导策略,应对图像和caption重复,以及高度具体的用户提示等主要记忆原因。AMG确保了无记忆输出,同时保持高图像质量和文本对齐。

AMG还具有创新的自动检测系统,用于在推断过程的每一步中检测潜在的记忆,允许选择性地应用指导策略,最大程度地不干扰原始的采样过程。将AMG应用于预训练的去噪扩散概率模型和稳定扩散的各种生成任务中,实验结果表明,AMG是第一个成功消除所有记忆实例而对图像质量和文本对齐几乎没有或轻微影响的方法

扩散模型的无限可能

扩散模型的发展速度令人惊叹。从最初的简单图像生成,到现在的各种应用场景,扩散模型正在不断突破人工智能创造的边界。

在自动驾驶领域,甚至有公司开始探索利用扩散模型进行轨迹规划。哈啰Robotaxi采用以扩散模型为输出核心的新范式,解决传统自回归模型端到端的多模态问题。

这种方法的优势在于,它能够生成多样化的轨迹样本,而不是假设交通场景只有一个最好的处理策略。正如哈啰Robotaxi联合创始人于乾坤解释的:“同样一个交通场景,两个老司机的策略可能完全不同,并且都能安全通过,这就是所谓自动驾驶的多模态效应。”

随着技术的不断成熟,扩散模型很可能将进一步渗透到更多领域,从艺术创作到工业设计,从娱乐到教育,改变人们创造和沟通的方式。

技术的进步永远不会停止,扩散模型的发展也不例外。从速度优化到偏差减少,从记忆消除到新应用探索,研究人员正在不断解决着扩散模型面临的挑战。

尽管扩散模型已经表现出令人印象深刻的能力,但它们仍然处于发展的早期阶段。未来的研究可能会带来更快的采样方法、更精细的控制能力,以及更广泛的应用场景。

CVPR 2024论文合集:https://blog.csdn.net/lgzlgz3102/article/details/137852991

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/96471.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/96471.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/96471.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一次 Linux 高负载 (Load) 异常问题排查实录

一次 Linux 高负载(Load)异常排查实录一、背景及排查过程材料二、排查分析2.1Load 的真正含义2.2:确认异常进程2.3:线程卡在哪(wchan)2.4:perf 采样(用户态/内核态热点)2…

浅析Linux进程信号处理机制:基本原理及应用

文章目录概述信号类型可靠信号与不可靠信号Fatal信号与Non Fatal信号不可捕获/忽略信号信号工作机制信号处理方式信号嵌套处理信号使用信号发送kill命令注册信号处理函数信号安全与函数可重入性可重入函数线程安全与可重入性相关参考概述 Linux信号机制是进程间通信的一种方式…

【学习K230-例程19】GT6700-TCP-Client

B站视频 TCP TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/网际协议)是指能够在多个不同网络间实现信息传输的协议簇。TCP/IP 协议不仅仅指的是 TCP和 IP 两个协议,而是指一个由 FTP、SMTP、TCP、UDP、I…

o2oa待办流程和已办流程表

在o2oa系统中每个用户有两种唯一标识:第一种是姓名个人钉钉ID(或者o2oa创建该用户时设置的id)ORG_PERSON.xdistinguishedName刘准3013692136672430P第二种是姓名所在部门的钉钉id个人钉钉idORG_IDENTITY.xdistinguishedName刘准966488616_301…

QT零基础入门教程

基础篇第一章 QT 基础认知1.1 什么是 QT(What)​定义:跨平台 C 应用开发框架,不仅用于 UI 设计,还包含核心功能(如事件、网络、数据库)。​核心特性:​跨平台:一套代码支…

远程依赖管理新范式:cpolar赋能Nexus全球协作

文章目录 前言一. Docker安装Nexus二. 本地访问Nexus三. Linux安装Cpolar四. 配置Nexus界面公网地址五. 远程访问 Nexus界面六. 固定Nexus公网地址七. 固定地址访问Nexus 前言 Nexus作为一款企业级仓库管理工具,其核心功能在于集中管理各类软件依赖,提供…

Prompt技术深度解析:从基础原理到前沿应用的全面指南

引言 在人工智能技术飞速发展的今天,Prompt技术(提示词工程)已成为连接人类智慧与机器智能的重要桥梁。随着GPT-4、Claude、Gemini等大型语言模型的广泛应用,如何有效地与这些AI系统进行交互,已成为决定AI应用成功与否…

性能测试工具Jmeter之java.net.BindException: Address already in use

首先请参考连接:https://blog.csdn.net/weixin_46190208/article/details/115229733 。配置完注册表后一般就能解决问题。但并未解决我的问题 注册表的MaxUserPort,TcpTimedWaitDelay两个参数我只能配置MaxUserPort,设置TcpTimedWaitDelay后&…

JDK 新特性

JDK 新特性引入模块Java 9 开始引入了模块(Module),目的是为了管理依赖。使用模块可以按需打包 JRE 和进一步限制类的访问权限。接口支持私有方法JAVA 9 开始,接口里可以添加私有方法,JAVA 8 对接口增加了默认方法的支…

如何高效应对网站反爬虫策略?

现在大型网站的反爬策略越来越高明了,不仅是对IP访问频率、User-Agent请求头进行异常识别,还会分析IP地址、浏览器指纹、JS动态加载、API逆向、行为模式等方式各种设卡,动不动跳出五花八门的验证码,非常难搞。 怎么应对反爬是个系…

c++ shared_ptr理解

不是一个智能指针对于一个计数器吗?怎么变成共有资源的计数器了?你的意思是多个对象共用一个计数器?你问到了 std::shared_ptr 最核心、最精妙的设计机制!你的问题非常深刻:“不是一个智能指针对应一个计数器吗&#x…

002 Rust环境搭建

Rust环境搭建 现在很多集成开发环境(IDE)基本上都支持Rust开发。官方公布的支持工具:https://www.rust-lang.org/zh-CN/tools 这里以Windows 10 64位系统 Visual Studio Code为例来搭建Rust开发环境。 Rust安装 Rust 的编译工具依赖 C 语言的编译工具&#xff0…

【Unity进阶】Unity发布PC端,隐藏并自定义默认标题栏

开发环境: Unity2019.3.16f1c1 - 个人版 Visual Studio Community 2019 Windows10 专业版 x64嘿,各位朋友们!当咱们欢欢喜喜地把项目打包成PC平台的exe窗口程序,准备在电脑上一展游戏风采时,却发现冒出来个Windows风格…

国产延时芯片EH3B05上电延时3秒开关机芯片方案超低功耗

EH3B05-4941-24A1延时开关芯片是一款专为低功耗电子产品设计的高效时序控制器件,其核心功能在于提供精确的多通道延时信号输出。该芯片采用SOT23-6超小封装,体积仅为2.9mm2.8mm1.3mm,特别适合空间受限的便携式设备。其工作电压范围覆盖2.0V至…

大数据与财务管理专业如何转型做金融科技?

在数字经济加速演进的今天,金融行业的边界正在被数据与技术重新定义。传统金融岗位正经历深刻变革,而"金融科技"(FinTech)作为技术与金融深度融合的产物,已成为行业转型升级的核心引擎。越来越多具备数据背景…

Windows、Linux 系统 nodejs 和 npm 版本更新及错误修复

一、推荐使用 nvm 工具,直接通过命令行安转和切换各个版本 无论是 Windows 平台,还是 Linux 平台,都推荐使用 nvm 工具。 nvm(Node.js Version Management),是一个 nodejs 的版本管理工具。它是专门为解决…

【系列文章】Linux中的并发与竞争[03]-自旋锁

【系列文章】Linux中的并发与竞争[03]-自旋锁 该文章为系列文章:Linux中的并发与竞争中的第3篇 该系列的导航页连接: 【系列文章】Linux中的并发与竞争-导航页 文章目录【系列文章】Linux中的并发与竞争[03]-自旋锁一、自旋锁二、实验程序的编写2.1驱动…

开始 ComfyUI 的 AI 绘图之旅-Cosmos Predict2世界模型文生图(全网首发,官网都没有更新)(十三)

文章标题一、Cosmos-Predict21.Cosmos Predict2 Text2Image 工作流1.1 下载工作流文件1.2 手动模型安装1.3 按步骤完成工作流运行本文介绍了如何在 ComfyUI 中完成 Cosmos-Predict2 文生图的工作流 一、Cosmos-Predict2 Cosmos-Predict2 是由 NVIDIA 推出的新一代物理世界基础模…

深度学习优化器进化史:从SGD到AdamW的原理与选择

点击 “AladdinEdu,同学们用得起的【H卡】算力平台”,注册即送-H卡级别算力,80G大显存,按量计费,灵活弹性,顶级配置,学生更享专属优惠。 引言:优化器——深度学习的引擎 在深度学习…

工商业屋顶分布式光伏监控系统助力园区企业错峰有序用电

一、行业痛点与需求分析分布式光伏发电作为清洁能源的重要形式,近年来在工商业屋顶、户用场景中快速普及。然而,其“小而散”的特性导致电网适应性、运维效率、安全管控等方面面临显著挑战:1.电网适应性难题:高渗透率场景下&#…