集众家之所长,成大一统。普林斯顿大学、北京大学、清华大学、字节跳动的研究者将“文本推理、多模态分析、图像生成”三大方向融合在一个单一扩散模型里,并用恰当的优化策略来提升模型在各个方向的性能。

 

研究动机

研究人员致力于开发一个能够处理多种模态任务的综合性模型,这些任务包括文本推理、多模态理解以及图像生成等。目前,大多数模型往往专注于单一任务,如文本处理、图像生成或图文理解,而能够在单一框架下同时处理这三种任务并保持高水平推理和生成质量的模型却相对稀缺。

MMaDA是一种创新的“多模态大模型”框架,该框架以“扩散模型(diffusion model)”为基础,并探讨了在这种扩散模型框架下如何进行后期的强化训练。这种训练方法类似于当前大型模型在微调和强化学习(RL)环节中提升性能的策略,旨在实现理解和生成之间的平衡。这种统一的扩散模型方案有望减少对不同模态任务“分别处理”的需求,降低模型的复杂性,并提高模型在训练和推理阶段的灵活性和效率。

研究背景

从文本生成(例如ChatGPT)到复杂推理(例如DeepSeek-R1),大型语言模型(LLMs)通过在多样化任务中取得最先进的性能,彻底改变了自然语言处理(NLP)。

受其成功的启发,研究界将 LLMs 扩展到更广的多模态领域,催生了多模态大型语言模型(MLLMs)或视觉语言模型(VLMs),例如 GPT-4和 Gemini。这些模型旨在为理解和生成异构模态(文本、图像等)提供统一框架。

早期的多模态方法将语言模型与扩散模型结合起来,分别处理离散(例如,文本)和连续(例如,图像)模态。随后的自回归(AR,autoregressive)方法通过训练一个单一的Transformer模型来进行下一个标记的预测,简化了架构,将离散和连续生成统一到一个模型中。

关键问题

扩散模型同时处理文本与图像:MMaDA提出的离散扩散方法需要先将文本和图像都编码成“离散token”,然后统一进行遮盖—预测(Mask & Predict)式训练。

UniGRPO(统一的扩散模型强化学习算法):通常的强化学习微调算法(如PPO、DPO或RRHF)都是基于自回归模型的token概率计算。而这里的UniGRPO需要适配扩散模型特性,使得模型能够在并行生成时也能进行策略梯度的更新。

采样效率和采样策略(Semi-AR / Non-AR):MMaDA中文本生成有时可以用半自回归方式,以平衡质量和速度;图像生成则可以并行生成,这里面涉及不同采样(mask和解码)策略的差异。

研究内容

统一扩散架构

  • 创新点:MMaDA采用统一的扩散架构,具有共享的概率公式和模态无关的设计,无需针对不同模态(如文本和图像)设计特定的组件。这种架构能够无缝地整合和处理不同类型的数据。

  • 意义:这种设计简化了模型架构,提高了模型在不同模态间的通用性和可扩展性,降低了模型复杂度,同时保持了在各种任务上的强大性能。

混合长链推理(CoT)微调策略

  • 创新点:MMaDA实施了一种混合长链推理(CoT)微调策略,这种策略在不同模态间统一了CoT格式。通过这种方式,模型能够在文本和视觉领域之间对齐推理过程,从而在最终的强化学习(RL)阶段实现冷启动训练,增强模型处理复杂任务的能力。

  • 意义:这种策略使得模型在开始训练时就能够处理复杂的推理任务,提高了模型在多模态任务中的推理能力和泛化能力,为模型在复杂场景下的应用奠定了基础。

统一的强化学习算法(UniGRPO)

  • 创新点:MMaDA提出了UniGRPO,这是一种基于策略梯度的强化学习算法,专门针对扩散基础模型设计。UniGRPO利用多样化的奖励建模,统一了推理和生成任务的后训练过程,确保了性能的持续提升。

  • 意义:UniGRPO算法通过优化模型的推理和生成能力,使得模型在处理复杂的推理和生成任务时能够更好地保持事实一致性和逻辑连贯性,提升了模型在多模态任务中的整体性能。

状态最先进的性能

  • 创新点:通过实验结果,MMaDA在文本推理、多模态理解和文本到图像生成等关键任务上均展现出卓越的性能。它在文本推理方面超越了LLaMA-3-7B和Qwen2-7B等强大的模型,在多模态理解方面超过了Show-o和SEED-X,在文本到图像生成方面优于SDXL和Janus。

  • 意义:这些成就表明MMaDA在弥合预训练和后训练之间的差距方面非常有效,为未来多模态扩散架构的研究和开发提供了一个全面的框架,并且证明了其在多模态领域的有效性和潜力。

灵活的推理时采样策略

  • 创新点:在文本生成方面,MMaDA采用了半自回归去噪策略,结合了自回归解码和基于扩散的去噪,能够生成更详细和复杂的描述。在图像生成方面,它采用了低置信度掩码策略和余弦噪声时间表,能够生成高质量的图像。

  • 意义:这些采样策略提高了模型在不同任务上的生成效率和质量,使得模型在实际应用中能够更快地生成高质量的结果,提高了模型的实用性和用户体验。

跨任务的协同效应

  • 创新点:在联合训练过程中,MMaDA展现了文本生成、多模态理解和图像生成任务之间的协同效应。随着训练的进行,所有关键性能指标都表现出一致的提升,表明了统一训练框架的相互促进作用。

  • 意义:这种协同效应不仅提高了模型在各个任务上的性能,还增强了模型在跨模态任务中的综合能力,使得模型能够更好地理解和生成复杂的多模态内容。

任务扩展能力

  • 创新点:MMaDA能够自然地执行图像修复和外推任务,而无需额外的微调。这种能力源于扩散模型的掩码标记预测问题的训练目标,使得模型在多模态理解和文本生成任务中也能够执行这些任务。

  • 意义:这种扩展能力展示了MMaDA的灵活性和泛化能力,使其能够适应更多样化的任务场景,为模型在实际应用中的广泛部署提供了更多可能性。

核心公式

离散扩散的统一建模

L_{\text{unify}}(\theta) = -\mathbb{E}_{t, x_0, x_t} \left[ \sum_{i=1}^{L} \mathbb{I}[x_t^i = [\text{MASK}]] \log p_{\theta}(x_0^i \mid x_t^i) \right]

Mixed Long-CoT 微调

L_{\text{Mixed-SFT}} = -\mathbb{E}_{t, p_0, r_t} \left[ \sum_{i=1}^{L'} \mathbb{I}[r_t^i = [\text{MASK}]] \log p_{\theta}(r_0^i \mid p_0, r_t) \right]

UniGRPO统一的强化学习 

J_{\text{UniGRPO}}(\theta) = \mathbb{E}_{(q,a) \sim D, \{o_i\}_{i=1}^G \sim \pi_{\text{old}}(\cdot|\theta), \{r_i\}_{i=1}^G} \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|\mathcal{O}_i|} \sum_{t=1}^{|\mathcal{O}_i|} \min \left( r'_{i,t}(\theta) \hat{A}_{i,t}, \ \text{clip} \left( r'_{i,t}(\theta), 1 - \epsilon, 1 + \epsilon \right) \hat{A}_{i,t} \right) - \beta D_{\text{KL}} \left( \pi_{\theta}^s \| \pi_{\text{ref}}^s \right) \right].

 

[2505.15809] MMaDA: Multimodal Large Diffusion Language Models

Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90590.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90590.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90590.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

容器技术入门与Docker环境部署

容器技术入门与Docker环境部署Docker概述什么是 DockerDocker 的优势Docker 的应用场景Docker 核心概念(1)镜像(2)容器(3)仓库Docker 安装1.关闭系统防火墙和内核2.下载Docker的repo文件3.替换仓库地址4.更新索引文件并安装Docker5.添加国内镜像站6.开启Docker服务7.优化内核参…

【01】MFC入门到精通—— MFC新建基于对话框的项目 介绍(工作界面、资源视图 、类视图)

文章目录1 创建工程2 运行3 工作界面介绍3. 1 类视图 Class View3.2 如何打开 类视图3.3 资源视图1 创建工程 选择菜单项 文件->新建->项目,弹出 “新项目” 对话框。 选择 MFC,点击下一步,然后键入工程名称,本例取名“Add…

2025!在Windows的Python中安装GDAL包(小白能成!)

最近更新 在2025.06.05日,GDAL发布预告:新版本将适配pipeline和向量读写功能。 直到2025.06.25日,最新的版本才算发行出来。 有朋友催我赶紧更新教程,我上次更新是3月份的时候了,恰好是GDAL上一个版本出来的时间。 前…

Python第一次作业

# 1.技术面试题**(1)TCP与UDP的区别是什么?****答:TCP 是 “可靠但较慢” 的协议,适合对数据完整性要求高的场景;UDP 是 “快速但不可靠” 的协议,适合对实时性要求高的场景。两者互补&#xff…

Linux【大数据运维】下制作Redis绿色免安装包(一)

linux下安装Redis比较繁琐,遇到内网部署环境更是麻烦。根据经验将Redis打包一个绿色版进行使用。 大体思路,在一台正常的机器上面制造好安装包,然后上传到内网服务器,解压使用。 下载: wget https://download.redis…

89104 PCIe Switch芯片国产替代 - PCIE5.0国产AI服务器高性能扩展,支持海光/龙芯/飞腾等

以下是针对89104 PCIe Switch芯片国产替代的高性能PCIe 5.0 AI服务器扩展方案的详细分析:一、核心国产替代芯片:TL63104控制器‌技术规格‌支持PCIe 5.0全速率(32 GT/s),提供968 Lanes配置,聚合双向带宽达1…

Docker跨架构部署实操

需求场景 python项目,开发环境以及可供测试的环境为X86架构下的LINUX服务器,但正式环境需要部署在ARM架构下的麒麟服务器,且正式环境后续可能会长时间处于断网状态,需要一份跨架构的部署方案。 解决思路 在 X86 上打包、在 ARM&am…

JavaScript 树形菜单总结

树形菜单是前端开发中常见的交互组件,用于展示具有层级关系的数据(如文件目录、分类列表、组织架构等)。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。 一、核心概念 层级结构:数据以父子嵌套形式存在,如{ id: 1, children: [{ id: 2 }] }。节点:树形结…

【python实用小脚本-131】Python 实现 HTML 到 PDF 转换:解决文档处理痛点的高效工具

引言 在当今数字化办公环境中,文档格式的转换需求日益频繁。假设你是一位市场营销人员,需要将公司网站的产品介绍页面(HTML 格式)转换为 PDF 文档,以便用于线下宣传。然而,手动复制粘贴内容并调整格式不仅…

【Linux操作系统】简学深悟启示录:Linux基本指令

文章目录1.什么是操作系统?2.Xshell的使用3.常用指令3.1 ls指令3.2 pwd指令3.3 cd指令3.4 touch指令3.5 mkdir指令3.6 rmdir指令 && rm指令3.7 man指令3.8 cp指令3.9 mv指令3.10 cat指令3.11 echo指令(重定向)3.12 more指令3.13 less…

「py数据分析」04如何将 Python 爬取的数据保存为 CSV 文件

如何将 Python 爬取的数据保存为 CSV 文件 从原始网络数据到纯净 CSV - 搭建通往分析的桥梁 恭喜你!经过前面的努力,你的 Python 脚本终于成功地从一个网站上爬取了数据,一个充满信息的宝库正静静地躺在你的变量中。但接下来呢?…

qemu vcpu的创建过程

在 QEMU 中,vCPU 线程的启动流程涉及多个阶段,包括初始化、线程创建和执行逻辑。以下是基于搜索结果的详细分析: QEMU vCPU 线程的启动流程 1. 初始化阶段 设备实例化:QEMU 使用 QOM(QEMU Object Model)系统…

Spring Security架构与实战全解析

Spring security1.安全架构1. 认证who are you登陆系统:用户系统2. 授权权限管理:用户授权3. 攻击防护xss (cross-site scripting)csrf (cross-site request forgery)cors (cross-origin resource sharing)sql注入4. 扩展:权限管理模型a. RBA…

LeetCode Hot 100 搜索二维矩阵 II

编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性:每行的元素从左到右升序排列。每列的元素从上到下升序排列。示例 1:输入:matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,22],[10,13,14,17,24],[…

Windows Edge 播放 H.265 视频指南

目录 📌前言 一 . 什么是 H.265(HEVC)? 二、为什么 Edge 默认不能播放 H.265? 三、Edge 播放 H.265 解决方案 1 . 查看显卡是否支持硬解AMD GPU Decoder Device InformationNVIDIA GPU Decoder Device Informat…

线性代数--AI数学基础复习

原文链接:Github-Funny_Mr_Zhi GNN_playground 参考:麻省理工公开课 线性代数 MIT Linear Algebra Chapter1 可以带着问题去读,线性代数到底是什么,矩阵又是什么。尽管深入学习数学需要一种抽离出现实和直观理解的高度抽象思维&…

Cursor配置DeepSeek调用MCP服务实现任务自动化

文章目录1. 任务需求2. 环境准备2.1 Cursor安装2.2 Node.js安装2.3 DeepSeek模型Key申请2.4 高德地图Key申请3. MCP服务配置3.1 Cursor配置Server方式3.1.1全局设置3.1.2 项目级别设置3.2 MCP服务接入3.2.1 高德地图MCP服务3.2.2 Mysql MCP服务3.2.3 FileSystem MCP服务3.2.4 验…

java SpringBoot数据库查询 时间范围查询

exTime的类型为varchar 存储的数据格式为yyy-MM-ddTHH:mm:ss,查询时传进来的时间格式也需要为yyy-MM-ddTHH:mm:ss格式Query(value "SELECT * FROM test_fbep fbep WHERE delFlag 1 " "AND IF(?1 ! AND ?1 IS NOT NULL, fbep.passId ?1, TRUE) " &q…

Linux 操作系统如何实现软硬件解耦?从容器与硬件接口封装谈起

在计算机系统中,软硬件解耦是提升系统灵活性、可移植性和可维护性的核心设计思想。Linux 作为开源操作系统的典范,通过数十年的演进形成了一套成熟的解耦机制。本文将从容器技术和硬件接口封装两个维度,深入解析 Linux 如何实现软硬件解耦&am…

7月10号总结 (1)

今天开始写web项目&#xff0c;画了一下登录界面&#xff0c;借鉴了一下网上的资源。 <!DOCTYPE html> <html lang"zh.CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initi…