集众家之所长，成大一统。普林斯顿大学、北京大学、清华大学、字节跳动的研究者将“文本推理、多模态分析、图像生成”三大方向融合在一个单一扩散模型里，并用恰当的优化策略来提升模型在各个方向的性能。

研究动机

研究人员致力于开发一个能够处理多种模态任务的综合性模型，这些任务包括文本推理、多模态理解以及图像生成等。目前，大多数模型往往专注于单一任务，如文本处理、图像生成或图文理解，而能够在单一框架下同时处理这三种任务并保持高水平推理和生成质量的模型却相对稀缺。

MMaDA是一种创新的“多模态大模型”框架，该框架以“扩散模型（diffusion model）”为基础，并探讨了在这种扩散模型框架下如何进行后期的强化训练。这种训练方法类似于当前大型模型在微调和强化学习（RL）环节中提升性能的策略，旨在实现理解和生成之间的平衡。这种统一的扩散模型方案有望减少对不同模态任务“分别处理”的需求，降低模型的复杂性，并提高模型在训练和推理阶段的灵活性和效率。

研究背景

从文本生成（例如ChatGPT）到复杂推理（例如DeepSeek-R1），大型语言模型（LLMs）通过在多样化任务中取得最先进的性能，彻底改变了自然语言处理（NLP）。

受其成功的启发，研究界将 LLMs 扩展到更广的多模态领域，催生了多模态大型语言模型（MLLMs）或视觉语言模型（VLMs），例如 GPT-4和 Gemini。这些模型旨在为理解和生成异构模态（文本、图像等）提供统一框架。

早期的多模态方法将语言模型与扩散模型结合起来，分别处理离散（例如，文本）和连续（例如，图像）模态。随后的自回归（AR，autoregressive）方法通过训练一个单一的Transformer模型来进行下一个标记的预测，简化了架构，将离散和连续生成统一到一个模型中。

关键问题

扩散模型同时处理文本与图像：MMaDA提出的离散扩散方法需要先将文本和图像都编码成“离散token”，然后统一进行遮盖—预测（Mask & Predict）式训练。

UniGRPO（统一的扩散模型强化学习算法）：通常的强化学习微调算法（如PPO、DPO或RRHF）都是基于自回归模型的token概率计算。而这里的UniGRPO需要适配扩散模型特性，使得模型能够在并行生成时也能进行策略梯度的更新。

采样效率和采样策略（Semi-AR / Non-AR）：MMaDA中文本生成有时可以用半自回归方式，以平衡质量和速度；图像生成则可以并行生成，这里面涉及不同采样（mask和解码）策略的差异。

研究内容

统一扩散架构

创新点：MMaDA采用统一的扩散架构，具有共享的概率公式和模态无关的设计，无需针对不同模态（如文本和图像）设计特定的组件。这种架构能够无缝地整合和处理不同类型的数据。
意义：这种设计简化了模型架构，提高了模型在不同模态间的通用性和可扩展性，降低了模型复杂度，同时保持了在各种任务上的强大性能。

混合长链推理（CoT）微调策略

创新点：MMaDA实施了一种混合长链推理（CoT）微调策略，这种策略在不同模态间统一了CoT格式。通过这种方式，模型能够在文本和视觉领域之间对齐推理过程，从而在最终的强化学习（RL）阶段实现冷启动训练，增强模型处理复杂任务的能力。
意义：这种策略使得模型在开始训练时就能够处理复杂的推理任务，提高了模型在多模态任务中的推理能力和泛化能力，为模型在复杂场景下的应用奠定了基础。

统一的强化学习算法（UniGRPO）

创新点：MMaDA提出了UniGRPO，这是一种基于策略梯度的强化学习算法，专门针对扩散基础模型设计。UniGRPO利用多样化的奖励建模，统一了推理和生成任务的后训练过程，确保了性能的持续提升。
意义：UniGRPO算法通过优化模型的推理和生成能力，使得模型在处理复杂的推理和生成任务时能够更好地保持事实一致性和逻辑连贯性，提升了模型在多模态任务中的整体性能。

状态最先进的性能

创新点：通过实验结果，MMaDA在文本推理、多模态理解和文本到图像生成等关键任务上均展现出卓越的性能。它在文本推理方面超越了LLaMA-3-7B和Qwen2-7B等强大的模型，在多模态理解方面超过了Show-o和SEED-X，在文本到图像生成方面优于SDXL和Janus。
意义：这些成就表明MMaDA在弥合预训练和后训练之间的差距方面非常有效，为未来多模态扩散架构的研究和开发提供了一个全面的框架，并且证明了其在多模态领域的有效性和潜力。

灵活的推理时采样策略

创新点：在文本生成方面，MMaDA采用了半自回归去噪策略，结合了自回归解码和基于扩散的去噪，能够生成更详细和复杂的描述。在图像生成方面，它采用了低置信度掩码策略和余弦噪声时间表，能够生成高质量的图像。
意义：这些采样策略提高了模型在不同任务上的生成效率和质量，使得模型在实际应用中能够更快地生成高质量的结果，提高了模型的实用性和用户体验。

跨任务的协同效应

创新点：在联合训练过程中，MMaDA展现了文本生成、多模态理解和图像生成任务之间的协同效应。随着训练的进行，所有关键性能指标都表现出一致的提升，表明了统一训练框架的相互促进作用。
意义：这种协同效应不仅提高了模型在各个任务上的性能，还增强了模型在跨模态任务中的综合能力，使得模型能够更好地理解和生成复杂的多模态内容。

任务扩展能力

创新点：MMaDA能够自然地执行图像修复和外推任务，而无需额外的微调。这种能力源于扩散模型的掩码标记预测问题的训练目标，使得模型在多模态理解和文本生成任务中也能够执行这些任务。
意义：这种扩展能力展示了MMaDA的灵活性和泛化能力，使其能够适应更多样化的任务场景，为模型在实际应用中的广泛部署提供了更多可能性。

核心公式

离散扩散的统一建模

$L_{\text{unify}}(\theta) = -\mathbb{E}_{t, x_0, x_t} \left[ \sum_{i=1}^{L} \mathbb{I}[x_t^i = [\text{MASK}]] \log p_{\theta}(x_0^i \mid x_t^i) \right]$

Mixed Long-CoT 微调

$L_{\text{Mixed-SFT}} = -\mathbb{E}_{t, p_0, r_t} \left[ \sum_{i=1}^{L'} \mathbb{I}[r_t^i = [\text{MASK}]] \log p_{\theta}(r_0^i \mid p_0, r_t) \right]$

UniGRPO统一的强化学习

$J_{\text{UniGRPO}}(\theta) = \mathbb{E}_{(q,a) \sim D, \{o_i\}_{i=1}^G \sim \pi_{\text{old}}(\cdot|\theta), \{r_i\}_{i=1}^G} \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|\mathcal{O}_i|} \sum_{t=1}^{|\mathcal{O}_i|} \min \left( r'_{i,t}(\theta) \hat{A}_{i,t}, \ \text{clip} \left( r'_{i,t}(\theta), 1 - \epsilon, 1 + \epsilon \right) \hat{A}_{i,t} \right) - \beta D_{\text{KL}} \left( \pi_{\theta}^s \| \pi_{\text{ref}}^s \right) \right].$