MAR 论文
基于 VQ（向量量化）的图像生成方法具有显著优势，它通过离散化压缩将原始图像映射到有限的 codebook 空间，从而缩小学习范围、降低建模难度，同时这种离散表示更易于与自回归（AG）生成方式结合，提升多模态任务（如文本到图像生成）的融合能力；然而，该方法也存在明显局限性，包括训练难度较高（容易导致codebook利用率不足，仅部分编码参与计算，严重制约模型表达能力）、解码重建质量欠佳等问题，其根本原因在于VQ本质上是一种有损压缩方式，不可避免会丢失部分信息。
在这里插入图片描述
本文的核心创新点在于彻底摒弃了传统VQ（向量量化）方法，直接进行自回归图像生成。作者提出关键观点：在自回归学习框架下，预测下一个 token x 时，离散化表征并非必要条件——若允许 x 保持连续性，则 VQ 机制自然失去存在价值。为实现这一目标，论文创新性地采用扩散模型（diffusion）的损失函数替代传统的交叉熵损失，从而将x建模为连续概率分布而非离散符号。这一转变不仅绕过了 VQ 带来的信息损失问题，更通过连续空间的建模提升了生成质量。
在这里插入图片描述
当前主流的大语言模型（LLM）普遍采用单向Causal Attention机制，这确实符合语言生成的序列特性（当前词只依赖历史信息）。然而，在图像生成领域，双向Attention可能更具优势——与语言中词与词的线性依赖不同，图像中的像素或patch往往与其周围区域存在空间上的相互影响。通过双向Attention建模这种全局上下文关系，理论上可以更自然地捕捉图像的空间结构特征，同时仍能保持自回归生成的特性（通过适当的掩码机制实现）。这种改进既保留了自回归的序列生成优势，又弥补了单向Attention对图像空间关系建模的不足。

传统的自回归图像生成通常采用固定的序列顺序（如从左到右、从上到下逐行生成图像块），如图(a)所示。然而，本文提出这种固定顺序的生成方式并非最优解。受掩码语言模型（MLM）的启发，论文创新性地提出 掩码自回归（Masked Autoregressive, MAR） 方法——如图(b)所示，模型可以随机选择生成任意位置的图像块，而无需遵循预设顺序。这种灵活生成方式带来两个关键优势：首先，它突破了传统自回归模型的顺序限制，使生成过程更符合图像的空间特性；其次，如图©所示，MAR支持同时预测多个被掩码的图像块，从而显著提升解码速度。这一设计在保持自回归建模优势的同时，实现了更高效的并行化生成。

实验

在这里插入图片描述
（1）在自回归中，用diff loss代替 CE loss，效果都是有提升，说明了diff loss的有效；
（2）在AR下（第一行），diff loss相比 CE loss提升的并不明显，当切换成论文提出的MAR形式，这个提升优势就愈加明显。
（3）在MAR_default（masked AR，就是上述©图形式）下，表现最好，而且即是是CE loss，也是相比之前的变体，也是又很明显的提升，说明masked AR在图像任务的有效性。

实验

相关文章

【科普】关于C 语言日志系统实战：如何同时输出到终端和文件？

2025，数字人借直播场景迈过“真假线”丨数智化观察

HTML表格导出为Excel文件的实现方案

企业微信iPad协议端强制拉群漏洞深度分析

Python编译器（Pycharm Jupyter）

漏洞修复与Fiddler抓包工具的使用

对象存储-OSS

C语言函数的声明

AI人工智能名片小程序源码系统，名片小程序+分销商城+AI客服，包含完整搭建教程

React 教程：井字棋游戏

React源码2 React中的工厂函数:createRoot()

《UE5_C++多人TPS完整教程》学习笔记42 ——《P43 瞄准（Aiming）》

SQL Server 临时表、表变量与WITH语句的用法与区别

【Android】组件及布局介绍

Android 音视频 IPC序列化工具-Flattenable

文献学习|全面绘制和建模水稻调控组景观揭示了复杂性状背后的调控架构。

Linux的压缩与解压缩

OpenCV+OCR实现弧形文字识别

【保姆级目标检测教程】Ubuntu 20.04 部署 YOLOv13 全流程（附训练/推理代码）

【大模型】到底什么是Function Calling和MCP，以及和ReAct推理的关系是什么？