MAR 论文
基于 VQ(向量量化)的图像生成方法具有显著优势,它通过离散化压缩将原始图像映射到有限的 codebook 空间,从而缩小学习范围、降低建模难度,同时这种离散表示更易于与自回归(AG)生成方式结合,提升多模态任务(如文本到图像生成)的融合能力;然而,该方法也存在明显局限性,包括训练难度较高(容易导致codebook利用率不足,仅部分编码参与计算,严重制约模型表达能力)、解码重建质量欠佳等问题,其根本原因在于VQ本质上是一种有损压缩方式,不可避免会丢失部分信息。
在这里插入图片描述
本文的核心创新点在于彻底摒弃了传统VQ(向量量化)方法,直接进行自回归图像生成。作者提出关键观点:在自回归学习框架下,预测下一个 token x 时,离散化表征并非必要条件——若允许 x 保持连续性,则 VQ 机制自然失去存在价值。为实现这一目标,论文创新性地采用扩散模型(diffusion)的损失函数替代传统的交叉熵损失,从而将x建模为连续概率分布而非离散符号。这一转变不仅绕过了 VQ 带来的信息损失问题,更通过连续空间的建模提升了生成质量。
在这里插入图片描述
当前主流的大语言模型(LLM)普遍采用单向Causal Attention机制,这确实符合语言生成的序列特性(当前词只依赖历史信息)。然而,在图像生成领域,双向Attention可能更具优势——与语言中词与词的线性依赖不同,图像中的像素或patch往往与其周围区域存在空间上的相互影响。通过双向Attention建模这种全局上下文关系,理论上可以更自然地捕捉图像的空间结构特征,同时仍能保持自回归生成的特性(通过适当的掩码机制实现)。这种改进既保留了自回归的序列生成优势,又弥补了单向Attention对图像空间关系建模的不足。

传统的自回归图像生成通常采用固定的序列顺序(如从左到右、从上到下逐行生成图像块),如图(a)所示。然而,本文提出这种固定顺序的生成方式并非最优解。受掩码语言模型(MLM)的启发,论文创新性地提出 掩码自回归(Masked Autoregressive, MAR) 方法——如图(b)所示,模型可以随机选择生成任意位置的图像块,而无需遵循预设顺序。这种灵活生成方式带来两个关键优势:首先,它突破了传统自回归模型的顺序限制,使生成过程更符合图像的空间特性;其次,如图©所示,MAR支持同时预测多个被掩码的图像块,从而显著提升解码速度。这一设计在保持自回归建模优势的同时,实现了更高效的并行化生成。

实验

在这里插入图片描述
(1)在自回归中,用diff loss代替 CE loss,效果都是有提升,说明了diff loss的有效;
(2)在AR下(第一行),diff loss相比 CE loss提升的并不明显,当切换成论文提出的MAR形式,这个提升优势就愈加明显。
(3)在MAR_default(masked AR,就是上述©图形式)下,表现最好,而且即是是CE loss,也是相比之前的变体,也是又很明显的提升,说明masked AR在图像任务的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90342.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90342.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90342.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【科普】关于C 语言日志系统实战:如何同时输出到终端和文件?

1.概述 c语言没有现成的日志库,如果要记录日志,需要自己封装一个日志库。如果要实现日志级别和参数打印,还是比较麻烦的,正好在github找到了一个c语言开源日志库,可以实现日志级别打印,参数打印&#xff0…

2025,数字人借直播场景迈过“真假线”丨数智化观察

作者 | 曾响铃文 | 响铃说一夜带货超5500万GMV、观看人次1300万,罗永浩数字人在百度电商的直播首秀正在掀起新的行业浪潮——2025,数字人直播带货成功出圈,加速进入大众视野,被更多的消费者所认可。成就这场热潮的关键点之一&…

HTML表格导出为Excel文件的实现方案

1、前端javascript可通过mime类型、blob对象或专业库(如sheetjs)实现html表格导出excel,适用于中小型数据量;2、服务器端方案利用后端语言(如python的openpyxl、java的apache poi)处理复杂报表和大数据&…

企业微信iPad协议端强制拉群漏洞深度分析

正常一次最多邀请40人进群 超过40人的拉群,会变成邀请,需要对方同意 新版本修复了漏洞,但还是可以用老版本进行强制拉群 虽然官方也做了版本过低的限制,但还是有办法绕过 要么修改版本号或者登录几天新版本,之后就可以…

Python编译器(Pycharm Jupyter)

Pycharm下载不过多赘述pycharm导入anaconda创建的python环境选择想要的环境 Jupyter Jupyter 是一个开源的交互式计算环境,能够让用户将代码、文本(包括 Markdown)、可视化结果等内容整合在一个文档中,非常适合进行数据分析、科学…

漏洞修复与Fiddler抓包工具的使用

漏洞描述 1. 短信轰炸漏洞 Type:存在三个不同的值。Login是登录处,register是注册账号处的短信验证码获取值,还有一个update值。未注册的用户也可以进行发送短信。 2. 手机号绕过,修改密码漏洞(逻辑漏洞) 目前注册使用手机号与忘记密码的手机号验证测试都可以绕过, …

对象存储-OSS

目录 对象存储背景 阿里云OSS 对象存储背景 单节点环境下,文件往往存储在tomcat服务器内,随着业务需求的增多,单节点已不能满足需求,项目架构需要扩展到多节点(见下图),此时文…

C语言函数的声明

1定义:在C语言中,函数是一段具有特定功能的独立代码块,它可以接收输入参数、执行相关操作并返回结果。2为什么需要函数(1)代码复用:避免重复编写相同功能的代码, (2)模块…

AI人工智能名片小程序源码系统,名片小程序+分销商城+AI客服,包含完整搭建教程

智能名片核心功能AI人工智能名片小程序的核心功能设计旨在彻底改变传统商务交流方式,为用户提供前所未有的智能化体验。个性化名片展示是系统的基础功能,用户可以通过丰富的模板库和自定义设计工具,创建独具特色的电子名片。系统提供多种预设…

React 教程:井字棋游戏

React 教程:井字棋游戏 使用 React 实现一个交互式的井字棋游戏,并配上好看的样式 // 导入必要的CSS样式和React库 import "./App.css"; import { useState } from "react";// Square组件 - 表示棋盘上的一个格子 function Square({…

React源码2 React中的工厂函数:createRoot()

#React V18.2 源码前置基础知识:工厂函数工厂函数是一种设计模式,用于动态创建对象或函数实例。其核心思想是通过封装对象创建的细节,提供统一的接口,从而增强代码的灵活性和可维护性,有一些核心作用:解耦创…

《UE5_C++多人TPS完整教程》学习笔记42 ——《P43 瞄准(Aiming)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P43 瞄准(Aiming)》 的学习笔记,该系列教学视频为计算机工程师、程序员、游戏开发者、作家(Engineer, Programmer, Game Developer, Author) Stephen Ulibarri…

SQL Server 临时表、表变量与WITH语句的用法与区别

引言 在SQL Server数据处理中,临时表、表变量和WITH语句(CTE)是关键的中间结果集管理工具。临时表适合大数据量操作,表变量优化小数据量场景,而CTE则简化复杂查询逻辑。三者选择需综合考量数据量级、事务需求及代码可读性。本文将深入解析其工作机制,通过实测对比指导场…

【Android】组件及布局介绍

一:代码分析 1:Android界面开发方式 (1)JavaView(传统视图系统) 这是 Android 早期的开发方式,用 Java 或 Kotlin 代码配合 XML 布局文件 来构建界面。(简单了解即可) 分…

Android 音视频 IPC序列化工具-Flattenable

Android Binder与AIDL与Service使用案例及分析-CSDN博客 讲讲这个类,被用在Android音视频中,跨进程序列化反序列化用。与Binder驱动有很强的联系。位于: feameworks/native/utils/Flattenable.h Flattenable, 译为令人满意的。可能是作者十分满意自己的这些作品吧,起了这…

文献学习|全面绘制和建模水稻调控组景观揭示了复杂性状背后的调控架构。

摘要: 解析调控复杂性状的机制对于推进作物改良至关重要。在此,我们提出了一个全面的水稻(Oryza sativa)调控组图谱,涵盖了来自三个代表性品种的23种不同组织的染色质可及性。我们的研究揭示了117,176个独特的开放染色…

Linux的压缩与解压缩

一、使用tar命令进行打包与解包 1.0、tar命令简介和常用选项 tar命令是Linux中经常使用的归档工具,它的主要功能是【对文件或者目录进行打包归档】,归档为一个文件,但是并不进行压缩;tar命令的归档操作效果如下: tar命…

OpenCV+OCR实现弧形文字识别

以下是基于OpenCV与OCR实现弧形文字识别的完整技术方案,结合了图像预处理、几何变换与OCR引擎调用等关键步骤,并提供优化技巧:🔍 一、技术原理弧形文字识别的核心在于​​将弯曲文本转换为水平直线​​,便于OCR引擎处理…

【保姆级目标检测教程】Ubuntu 20.04 部署 YOLOv13 全流程(附训练/推理代码)

前言 YOLOv13 是 YOLO 系列的全新一代实时目标检测框架,在保持极高推理速度的同时显著提升了检测精度,广泛适用于嵌入式部署、工业质检、智能安防等多种场景。该版本提供了 Nano、Small、Large、X-Large 四种模型规格,用户可以根据计算资源和…

【大模型】到底什么是Function Calling和MCP,以及和ReAct推理的关系是什么?

文章目录背景:什么是Agent?背景:为什么需要Function Calling或者MCP?Function Calling和MCP在用户请求中的整体流程Function Calling(函数/工具调用)MCP (Model Context Protocol)ReAct (Reasoning and Act…