目录

一、Uniworld-V1

1、概述

2、架构

3、训练过程

4、实验

二、X-Omni

1、概述

2、方法


一、Uniworld-V1

1、概述

        动机:当前统一模型虽然可以实现图文理解和文本生成任务,但是难以实现图像感知(检测/分割)与图像操控(编辑/迁移)等复合需求。另外传统方法依赖VAE提取视觉特征,但同样缺少高频信息,限制了语义级任务的表现。

        另外通过实验发现GPT-4o-Image可能采用语义编码器,而非VAE,从而导致在编辑实验中局部修改后文本位置发生偏移,表明缺少底层信息。另外GPT-4o和Qwen2.5-VL,在去噪实验中,低噪图像上可以正确去噪,但是高噪图像上识别出现错误。

2、架构

        UniWorld一改以往的理解统一模型均采用一个MLLM架构,通过特征提取,并完全输入到这个大MLLM中,UniWorld不去训练理解部分的网络,并且用理解的输出去引导图像的生成。

Visual Encoder

        采用SigLIP编码器(SigLIP2-so400m/14,固定输出512x512)替换以往的VAE编码器。

VLM

        使用预训练的Qwen2.5-VL-7B,并且不再训练这一部分,只用作视觉理解。

DiT

        使用FLUX作为DiT的主干,把VLM的视觉tokens输出经过一个MLP得到High-level semantics特征,Visual Encoder的输出经过MLP得到Low-level control的特征,将高维语义特征,低维像素特征并且拼接在一起,作为FLUX的文本输入,因为FLUX是一个文生图的模型,通过FLUX可以生成特定任务的图像(比如分割)。

3、训练过程

        三阶段策略

        Stage1:对齐VLM输出与DiT文本分支特征空间,不引入SigLIP分支。冻结VLM框架和DiT,只训练VLM到DiT的MLP部分。

        Stage2:引入预训练SigLIP特征,加载Stage1的权重,并解冻DiT图像分支参数,继续冻结VLM部分。只训练两个MLP,和DiT部分。另外引入自适应编辑区域加权策略,解决小编辑区域学习问题,就是区域内存在缺失的问题。

        自适应编辑区域加权策略,主要是针对编辑区域占比小的情况,采用均匀损失,导致细节丢失,损失加权函数选用对数函数,w(x)=log_2(x)+1,where \ x=A_{total}/A_{edit}。对于掩码生成部分采用像素差分、膨胀、连通域过滤、最大池化下采样四步来生成掩码。

        数据集(2.7M):

(1)图像感知任务:COCO2017+Graph200K 处理各种图像风格(Canny HED 深度图)

(2)图像操控任务:ImgEdit高质量样本+SEED-X 处理自适应掩码生成

(3)文本生成图像:BLIP3o+Open-Sora Plan 美学分大于6.0过滤,并用Qwen2-VL标注

4、实验

        不同模型之间生成、理解、编辑。

        后续的对比实验不在思考,大多数情况最多持平于BAGEL,但是主要原因是数据集的特定性的优势。

提到了一些实验中的观察

        DINOV2、RADIO v2.5替换SigLIP,但是不容易收敛

        直接使用VLM视觉特征的视觉tokens作为引导,生成图和参考图之间一致性较差。他这里是输出了所有tokens作为引导。

二、X-Omni

1、概述

        传统多模态模型的三大瓶颈问题:生成图像模糊、失真,无法精确实现细节渲染,自回归逐步预测导致的累积误差。

        另外统一模型转向利用扩散模型解码,但是扩散模型与自回归模型异构,跨模态知识迁移受阻,所以考虑使用强化学习兼容优化。

2、方法

架构

        整体架构不再采用理解和生成解耦架构,而是只加一个视觉特征编码器。X-Omni由SigLIP-VQ tokenizer,自回归模型,扩散解码器三部分组成。

        自回归模型选择Qwen2-7B,并通过残差块实现视觉分词器与自回归模型的连接。另外在输入部分插入4个随机初始化的Transformer块,用于仅处理图像tokens,并且添加<SOM> height width <Image> 标记,用于支持任意分辨率输入,位置编码使用1D RoPE。

        视觉特征编码器采用SigLIP-VQ,也就是一个冻结的SigLIP2-g ViT编码器连接一个向量量化器。

        扩散解码器将自回归的Image tokens输出采用线性层映射到FLUX.1dev特征空间。

强化学习应用

        同样应用于处理自回归和扩散解码之间的对齐工作,对于多模态奖励机制可以参见MindOmni的做法,可以理解为只是替换了多模态奖励的r值,其他不变,但是MindOmni只做了二值奖励(用于检查CoT逻辑规范),一致性奖励(检查图文对齐)。X-Omni中处理了四个奖励:美学质量奖励,综合质量奖励,图文对齐奖励,文字渲染奖励。

        美学质量奖励:利用HPSV2模型计算奖励。224x224分辨率下预测人类偏好,用于评估多元审美标准。

        综合质量奖励:1024x1024分辨率优化,评估锐利度,噪声水平,动态范围

        图文对齐奖励:与Uniworld一致,余弦相似度计算

        文字渲染奖励:艺术字体识别GOT-OCR2.0,印刷体识别PaddleOCR。

        另外实现任务自适应机制,当提示中含有文字关键词,强化w_4,高细节的风景则强化w_2

训练细节

        类似Uniworld-V1的三阶段学习。

        Stage1:预训练,训练视觉分词器和嵌入的新图像token,冻结其他层。数据包括图像生成数据(COYO-700M,DataComp-1B,LAION-2B,并用Qwen2.5-VL-72B进行标注,美学分过滤,并进行图像缩放,短边最大384px,长边最大1152px,共600B tokens),图像理解数据(LLaVA-OneVision,BLIP3-KALE、Infinity-MM,同样的分辨率处理,共100B tokens)

        Stage2:监督微调,解冻所有参数,高质量图文对(BLIP3o-60K中的30K子集),合成文本生成(GPT-4合成的30K),预训练数据中选择美学质量HPSv2>=7.0的1.44B tokens,另外混合图像理解任务LLaVA-NeXT,Cauldron VQA数据,SFT阶段数据共1.5B tokens

        Stage3:强化学习,共180W提示,分为三类,真实用户需求(比如去广告,共80K,来自Midjourney),长文本(50K,按文本长度分桶采样),自然场景强化(50K,景观和人像提示,平衡美学与复杂度)

        在图像生成DPG eval中打败了GPT-4o,超越一众生成模型。测试复杂指令下图像生成的推理能力

        GenEval,测试生成质量上,还是没有打败GPT-4o

        理解任务中,由于奖励机制引入了OCR奖励,所以在OCRBench分数上略高。

 参考:[2507.22058] X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

[2506.03147] UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/92478.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/92478.shtml
英文地址,请注明出处:http://en.pswp.cn/web/92478.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安全常见漏洞

一、OWASP Top 101.注入漏洞(1)SQL 注入原理&#xff1a;通过用户输入注入恶意SQL代码示例&#xff1a;sql-- 恶意输入OR 11 -- 可能被注入的SQL SELECT * FROM users WHERE username OR 11 AND password (2)防护措施&#xff1a;使用参数化查询使用ORM框架实施最小权限原则…

管网遥测终端机——管网安全与效率的守护者

管网遥测终端机是一款智能化的管网监测与管理设备&#xff0c;它采用先进的物联网技术和自动化控制技术&#xff0c;能够全天候不间断地对管网系统进行实时监测。该设备通过集成高精度传感器、稳定可靠的通信模块和强大的数据处理单元&#xff0c;构建了一套完整的管网运行数据…

AIIData商业版v1.4.1版本发布会

&#x1f525;&#x1f525; AllData大数据产品是可定义数据中台&#xff0c;以数据平台为底座&#xff0c;以数据中台为桥梁&#xff0c;以机器学习平台为中层框架&#xff0c;以大模型应用为上游产品&#xff0c;提供全链路数字化解决方案。 ✨杭州奥零数据科技官网&#xff…

【Layui】调整 Layui 整体样式大小的方法

Layui 的默认样式确实偏大,但你可以通过以下几种方法来调整整体大小: 使用缩放方法(最简单) 在 HTML 的 中添加以下 CSS: <style> html {font-size: 14px; /* 调整基础字体大小 */transform: scale(

MySQL连接数调优实战:查看与配置

MySQL HikariCP 连接数调优实战&#xff1a;如何查看用量 & 合理配置 max_connections 在做 Java 后端开发时&#xff0c;我们经常会遇到 MySQL 连接数配置问题&#xff0c;比如&#xff1a; max_connections 配多少合适&#xff1f;HikariCP 的 maximum-pool-size 要不要…

周志华院士西瓜书实战(一)线性规划+多项式回归+逻辑回归+决策树

目录 1. 线性规划 2. 多项式回归 3. 逻辑回归手写数字 4. Pytorch MNIST 5. 决策树 1. 线性规划 先生成 Y1.5X0.2ε 的&#xff08;X,Y&#xff09;训练数据 两个长度为30 import numpy as np import matplotlib.pyplot as plt def true_fun(X): # 这是我们设定的真实…

端到端供应链优化案例研究:需求预测 + 库存优化(十二)

本篇文章聚焦于供应链中的库存优化&#xff0c;技术亮点在于通过机器学习改进预测精度&#xff0c;成功将预测误差降低25%&#xff0c;并在六个月内实现库存过剩减少40%。该方法适用于需要优化库存和提升服务水平的商业场景&#xff0c;特别是制药行业&#xff0c;帮助企业在降…

Harbor 企业级实战:单机快速上手 × 高可用架构搭建 × HTTPS安全加固

文章目录一、建立项目二、命令行登录harbor&#xff08;配置在客户端即可&#xff09;三、给本地镜像打标签并上传到harbor四、下载harbor的镜像五、创建自动打标签上传镜像脚本六、修改harbor配置七、实现harbor高可用7.1 安装第二台harbor主机7.2 新建目标&#xff0c;输入第…

进程管理、系统高负载、cpu超过800%等实战问题处理

进程管理与高负载实战&#xff1a;CPU 飙到 800% 时的分析与处理 在生产环境中&#xff0c;系统高负载和 CPU 异常占用是运维工程师最常面对的场景之一。 这篇文章将从进程管理基础讲起&#xff0c;到高负载问题定位&#xff0c;再到CPU 占用 800% 的实战处理&#xff0c;帮助你…

控制建模matlab练习12:线性状态反馈控制器-①系统建模

此练习&#xff0c;主要是使用状态空间方程来设计控制器的方法和思路&#xff1a; ①系统建模&#xff1b; ②系统的能控性&#xff1b; ③极点配置&#xff1b; ④最优化控制LQR&#xff1b; ⑤轨迹追踪&#xff1b; 以下是&#xff0c;第①部分&#xff1a;系统建模&#xff…

bytearray和bytes

bytearray和bytes不一样的地方在于&#xff0c;bytearray是可变的。 str 人生苦短&#xff0c;我用Python! bytes bytearray(str.encode()) bytes bytearray(b\xe4\xba\xba\xe7\x94\x9f\xe8\x8b\xa6\xe7\x9f\xad\xef\xbc\x8c\xe6\x88\x91\xe7\x94\xa8Python!) str bytes.d…

护网行动之后:容器安全如何升级?微隔离打造内网“微堡垒”

护网行动刚刚落下帷幕&#xff0c;但这场没有硝烟的攻防演练&#xff0c;留给安全行业的思考却从未停止。当“横向移动”成为攻击方屡试不爽的杀手锏时&#xff0c;一个过去可能被忽视的角落——容器网络安全&#xff0c;在本届护网中被推到了前所未有的高度。面对云原生时代容…

一动鼠标就锁屏,设备活动监控方案的技术实现与应用

摘要&#xff1a;本文探讨基于本地化监控机制实现设备操作追踪的技术方案&#xff0c;重点解析其触发逻辑与隐私保护机制。方案适用于需要监控设备使用场景的技术人员。一、核心功能实现原理触发监控机制键盘钩子&#xff1a;通过系统级键盘事件监听&#xff08;AltL组合键激活…

从零开始学习:深度学习(基础入门版)(1天)

&#xff08;一&#xff09; opencv和opencv-contrib的安装&#xff08;1.1&#xff09;在桌面地底部的搜索栏&#xff0c;搜索命令提示符&#xff0c;点击并打开命令提示符&#xff08;1.2&#xff09;依次输入命令并按回车&#xff1a;pip install opencv-python3.4.18.65 -i…

SimpleMindMap:一个强大的Web思维导图

在信息爆炸的时代&#xff0c;如何高效地组织、记忆和表达复杂信息成为一项关键技能。思维导图作为一种强大的可视化工具&#xff0c;能够帮助我们理清思路、激发创意并提高学习效率。最近在逛github的时候发现了一个开源的思维导图工具SimpleMindMap&#xff0c;和家人们分享下…

正确使用 JetBrains

来自穷鬼的 marker &#xff01;关键也不是全靠它吃饭&#xff0c;所以……请鄙视我就对了&#xff01;2023.2.6 和 MybatisX 1.7.3 兼容性好像有些问题&#xff0c;会报错。想一想降级 MybatisX 不如升级一下 Idea。So, do this.官方下载安装包并装之。然后解锁无需下载文件、…

0_外设学习_ESP8266+云流转(no 0基础)

1、环境要求 2个ESP8266模块、2个USB转ESP8266&#xff0c;通过ESP8266_A-->&#xff08;阿里云&#xff09;云流转-->ESP8266_B&#xff0c;实现ESP8266_A发布话题&#xff0c;ESP8266_B订阅该话题。 2、阿里云云流转配置 1、基础要求&#xff1a; 添加1个产品&#xf…

AI漫画翻译器-上传图片自动翻译,支持多语言

本文转载自&#xff1a;AI漫画翻译器-上传图片自动翻译&#xff0c;支持多语言 - Hello123 ** 一、AI 漫画翻译器的核心定位 AI 漫画翻译器是专为漫画爱好者设计的智能翻译平台&#xff0c;通过深度学习技术实现漫画文本的精准识别与本地化转换。它能在保留原图排版和艺术风格…

有效介电常数

有效介电常数:如果导体的横截面被介质完全包裹&#xff0c;位于导体之间的电力线(如带状线)就会感受到相同的介电常数。然而&#xff0c;对于微带线、双绞线或共面线&#xff0c;导体周围的介质不是均匀的&#xff0c;所以一些电力线穿过空气&#xff0c;而另一些则穿过介质。图…

51c视觉~合集16

自己的原文哦~ https://blog.51cto.com/whaosoft/14117000 #港大成立计算与数据科学学院&#xff0c;计算机统计双剑合璧 刚刚&#xff0c;港大成立新的计算与数据科学学院&#xff0c;由计算机科学系和统计学系合并。马毅教授被任命为学院首任院长。 马毅教授官宣…