本论文研究了能否利用一个“冻结”的LLM,直接理解视觉信号(即图片),而不用在多模态数据集上进行微调。核心思想是把图片看作一种“语言实体”,把图片转换成一组离散词汇,这些词汇来自LLM自己的词表。为此,作者提出了Vision-to-Language Tokenizer(V2T Tokenizer),通过编码器-解码器、LLM词表和CLIP模型的结合,把图像转化成一种“外语”。这样编码后,LLM不仅能够理解视觉内容,还能做图像去噪和修复,而且完全不用微调(只用冻结的LLM)。

Abstract

问题:关注如何让LLM直接理解视觉信号(如图像),不依赖于多模态数据集的微调。方法核心:

  • 将图像看作语言实体,将图像编码为LLM词表中的离散token(单词)
  • 设计了Vision-to-Language Tokenizer(V2L Tokenizer):通过encoder-decoder架构、LLM词表和CLIP模型将图像翻译成LLM可解释token。
  • 转换后,冻结的LLM不仅能做图像理解类任务,还能做图像去噪和修复任务(自回归生成),全程无需fine-tuning。
  • 支持的任务包括分类、caption、VQA以及inpainting、outpainting、deblurring等去噪/修复任务。

V2L Tokenizer的主要流程。把图像转成一组可解释的token(词元),这些token直接来自LLM的词表。LLM冻结后,它通过这些token就能理解视觉信号,能执行多模态相关任务(蓝色标记部分),也能做图像去噪修复类任务(橙色标记部分),而无需微调。


Introduction

背景
当前多模态模型如GPT、PaLM、LLaMA正从单一NLP任务向视觉-语言任务扩展。一般做法是:在语言模型基础上增加视觉模块。然后通过多模态数据集联合训练(fine-tuning),使视觉和语言latent space对齐。

局限性

  • 现有做法依赖大规模数据和计算资源。
  • 多模态对齐通常在latent特征空间层面,训练成本高。

本论文贡献

  • 输入token空间对齐视觉和语言信息(不是特征空间),避免了多模态训练/微调
  • 操作流程:
    1. 通过V2L Tokenizer把图像转为LLM词表内的离散token(用encoder-quantizer-decoder架构)。
    2. 冻结LLM可直接接收、处理这些token,实现视觉理解、生成和恢复等任务。
  • 词表扩展(bigrams/trigrams)方式提高了视觉到语言token的表达力。
  • 用CLIP筛选最具语义信息的组合token作为最终codebook,加强与视觉内容的语义对齐。
  • 采用in-context learning,无需LLM训练,仅靠prompt即可做zero-shot视觉任务。


Method

3.1 Problem Formulation and Overview

  • 图像作为“外语”:设定LLM词表为T={t1, t2, ..., tN}。目标是将图像编码为K个LLM词表内的token(属于T)。
  • 实现:V2L Tokenizer将图像编码为Kg个全局token(语义类任务,如分类、caption、VQA等)和Kl个局部token(细节类任务,如denoising、patch level编辑等)。K总数=Kg+Kl。
  • 使用:将(任务说明+in-context学习样本+全局或局部token)一起输入LLM,实现各种自回归视觉任务。

3.2 Vision-to-Language Tokenizer

整体架构

  • 采用encoder-quantizer-decoder结构。
  • 两个独立量化器:全局量化器(对应全局codebook),局部量化器(对应局部codebook)。
Global Codebook
  • LLM词表为一组subword token(如BPE/SentencePiece)。
  • 问题:单词token通常语义有限。
  • 策略:词表扩展为bigrams/trigrams,提升语义表达力。但组合词可能语义杂乱(如符号)。
  • 解决:用CLIP计算每个图片与所有扩展token的相似性,选top-5最相关token。聚合全图片的top-5组合,形成最终全局codebook。
Local Codebook
  • 用于局部patch编码细节,直接用LLM原始词表,无需扩展。
Embedding表示
  • global/local codebook分别通过CLIP text-encoder转化为embedding:LLM embedding(local)、E-LLM embedding(global)。
  • 增设用户可训练的线性投影器,实现语义空间与视觉空间对齐。
Encoder
  • 包括可训练CNN encoder和冻结CLIP-vision-encoder。
  • CNN encoder:类似VQ-GAN,提取local特征,空间downsample rate为8。
  • CLIP-vision-encoder:提取global语义特征。
  • 空间特征F∈Rh×w×dl,global特征f∈Rdg。
Quantizer
  • local quantizer(patch级):对每个F(i,j),选距离最近的局部codebook embedding,获得Kl个token。
  • global quantizer:对global特征f,选最近的全局codebook embedding,获得Kg个token。
  • 两类embedding全程冻结。
Decoder
  • 基于VQ-GAN解码器结构,stacked transposed卷积+自注意力层+cross-attention层(输入f,空间信息F为query,f为key),实现全局信息对局部还原的辅助重建。
Loss
  • 仅优化编码器、解码器、投影层。LLM/E-LLM embedding/vocab及CLIP模型全程冻结。
  • 损失包括LVQ、感知损失LPerceptual和GAN损失LGAN,各权重λ1=1.0, λ2=0.1。
  • 具体损失计算参考VQ-GAN。

3.3 Visual Signal Comprehension

  • 图像处理后得到全局token Tg和局部token Tl(flatten后Kl=hw)。
  • 结合任务prompt、样例和token,一起输入LLM即可实现多样视觉任务。
  • 具体任务prompt设计:
    • N-way K-shot分类:[任务说明,样例:“Input:Tg, output:类别”],最后输入待测Tg,LLM输出类别。
    • Image Caption:[提示,样例:“Input:Tg, output:caption”],测样输入Tg,LLM自回归生成caption,遇到句号停止。
    • VQA:[说明+样例:“Condition:Tg. Question:Q. Answer:A”],测样输入Tg和问题,LLM输出答案。
    • Image Denoising:参考SPAE,补全、去模糊、outpainting等均设计相应prompt,输入token与要求,输出重构token。

(a) Inpainting/Outpainting

  1. 提取local tokens:给定一张图片,首先用V2L Tokenizer提取它的局部token(记为Tl),每个token对应图片的一个小块。

  2. 生成token变体

    • 按照SPAE的做法,基于Tl生成10份变体(记为{Tₗˢ}¹⁰ˢ₌₁)。

    • 每份变体都是把Tl里的部分token随机换成LLM词表里的其它token,形成不同程度“污染”的版本。

    • 替换比例按 [23%, 50%; 3%]生成,从23%到50%之间每次递增3%,形成不同难度的样本。

  3. 应用掩码

    • 对于inpainting任务,在Tl的中心加一个8×8掩码区域(即中间小块都遮住,需要去恢复)。

    • 对于outpainting,则在图片底部加一个8×16掩码区域(需要补全图片下方)。

  4. 预测被遮盖token

    • 目标是一次预测m个被掩码的token,利用它们前面的n个token信息。

    • Prompt结构为:[学习新语言,按示例推测后面的m个token。{Input: Tₗˢ[n], output: Tₗˢ[m]}¹⁰ˢ₌₁. Input: Tl[n], output:]

    • 意思是:有10个样例,每个输入是前n个token,输出是接下来的m个token。

    • 实际推理时,LLM先用n个未被掩码token,连续生成m个被掩码token;每次预测完成后,把新生成的token补上,继续预测下一个m个,直到所有被遮盖token都恢复出来。

  5. 拼接token还原图片

    • 最后把生成的token(恢复的掩码区域)和剩下未被遮盖的token一起拼成完整token map,然后送入解码器还原图片。


(b) Deblurring(去模糊)、Shift/Rotation Restoration

  1. 任务原理相似:Deblurring、Shift和Rotation恢复原理都类似,也是“输入一部分token,预测剩下的token”。

  2. prompt结构差别

    • prompt结构是:[学习新语言,按示例推测后面的m个token。{Input: Tₗˢ[n + m], output: Tₗˢ[m]}¹⁰ˢ₌₁. Input: Tl[n + m], output:]

    • 这里,输入是n+m个token,预测的还是m个token。

    • Tₗ是模糊/位移/旋转过的图片对应的token序列;Tₗˢ表示经过随机token替换后的版本。Tₗˢ也对应原图的random变体。

    • 默认n=16, m=2,即每次输入16+2个token预测2个目标token。

  • 关键思路:用局部token表示图片,把一部分设为掩码/异常/模糊等状态,然后通过预设“few-shot prompt”(即带10个有答案的示例,样例都经过随机扰动),让冻结的LLM逐步恢复被遮盖或污染的token,再用解码器还原整图。

  • 这样就实现了不用微调,仅靠文本推理能力恢复(修补、补全、去模糊等)损坏图片的效果。

4. Experiments 

4.1 Settings
  • 采用了LLaMA2作为LLM,有三种参数规模版本,分别为7B(70亿)、13B(130亿)、70B(700亿),词表为32,000个词元。
  • 局部码本(local codebook)用的是LLaMA2原始词表,global codebook扩展并过滤后规模是11,908。
  • CLIP模型用的是ViT-L/14结构。
  • 图片统一resize成128×128像素,然后用V2L Tokenizer编码成16×16的token map。
  • 训练数据用的是ImageNet-1K,共训练100个epoch,使用32张NVIDIA V100显卡进行训练。
  • 优化器选Adam,初始学习率5e-4,前5个epoch线性升温,然后采用半周期余弦衰减。
4.2 Image Comprehension

Few-Shot Classification(小样本分类)

  • 实验在Mini-ImageNet的2-way和5-way分类基准上做图像理解。
  • 所有样本和测试图像都用V2L Tokenizer转成Kg个global token。
  • 按照3.3节和图3设计prompt输入LLM做分类预测,LLM输出文本形式的类别(必须所有token跟类别名完全吻合才算正确)。
  • 在表1比较了不同LLaMA2版本(7B/13B/70B)、以及同行的LQAE[25]、SPAE[54]、和另一个基线方法。
  • 影响分类精度的因素有:(1)分类类别N、(2)每类样本K、(3)任务描述、(4)few-shot样本重复次数。
  • 主要发现:①本方法在各种场景下都超过了SPAE(尽管用更小的LLM和更精简的词表);②代表图片的token数量越多,性能越高,这是因为词表扩展使得可选语义token更丰富。

Image Caption & Visual Question Answering

  • 按SPAE的流程,从COCO Caption和VQA数据集中随机挑选10个样本做in-context示例,默认每图用21个global token表示。
  • 图5展示了一些可视化结果,还有更多结果在补充材料里。

Semantic Interpretation

  • 图6可视化了6张图像各自得分最高的4个global token,可以看出词表扩展明显丰富了语义选择空间(如bigrams、trigrams)。
  • 表2则用CLIP分数和CLIP-R(相对分数)评价global token的语义质量,和SPAE对比,结果显示本方法虽然词表更小但语义质量更优。

4.3 Image Reconstruction and Denoising

Reconstruction Evaluation(

  • V2L Tokenizer把图像编码成LLM词表上的local token,这些token要能充分表达图像信息以便解码器重建原图或去除污染。
  • 用FID、LPIPS、PSNR三种指标评估重建质量,结果见表3。
  • 比较了两种配置:①用VQ-GAN的解码器不加global token;②用论文提出的带global token解码器(默认为section3.2配置)。
  • 本方法在所有指标上都优于SPAE。

Image Denoising

  • 介绍了prompt设置如何复原被污染(破坏)的图片,包括修补、扩展、去模糊、位移、旋转等任务,如图4所示。
  • 表4分析了两大影响因素:①图片tokenizer编码能力;②LLM预测local tokens能力(以VQ-GAN、LQAE、SPAE为对比方法)。
  • 随机挑选5000张ImageNet验证集图片做评测,指标为FID和LPIPS。
  • V2L Tokenizer在五类任务上几乎所有指标都优于对比方法,主要原因是图片特征能更好地和LLM token空间对齐。

Masked Image Restoration

  • 在ImageNet验证集图片上,先用V2L Tokenizer获取global和local token,然后随机把30% local token做掩码(遮盖)。
  • 用LoRA微调过的LLaMa-2 7B模型来预测这些掩码token(具体微调方法见补充材料)。
  • 把预测的token与未被掩码的token联合输入解码器进行重建,定性结果见图8。
  • 图中“input”是把未掩码token拼实际像素,掩码部分设为0送入解码器。

Conclusion

  • 把图片视作“外语”,提出了V2L Tokenizer,将连续视觉信号映射到LLM的token空间,使冻结的LLM也能不经多模态微调理解视觉信息。
  • V2L Tokenizer能生成全局和局部token:全局token通过词表扩展做语义表达,支持识别、描述和问答任务;局部token则用于提取图片细节,实现去噪、修复等任务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/923634.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/923634.shtml
英文地址,请注明出处:http://en.pswp.cn/news/923634.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

The Oxford-IIIT宠物图像识别数据集(753M)

0、引言博主研究生期间做的是人工智能领域相关的深度学习模型研究,早期还没定题的时候调研了大量方向。众所周知,模型性能的好坏很大程度上依赖于数据集,因此我当时也接触了大量数据集,这阵子将这些数据集汇总整理了一下&#xff…

jdbc DAO封装及BaseDAO工具类

DAO概念 DAO:Data Access Object,数据访问对象。 Java是面向对象语言,数据在Java中通常以对象的形式存在。一张表对应一个实体类,一张表的操作对应一个DAO对象! 在Java操作数据库时,我们会将对同一张表的增…

大模型应用开发2-SpringAI实战

SpringAI整合了大多数大模型,而且对于大模型开发的三种技术架构都有比较好的封装和支持,开发起来非常方便。不同的模型能够接收的输入类型、输出类型不一定相同。SpringAI根据模型的输入和输出类型不同对模型进行了分类: 大模型应用开发大多…

TDengine 时序函数 DIFF 用户手册

DIFF 函数用户手册 函数概述 DIFF 函数用于计算数据列中相邻两行数据的差值,通常用于分析数据的变化趋势和增量。该函数特别适用于监控智能电表数据的变化模式。 语法 SELECT DIFF(column_name [, ignore_negative]) FROM table_name;参数说明 column_name: 数…

清除gradle缓存的某个依赖

要清除 Gradle 缓存中的某个特定依赖&#xff0c;可以按照以下步骤操作&#xff1a;找到依赖在缓存中的路径 Gradle 缓存的默认位置&#xff1a; Windows: C:\Users\<用户名>\.gradle\caches\modules-2\files-2.1 macOS/Linux: ~/.gradle/caches/modules-2/files-2.1 路径…

机器人控制器开发(驱动层——伺服驱动canopen的sdo和pdo)

文章总览 一、核心区别&#xff1a;一句话概括 • ​​SDO&#xff08;服务数据对象&#xff09;​​&#xff1a;像 ​​“问询/设置”​​。用于​​点对点、非周期​​的参数配置和读取。例如&#xff0c;设置电机增益、读取当前位置等。​​速度慢&#xff0c;但确保数据准…

返利APP排行榜数据实时更新:基于 WebSocket 与 Redis 的高并发数据推送技术

返利APP排行榜数据实时更新&#xff1a;基于 WebSocket 与 Redis 的高并发数据推送技术 大家好&#xff0c;我是阿可&#xff0c;微赚淘客系统及省赚客APP创始人&#xff0c;是个冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 在返利APP运营中&#xff0c;用户对排…

[论文阅读] 人工智能 + 软件工程 | 告别冗余HTML与高算力消耗:EfficientUICoder如何破解UI2Code的token难题

告别冗余HTML与高算力消耗&#xff1a;EfficientUICoder如何破解UI2Code的token难题 论文信息信息类别具体内容论文原标题EfficientUICoder: A Dual-Modal Token Compression Framework for UI-to-Code Generation with Multimodal Large Language Models论文链接https://arxiv…

【STM32项目开源】STM32单片机智能语音风扇控制系统

目录 一、设计背景和意义 1.1设计背景&#xff1a; 1.2设计意义&#xff1a; 二、实物展示 三、硬件功能介绍 2.1 硬件清单&#xff1a; 2.2 功能介绍&#xff1a; 四、软件设计流程图 五、硬件PCB展示 六、软件主函序展示 七、单片机实物资料 资料获取 查看主页介…

git clone vllm

这个错误不是 vLLM 本身的问题&#xff0c;而是 pip 在 clone GitHub 仓库时失败了&#xff1a; error: RPC failed; curl 16 Error in the HTTP2 framing layer fatal: expected flush after ref listing根因通常是&#xff1a; 网络问题&#xff08;访问 GitHub 被中断 / 代理…

光谱相机的新兴领域应用

光谱相机在‌新兴领域‌的应用正快速拓展&#xff0c;结合‌AI、纳米技术、量子传感‌等前沿科技&#xff0c;突破传统检测极限。以下是六大最具潜力的新兴应用方向及技术突破点&#xff1a;‌1. 元宇宙与数字孪生‌‌应用场景‌&#xff1a;‌虚拟材质建模‌&#xff1a;通过高…

深入理解数据结构之复杂度

文章目录1.数据结构前言1.1 数据结构1.2 算法2.算法效率2.1 复杂度的概念2.2 复杂度的重要性3.1 大O的渐进表式法3.2 时间复杂度计算示例3.2.1 示例13.2.2 示例23.2.3 示例33.2.4 示例43.2.5 示例53.2.6 示例63.2.7 示例74.空间复杂度4.1 空间复杂度计算示例4.1.1 示例14.1.2 示…

【Vue3】10-编写vue项目时,ref的应用(2)

合集篇&#xff1a; 1.【Vue3】创建并运行一个简易的Vue3项目 2.【Vue3】编写vue实现一个简单效果&#xff0c;并使用setup糖简化代码 目录refref 定义对象类型的响应式数据1. 概念理解a. 概念b. 分析2. 代码实操代码场景步骤一&#xff1a;导入ref步骤二&#xff1a;修改数据形…

clickhouse 中SUM(CASE WHEN ...) 返回什么类型?

文章目录clickhouse 中SUM(CASE WHEN ...) 返回什么类型&#xff1f;CASE WHENSUM(CASE WHEN ...) 返回什么类型&#xff1f;clickhouse 中SUM(CASE WHEN …) 返回什么类型&#xff1f; CASE WHEN ClickHouse中的CASE WHEN用法与SQL标准中的用法基本相同&#xff0c;用于实现…

【算法】C语言多组输入输出模板

在 C语言 里&#xff0c;“多组输入输出”是很多在线评测系统&#xff08;OJ&#xff09;常见的模式&#xff0c;通常有两种情况&#xff1a;1. 输入到文件结束&#xff08;EOF&#xff09;比如题目没有告诉有多少组数据&#xff0c;就需要一直读直到输入结束。#include <st…

【Ubuntu】sudo apt update出现E :仓库***没有Release文件

【Ubuntu】sudo apt update出现E &#xff1a;仓库***没有Release文件 1 问题描述 在执行sudo apt update更新一下软件包时出现了如下报错 E: 仓库***没有Release 文件。 N: 无法安全地用该源进行更新&#xff0c;所以默认禁用该源。 N:参见apt-secure&#xff08;8&#xf…

全球后量子迁移进展:区域特色与产业落地差异

一、量子威胁具象化&#xff1a;从技术风险到产业冲击量子计算对传统密码体系的威胁已从理论走向现实&#xff0c;其破坏性不仅体现在算法破解效率的飞跃&#xff0c;更渗透到数据全生命周期的安全防护中。以金融领域为例&#xff0c;2024 年国际安全机构模拟实验显示&#xff…

贪心算法应用:决策树(ID3/C4.5)详解

Java中的贪心算法应用&#xff1a;决策树&#xff08;ID3/C4.5&#xff09;详解 决策树是一种常用的机器学习算法&#xff0c;它通过递归地将数据集分割成更小的子集来构建树形结构。ID3和C4.5是两种经典的决策树算法&#xff0c;它们都使用了贪心算法来选择最优的特征进行分割…

华为任旭东:开源协作,激发创新,共创智能世界 | GOSIM HANGZHOU 2025

GOSIM HANGZHOU 2025峰会盛大开幕&#xff0c;华为首席开源联络官、CNCF基金会董事任旭东以《开源协作&#xff0c;激发创新&#xff0c;共创智能世界》为题发表Keynote演讲。颠覆性技术到工业应用的转换时间越来越短&#xff0c;AI技术正在推动传统软件产业的演进&#xff0c;…

本地部署 GPS 跟踪系统 Traccar 并实现外部访问

Traccar 是一款集成了强大的 java 后端服务的 GPS 跟踪系统 。它支持在多种设备使用&#xff0c;在物流运输、资产管理和个人安全等领域应用。本文将详细的介绍如何利用 Docker 在本地部署 Traccar 并结合路由侠实现外网访问本地部署的 Traccar 。 第一步&#xff0c;本地部署…