ALBEF

研究动机

ALBEF之前的一些方式, 视觉分支基本都是基于 dector的方式(检出目标框),如下图所示,由于大量的数据没有标框,因此视觉预训练的受限于dector的检测方式。
在这里插入图片描述

创新点

能不能不再采用dector的方式训练视觉分支模型,ALBEF采用了一种新的方式,能够在信息融合之前就对齐图文的特征,即Align Before Fuse

网络结构

  1. image encoder : ViT
  2. text encoder: BERT
  3. multimodal encoder : 通过 CrossAttention进行模态之间的融合
  4. Momentum Encoder : 输出软分布,有助于过滤图文不太匹配的噪声数据 .(不理解的可以看下何凯明的MoCo系列)
    在这里插入图片描述

损失函数

通过设计ITC(Image-Text Contrastive) Loss,强制在融合之前对齐特征。 通过设计两个下游任务,图文匹配(Image Text Match,ITM)和 完形填空(Masked Language Modeling, MLM)进行多模态模型的融合。
关键设计​​:在融合前加入​​图像-文本对比损失(ITC)​​,强制单模态编码器生成的表示在语义空间对齐(类似CLIP)

BLIP

研究动机

  1. 对于只有encoder结构的模型,无法做生成(因为没有生成任务)
  2. 对于 encoder-decoder结构的模型,可以做生成但是不能做检索这种理解式的任务。
  3. 网络上的图文对包含很多噪声,可能并不是真正的匹配图文对。

网络结构

如图所示,相对于 ALBEF结构,增加了一个decoder的模块,并且把完形填空任务换成了句子生成的任务(Language Model,LM), 并且把Cross Attention换成了Causal Attention,即从Bert形式换成了GPT的形式, 这样就可以进行生成了。 所以现在整个网络结构既有理解又有生成任务,做到了理解和生成的架构统一。
在这里插入图片描述

数据策略

在这里插入图片描述

BLIP2

研究动机

当前的大模型都是基于 大量数据和大模型参数量下进行训练的, 训练的很慢,能不能改善一下提高训练效率呢?
如果把 image encoder 和 text encoder都冻住不进行更新的话,这俩时间的gap可能会比较大,BLIP2在这两者之间加了一个 小的transformer的结构,即Q-Former,达到了四两拨千斤的效果。

网络结构

如图所示, 这两个框分别表示理解任务和生成任务
在这里插入图片描述
第一阶段Representation Learning
扮演了理解任务,即表征学习阶段, 通过一个 可学习Query和txt作为输入,通过设计 ITC,ITM ,ITGT(基于图像的文本生成)任务,把视觉特征和语言特征对齐,得到学习好的Query (学好后包含了对齐到语言空间的视觉信息)
在这里插入图片描述
在这里插入图片描述

第二阶段Generation Learning
把学习好的Query输入到 Decoder中,做生成任务。
在这里插入图片描述

Instruct BLIP

参考链接:
https://www.bilibili.com/video/BV15vsueME7J?spm_id_from=333.788.videopod.sections&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

研究动机

核心问题​:传统视觉-语言模型(如BLIP-2)在响应复杂指令时表现局限
(例如:“which picture shows the pizza inside the oven?” 需同时理解空间关系与对象状态)
​关键痛点​:
视觉特征与语言指令语义割裂​:冻结的Image Encoder无法感知任务需求
静态提示输入:LLM接收的视觉特征与当前指令无关

网络结构

在这里插入图片描述
​视觉特征提取​
图像输入预训练且冻结的ViT​(例如CLIP-ViT),输出特征向量

基于指令的Q-Former(创新核心)​​
任务指令(如披萨定位问题)与视觉特征共同输入Q-Former​
通过三层交互:
▪ ​Self-Attention​:融合指令语义(理解"inside"的空间关系)
▪ ​Cross-Attention​:筛选与指令相关的视觉特征(聚焦烤箱区域)
▪ ​Feed Forward​:强化任务适配特征表示

​LLM交互机制​
Q-Former输出的32个动态Token​(即软提示)经线性投影后
与指令文本拼接成完整输入:
[任务指令] + [指令感知视觉特征] → LLM
​响应生成​
冻结的LLM(如FlanT5、Vicuna)基于融合输入生成自然语言响应
(示例输出:“left one” 指向左图中的烤箱披萨)

架构图实例解析​(图中披萨定位示例)
当输入指令:
“which picture shows the pizza inside the oven?”
​Q-Former的运作​流程:
解析指令关键词 → inside(空间关系), oven(目标容器)
通过Cross-Attention聚焦图像中的烤箱内部区域​
输出对比特征:左图(披萨在烤箱内) vs 右图(披萨在台面上)
LLM基于特征对比生成响应 → left one

对比BLIP2

# BLIP-2的静态输入:
visual_prompt = [固定向量]  # 与"oven inside"无关# InstructBLIP的动态生成:
if 指令 == "which shows pizza inside oven?":visual_prompt = focus(烤箱区域, 披萨位置)  # 输出32个位置敏感Token

BLIP-2典型问题​(对比图中披萨定位任务)
问题:“which picture shows the pizza inside the oven?”
可能响应:“left: pizza on counter, right: pizza in oven”(需用户自行判断位置)
​InstructBLIP优化响应​
指令感知处理: Q-Former过滤"inside oven"相关特征
动态Token突出左图错误/右图正确区域
LLM直接生成:​​*"right one"​​*

总结:InstructBLIP的核心突破​

​将指令语义深度融入视觉特征提取阶段,通过动态软提示实现: ​​“让模型学会根据问题主动寻找视觉证据”​​
而BLIP-2仅是简单拼接静态图像特征与问题文本。

指标对比
在这里插入图片描述

X InstructBLIP

核心动机​

​解决多模态割裂问题​:传统多模态模型需对不同模态数据联合训练(如CLIP),计算成本高且模态扩展性差。
​打破模态壁垒​:实现图像、音频、视频、3D等异构模态的统一理解和推理,​仅通过单模态独立训练即可涌现跨模态能力​

网络结构

在这里插入图片描述

在这里插入图片描述

五种网络对比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考

  1. https://www.bilibili.com/video/BV1uT411q7ef/?spm_id_from=333.337.search-card.all.click&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

  2. https://www.bilibili.com/video/BV15vsueME7J?spm_id_from=333.788.videopod.sections&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/919121.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/919121.shtml
英文地址,请注明出处:http://en.pswp.cn/news/919121.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构——排序算法(简单篇:冒泡排序、选择排序、插入排序)

1️⃣ 冒泡排序(Bubble Sort) 基本思想 重复地比较相邻的两个元素,如果顺序错误就交换它们。一趟冒泡结束后,最大(或最小)的元素会“浮”到末尾。下一趟时可以少比较一次,因为最后的元素已经排好…

配置 Docker 镜像加速,解决 docker pull 拉取镜像失败、docker search 查询镜像失败等问题

一、概述 记录时间 [2025-08-16] 在 Docker 学习中,可能会遇到诸如 docker 远程仓库无法访问、docker pull 拉取镜像失败、docker search 查询镜像失败等问题。 这是由于国内网络对 docker 远程仓库的访问受到限制。 那么在国内如何获取 docker 镜像呢&#xff1f…

【Python】Python 面向对象编程详解​

Python 面向对象编程详解​ 文章目录Python 面向对象编程详解​前言一、面向对象的基本概念​1.1 类(Class)​1.2 对象(Object)​1.3 属性(Attribute)​1.4 方法(Method)​二、类的定…

Redis 缓存和 Redis 分布式锁

目录 Redis 缓存 (Caching) 目的 核心逻辑 存储形式总结 典型场景 Redis 分布式锁 (Distributed Lock) 目的 核心作用 核心逻辑 典型场景 核心区别总结 Redis 缓存 (Caching) 在Redis中,数据是以键值对的形式存储的,其中键总是字符串类型&…

[ java 基础 ] 了解编程语言的第一步

目录 一. IDE (1). 使用IDE的原因: (2). 创建和使用: (3). 常用快捷方式与设置 (4). 注释 (5). 关键字 (6). 标识符 (7). 变量 (8). 数据类型 1) 整数类型 2) 浮点类型 3) 布尔类型(boolean) 4) 字符类型(char) 5) 字符串 6) 基本数据类之间的转换 (9). 运算符…

JavaScript 闭包与递归深度解析:从理论到实战

本文将系统梳理 JavaScript 中闭包与递归的核心概念、实战应用及面试要点,涵盖课堂知识点、作业实现、面试题解析等内容,帮助你全面掌握这两大重要概念。 一、闭包:函数与变量的绑定艺术 1.1 闭包的定义与核心特性 闭包是 JavaScript 中一种特殊的语言现象,其核心定义可…

牛 CDR3 单抗:抗病毒领域的 “纳米级精准导弹”

一、病毒防御的天然克星病毒感染的核心难题在于其表面的 “糖衣炮弹”—— 以 HIV 为例,其 Env 蛋白表面密集的糖链形成物理屏障,传统抗体难以穿透。而牛 CDR3 单抗的超长 CDR H3 结构(50-60 个氨基酸)如同 “纳米探针”&#xff…

鸿蒙应用开发和Vue网页开发中生命周期的区别

因为下节课就可以写讲解两者生命周期代码的实战了,写介绍一下理论方面的区别:鸿蒙应用开发(ArkUI范式)与Vue网页开发在生命周期管理上的核心区别,这直接反映了原生OS应用与Web应用在架构哲学和运行环境上的根本差异⚙️…

基于SpringBoot+Vue的轻手工创意分享平台(WebSocket即时通讯、协同过滤算法、Echarts图形化分析)

🎈系统亮点:WebSocket即时通讯、协同过滤算法、Echarts图形化分析;一.系统开发工具与环境搭建1.系统设计开发工具后端使用Java编程语言的Spring boot框架 项目架构:B/S架构 运行环境:win10/win11、jdk17前端&#xff1…

Java应届生求职八股(5)---并发编程篇

线程基础线程与进程的区别进程是程序的一次执行过程。它资源分配的单位。线程是程序执行的单位。并行和并发的区别单核CPU下,线程串行。(并发:多线程轮流使用一个或多个CPU)多核CPU下,每个核都可调度线程。&#xff08…

WSL 配置文件 wsl.conf 设置

WSL .wslconfig 小技巧 要在 WSL(Windows Subsystem for Linux)中增加内存,你需要编辑 WSL 配置文件 wsl.conf 或者直接调整虚拟机的资源限制。 文章目录WSL .wslconfig 小技巧以下是步骤: 找到或创建 .wslconfig 文件&#xff1…

9.从零开始写LINUX内核——设置中断描述符表

Linux 0.12 内核中断描述符表(IDT)完整实现代码以下是基于 setup 程序扩展的完整代码,包含中断描述符表(IDT)的定义、初始化及中断处理程序,可直接用于实验验证:asm/* setup.s —— 4 扇区&…

手机实时提取SIM卡打电话的信令声音-当前现状与思考

手机实时提取SIM卡打电话的信令声音-当前现状与思考 --纯手机-无外置配件的方案规划 上一篇:手机实时提取SIM卡打电话的信令声音-新的篇章(篇外小结与思考) 下一篇:手机实时提取SIM卡打电话的信令声音-整体解决方案规划 一、前言 我们在2024年09月的…

【车联网kafka】常用参数及其命令总结(第八篇)

目录 1、kafka参数 1.1 、消费者消息批次发送 1.2 、消息大小的配置(环环相扣的消息大小,调整时需要一起调整) 1.3 、消息重试发送幂等 1.4、消息提交 1.5、分区分配策略(自己看的设置) 1.6、文件存储 2、kafka命令 2.1 常用命令一览…

基于Spring Boot 4s店车辆管理系统 租车管理系统 停车位管理系统 智慧车辆管理系统

🔥作者:it毕设实战小研🔥 💖简介:java、微信小程序、安卓;定制开发,远程调试 代码讲解,文档指导,ppt制作💖 精彩专栏推荐订阅:在下方专栏&#x1…

17.4 合并购物车

分析 用户登录后,将Cookie中的购物车商品合并到redis数据库中。如果此时redis中已经有相同id的商品,则使用Cookie中的数据覆盖redis中的数据。 合并功能需要在用户登录后实现,但登录视图中应避免过多与登录逻辑无关的逻辑,所以考虑…

RK3588消费级8K VR一体机 是否有坑?

​​芯片平台​​​​定位场景​​​​核心优势​​​​消费级功能性短板​​全志H8/RK3288入门级VR低成本、基础性能稳定算力弱(4*A55)、无NPU、显示分辨率仅1080P高通XR1中端VR/AR均衡性能(Adreno 615 GPU)仅WiFi5、续航≤4小时…

基于Spring Boot校园二手交易平台系统设计与实现 二手交易系统 交易平台小程序

🔥作者:it毕设实战小研🔥 💖简介:java、微信小程序、安卓;定制开发,远程调试 代码讲解,文档指导,ppt制作💖 精彩专栏推荐订阅:在下方专栏&#x1…

Nginx 服务器常用操作

一. Nginx 常用配置 1. Nginx 总配置文件 nginx 安装目录下的 nginx.conf 文件: # 指定 Nginx worker 进程运行的系统用户 user nginx; # 自动根据 CPU 核心数启动相应数量的 worker 进程,充分利用多核。 worker_processes auto; # 自动将 worker 进程绑定到特定 …

PHP官方及第三方下载地址全指南(2025最新版)

PHP官方及第三方下载地址全指南(2025最新版) 本文整理了PHP官方及主流第三方下载渠道,包含PHP 5.5至8.4各版本的直接下载链接,助您快速获取安全可靠的PHP环境。 一、PHP官方下载渠道 1.1 全球主站下载 网址:https://…