前言

本节课我们聚焦多模态大模型最核心的问题:文本、图像、语音这些“不同语言”的信息,是怎么被模型“翻译”并互相理解的?我们从“差异”入手,一步步搞懂其中的逻辑。

一、先搞懂:什么是“模态差异”?

生活中,我们描述同一件事(比如“一只猫”)可以用多种方式:

  • 文本:“一只黑色的猫坐在沙发上”(一串有顺序的文字符号);
  • 图像:一张猫的照片(二维像素矩阵,每个点是颜色值);
  • 语音:“喵~”(一段声波信号,随时间变化的频率/振幅)。

这些不同的“信息载体”就是“模态”,而它们的“差异”是多模态模型最头疼的问题。具体来说,差异体现在三个方面:

  1. 结构差异
    文本是“序列结构”(像排队的人,有先后顺序);
    图像是“二维网格结构”(像棋盘,有行和列);
    语音是“时间序列结构”(像流水,随时间连续变化)。
    模型处理序列和网格的“思路”完全不同,就像用汉语语法去分析英语句子,肯定行不通。

  2. 语义密度差异
    文本的语义很“精准”:“猫”这个词直接指向特定动物;
    图像的语义很“模糊”:一张猫的照片里,除了猫还有沙发、地板,模型需要“过滤噪音”才能抓住核心;
    语音的语义可能“依赖上下文”:同样的“喵”,可能是撒娇也可能是警告,需要结合语气判断。

  3. 数据规模差异
    文本数据(如书籍、网页)容易获取且规模极大;
    高质量图像/视频数据(如标注清晰的照片)获取成本高;
    语音数据(尤其是多语言/方言)规模相对较小。
    模型“学”得多少不一样,也会导致不同模态的“表达能力”有差距。

二、第一步:把“原始信息”变成模型能懂的“特征”

模型无法直接处理原始数据(比如文本的文字、图像的像素),必须先把它们“翻译”成统一的“数字语言”——这就是“单模态特征提取”。

简单说,“特征”就是原始数据的“浓缩版”:比如一张猫的照片,原始数据是几百万个像素值(无用信息多),特征提取后会变成一串数字(比如768个数字组成的“向量”),这串数字只保留“猫的关键信息”(比如耳朵形状、毛色、姿态)。

不同模态的特征提取工具(举例):
  1. 文本特征提取
    用“词向量”或“Transformer模型”(如BERT)。
    例:“猫”这个词,会被变成一串数字(比如 [0.2, -0.5, 1.3, ...],这串数字能代表“猫”的语义——和“狗”的向量距离远,和“ kitten(小猫)”的向量距离近。

  2. 图像特征提取
    用“卷积神经网络(CNN)”或“视觉Transformer(ViT)”。
    例:一张猫的照片,通过CNN处理后,会变成一串数字(比如 [0.8, 0.1, -0.3, ...]),这串数字能代表“猫的视觉特征”(比如“有尾巴”“耳朵尖”)。

  3. 语音特征提取
    用“梅尔频谱”+“语音模型(如Wav2Vec)”。
    例:“喵”的叫声,会被转化为代表“频率变化”的向量,保留“猫叫”的声音特征。

三、核心难题:如何让不同模态的“特征”能“对话”?

即便我们把文本、图像都变成了向量,它们仍然可能“不在一个频道”:比如“猫”的文本向量和猫的图像向量,可能在模型眼里毫无关系——这就需要“模态对齐”。

“模态对齐”的目标:让同一语义的不同模态特征,在“向量空间”里靠得近;不同语义的特征离得远。
打个比方:假设我们把所有特征向量想象成“地图上的点”,“猫”的文本向量和猫的图像向量应该在地图上“挨在一起”,而和“狗”的向量离得远。

模态对齐的两种主流方式:
  1. 早期对齐(Early Fusion):“先统一,再处理”
    思路:在特征提取阶段就把不同模态“拉到同一空间”。
    例:CLIP模型(我们后面会详细讲)就是典型的早期对齐:

    • 文本用“文本编码器”提取特征,图像用“图像编码器”提取特征;
    • 两个编码器在训练时被“强迫”学习同一套“向量规则”——比如“猫”的文本向量和猫的图像向量,计算“相似度”时得分必须高。
  2. 晚期对齐(Late Fusion):“先各自处理,再融合”
    思路:先分别提取文本、图像的特征(可能在不同空间),最后在模型的“后期层”通过“交叉注意力”等方式融合。
    例:视觉问答模型(VQA):

    • 先单独提取图像特征(“图里有什么”)和问题文本特征(“图中有几只猫?”);
    • 最后一层用交叉注意力:让文本特征“关注”图像中“猫”的区域,图像特征“回应”文本中的“数量”问题,最终融合出答案。
四、代码示例:用CLIP直观感受“模态对齐”

我们用最简单的代码,看看经过“早期对齐”的模型,如何让文本和图像“对话”。

目标:输入一张猫的图片和3个文本描述(“a cat”“a dog”“a bird”),模型会计算图片与每个文本的“相似度”,相似度最高的就是匹配结果。

步骤1:安装工具库
# 安装Hugging Face的transformers库(模型工具)和pytorch(计算框架)  
pip install transformers torch pillow  
步骤2:加载模型和处理器

CLIP是经过“早期对齐”训练的模型,它的文本编码器和图像编码器已经“懂同一种语言”:

from transformers import CLIPModel, CLIPProcessor  
import torch  
from PIL import Image  # 加载预训练模型和处理器(处理器负责把原始数据转成模型能读的格式)  
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")  
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")  
步骤3:准备输入(图像+文本)
# 准备一张猫的图片(可以用自己的图片,路径替换成实际地址)  
image = Image.open("cat.jpg")  # 假设当前文件夹有一张猫的照片  # 准备3个候选文本描述  
texts = ["a cat", "a dog", "a bird"]  
步骤4:提取特征并计算相似度
# 用处理器处理输入(自动转成模型需要的格式)  
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)  # 模型输出文本特征和图像特征  
outputs = model(**inputs)  
text_features = outputs.text_embeds  # 文本特征(3个向量,对应3个文本)  
image_features = outputs.image_embeds  # 图像特征(1个向量,对应猫的图片)  # 计算图像特征与每个文本特征的相似度(余弦相似度,值越高越匹配)  
similarity = torch.nn.functional.cosine_similarity(image_features, text_features)  # 打印结果  
print("文本描述:", texts)  
print("相似度:", similarity.detach().numpy())  
预期结果:
文本描述: ['a cat', 'a dog', 'a bird']  
相似度: [0.85, 0.32, 0.21]  

可以看到,“a cat”与猫的图片相似度最高——这就是“模态对齐”的效果:模型知道“猫的图像”和“a cat”指的是同一个东西。

总结

这节课我们搞懂了:

  1. 不同模态(文本、图像等)因为结构、语义密度、数据规模不同,天生“难沟通”;
  2. 必须先把原始数据转成“特征向量”(模型的“数字语言”);
  3. 核心是“模态对齐”——让同一语义的不同模态特征在向量空间里“靠近”,早期对齐(如CLIP)和晚期对齐(如VQA)是两种主要方式。

下节课,我们会具体看这些“对齐”思路是如何被用到实际模型中的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/918711.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/918711.shtml
英文地址,请注明出处:http://en.pswp.cn/news/918711.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java stream distinct findAny anyMatch实现 :DistinctOp、FindOp、MatchOp

DistinctOpsDistinctOps 是一个专门用于实现 Stream.distinct() 操作的工厂类。正如它的名字所示,它的核心职责就是创建能够去除流中重复元素的操作。distinct() 是一个有状态的中间操作 (stateful intermediate operation),这意味着它通常需要看到所有元…

锁的基本介绍

锁 并发编程的一个最基本问题就是原子性地执行一系列指令。锁有助于直接解决这一问题。 锁的基本思想 锁就是一个变量。这个变量保存了锁在某一时刻的状态。它要么是可用的,表示没有线程持有锁,要么是被占用的,表示有线程持有锁,正…

【读代码】开源流式语音编码器SecoustiCodec

引言:从LLM到深度语义 在大型语言模型(LLM)驱动的语音交互时代,神经语音编解码器 (Neural Speech Codec) 扮演着至关重要的角色。它如同 LLM 的“耳朵”和“嘴巴”,负责将连续的语音波形转换为离散的、可供模型处理的 token,并将模型生成的 token 还原为自然的人声。 一…

P5967 [POI 2016] Korale 题解

P5967 [POI 2016] Korale 题目描述 有 nnn 个带标号的珠子,第 iii 个珠子的价值为 aia_iai​。 现在你可以选择若干个珠子组成项链(也可以一个都不选),项链的价值为所有珠子的价值和。 给出所有可能的项链排序,先按…

SwiftUI 页面弹窗操作

SwiftUI 页面弹窗操作指南一、基础弹窗实现1. Alert 基础警告框2. ActionSheet 操作菜单3. Sheet 模态视图4. Popover 浮动视图二、高级自定义弹窗1. 自定义弹窗组件2. 使用自定义弹窗三、弹窗状态管理1. 使用环境对象管理弹窗2. 弹窗路由系统四、动画与过渡效果1. 自定义弹窗动…

OpenCV图像处理2:边界填充与平滑滤波实战

前面学了一些关于opencv图像处理的内容,现在继续。一 图像填充边界填充(Border Padding)​,即在图像四周添加指定宽度的像素区域。其核心函数是cv2.copyMakeBorder(),通过不同的填充方式(borderType&#x…

imx6ull-驱动开发篇22——Linux 时间管理和内核定时器

目录 内核时间管理 系统节拍率 高/低节拍率的优缺点 jiffies 节拍数 时间绕回 时间转换函数 内核定时器 timer_list 结构体 定时器API函数 init_timer 函数 add_timer 函数 del_timer 函数 del_timer_sync 函数 mod_timer 函数 Linux 内核短延时函数 内核时间管…

路由器数据控制管理层面安全

数据层面:FPM Flexible Packet MatchingFPM是CisCOIOS新一代的ACL根据任意条件,无无状态的匹配数据包的头部负载,或者全部分析协议,更易于规则的创建用于替代传统ACL,对特定恶意流量的基础架构过滤无状态ipv4单播不支持…

Vue内置组件全解析:从入门到面试通关

文章目录Vue内置组件全解析&#xff1a;从入门到面试通关引言&#xff1a;为什么需要内置组件&#xff1f;一、Vue内置组件全景图二、核心内置组件详解1. <component> - 动态组件2. <transition> - 过渡动画3. <keep-alive> - 组件缓存4. <slot> - 内容…

VUE+SPRINGBOOT从0-1打造前后端-前后台系统-会议记录

在当今快节奏的工作环境中&#xff0c;会议记录是每个职场人士都必须要面对的任务。传统的手动记录方式不仅效率低下&#xff0c;而且容易遗漏重要信息。随着Web技术的发展&#xff0c;基于浏览器的实时语音转写技术为会议记录提供了全新的解决方案。本文将详细介绍如何利用Web…

WEB3——水龙头,如何获得开发用的测试币、 Sepolia 测试币?

注意&#xff1a; 有些水龙头渠道&#xff0c;要求以太坊币至少有0.01ETH,设有这个门槛&#xff0c;下面并不是所有渠道都能领取到测试币&#xff0c;有些可能对领取测试币有要求&#xff0c;如果想获得获取以太坊币的方法&#xff0c;可以看我其他的文章。 本文整理了多个免费…

C++调试革命:时间旅行调试实战指南

还在为C的悬垂指针、内存泄漏和并发竞态抓狂&#xff1f;让调试器学会“时光倒流” 凌晨三点&#xff0c;std::thread创建的六个线程中有一个突然吞掉了你的数据&#xff0c;valgrind只告诉你“Invalid read”&#xff0c;而时间旅行调试&#xff08;TTD&#xff09;​​ 能让你…

mysql8.0笔记

1.DDL数据定义语言 DDL是什么——————创建、修改、删除 数据库和表结构的命令。 基本语法 针对数据库的操作 -- 创建数据库 CREATE DATABASE 数据库名; -- 比如 CREATE DATABASE myschool; --查看所有数据库 SHOW DATABASES; --使用某个数据库 USE myschool; -- 删除数据库…

大模型微调【1】之入门

文章目录说明一 大模型微调技术1.1 微调基础1.2 量化概念1.3 高效微调方法LoRA&QLoRA1.4 LoRA VS QLoRA1.5 高效微调的应用场景二 主流微调工具2.1 unsloth2.2 LLama-Factory2.3 ms-SWIFT2.4 ColossalAI2.5 底层微调框架推荐2.6 模型性能评估框架EvalScope三 微调所需软硬件…

深入解析Linux poll()系统调用

&#x1f504; Linux poll() 系统调用详解一、poll 是干什么的&#xff1f;poll 是 Linux&#xff08;及 POSIX 标准&#xff09;中用于实现 I/O 多路复用&#xff08;I/O Multiplexing&#xff09; 的系统调用&#xff0c;它的核心作用是&#xff1a;让一个线程能够同时监视多…

文献阅读 | PLoS ONE | SRplot:一个免费的在线平台,用于数据可视化和图形

文献介绍文献题目&#xff1a; SRplot&#xff1a;一个免费的在线平台&#xff0c;用于数据可视化和图形 研究团队&#xff1a; Yewei Wang&#xff08;中南大学湘雅二医院&#xff09; 发表时间&#xff1a; 2023-11-09 发表期刊&#xff1a; PLoS ONE 影响因子&#xff1a; 3…

分布式与微服务宝典

分布式理论基础 1、分布式架构有哪些特点&#xff0c;优势和缺陷 特点&#xff1a;微服务架构的优点微服务架构的缺陷自由使用不同技术增加故障排除挑战每一个微服务都侧重于单一功能由于远程调用增加延迟支持单个可部署单元增加了配置与其他操作的工作量允许经常发布软件难以保…

利用生成式AI与大语言模型(LLM)革新自动化软件测试 —— 测试工程师必读深度解析

引言 自动化测试是现代软件工程的基石&#xff0c;然而&#xff0c;随着软件复杂度和迭代速度的飞速提升&#xff0c;传统自动化测试方法正面临越来越多的挑战。 近年来&#xff0c;生成式人工智能&#xff08;Generative AI&#xff09;和大语言模型&#xff08;LLM&#xff0…

JS 与 C++ 双向通信实战:基于 WebHostViewListener 的消息处理机制

前言在现代浏览器和桌面应用开发中&#xff0c;WebView 嵌入已经成为一种非常常见的 UI 技术方案。无论是基于 Chromium 的 CEF&#xff08;Chromium Embedded Framework&#xff09;、Qt WebEngine&#xff0c;还是自研浏览器内核&#xff0c;嵌入 WebView 都能带来极高的灵活…

模板打印技术——Office XLS 打印模板:为政务土地确权定制的纸张替换利器—仙盟创梦IDE

代码public static int cyberwin_replaceExcelandoutputPrint(string fisrcpathleurl, DataTable dtInfo, string despath){if (File.Exists(despath) true){//删除目标文件File.Delete(despath);}File.Copy(fisrcpathleurl, despath);string 目标文件 despath;MSEXCEL.Appli…