文章目录

  • 概述:从“模型”到“大”模型
  • 1、大语言模型 (Large Language Model, LLM)
    • 1.1 定义与概述
      • 关键特征:
    • 1.2 核心技术与架构
      • Transformer架构
        • 自注意力机制 (Self-Attention)
    • 1.3 训练过程
    • 1.4 工作原理
  • 2. 多模态大模型 (Multimodal Large Model, MLM)
    • 2.1 定义
    • 2.2 核心技术与架构
    • 2.3 能力与应用
    • 2.4 图示阐释:MLM的工作原理 (以视觉问答为例)


概述:从“模型”到“大”模型

在深入探讨之前,我们需理解两个核心概念:

  • 模型 (Model):在人工智能中,模型是一个从数据中学习而来的数学函数或程序,用于处理特定任务(如图像分类、文本翻译)。它由参数 (Parameters) 组成,这些参数是在训练过程中调整的数值,决定了模型的行为。
  • 大模型 (Large Model):通常指参数规模巨大(达到数十亿甚至万亿级别)、训练数据量海量、需要巨大计算资源训练的模型。其“大”不仅指尺寸,更意味着一种能力的涌现 (Emergent Ability)——即当模型规模超过某个临界点后,它会展现出小模型所不具备的能力,如强大的泛化性、推理能力和上下文学习等。

三者关系可通过以下结构图理解:

基础与核心
MLM 实现方式
融合模块
Transformer
多模态编码器
解码器
LLM作为大脑
LLM 核心架构
自回归生成
预测下一个词
Transformer
解码器架构
大模型
Large Model

1、大语言模型 (Large Language Model, LLM)

1.1 定义与概述

大语言模型(LLM)是一种专门针对文本数据训练的大规模人工智能模型。其核心任务是理解人类语言并生成人类语言

关键特征:

  • 大规模参数:参数量通常达到数十亿甚至万亿级别
  • 海量训练数据:使用互联网规模的文本数据进行训练
  • 自监督学习:通过预测下一个词等任务进行预训练
  • 能力涌现:当规模超过临界点时,展现出小模型不具备的新能力

1.2 核心技术与架构

Transformer架构

LLM几乎都基于Google在2017年提出的Transformer架构,其核心组件包括:

自注意力机制 (Self-Attention)
# 简化的自注意力计算概念
def self_attention(query, key, value):scores = query @ key.T  # 计算注意力分数weights = softmax(scores)  # 标准化为注意力权重return weights @ value  # 加权求和

主要组件:

  • 编码器-解码器结构:原始Transformer的完整架构
  • 仅解码器结构:GPT系列采用的简化架构
  • 位置编码:为模型提供词汇位置信息
  • 层归一化:稳定训练过程
  • 前馈神经网络:处理注意力输出

1.3 训练过程

预训练阶段

海量文本数据
自监督学习
掩码语言建模
下一句预测
自回归生成
预训练模型

微调阶段

  • 指令微调:让模型遵循人类指令
  • 人类反馈强化学习:基于人类偏好优化模型输出
  • 多任务学习:在多个NLP任务上同时训练

1.4 工作原理

LLM基于概率生成文本的过程如下:

自回归反馈
输入提示
人工智能是
Token化
与编码
模型前向传播
万亿参数计算
输出概率分布
词汇表上的softmax
采样策略
选择下一个token
生成结果
人工智能是未来

此过程会不断循环(自回归),直到生成一个完整的句子或段落。模型的“知识”就蕴含在那些决定概率分布的万亿级参数中。

2. 多模态大模型 (Multimodal Large Model, MLM)

2.1 定义

多模态大模型是能够同时理解、处理和关联多种类型信息(模态) 的大模型。这些模态包括文本、图像、音频、视频等。其目标是实现不同模态信息间的统一理解和生成,让AI更接近人类感知世界的方式。

2.2 核心技术与架构

实现多模态的关键在于将不同模态的信息映射到同一个语义空间。通常包含以下几个组件:

1.编码器 (Encoders):

  • 图像编码器:如ViT (Vision Transformer),将图像切块并编码为一系列向量。
  • 文本编码器:通常就是一个现成的LLM的编码部分,将文本编码为向量。
  • 音频/视频编码器:将音频频谱图或视频帧编码为向量序列。

2.融合模块 (Fusion Module):核心挑战。接收不同编码器产生的向量序列,并通过跨模态注意力机制等技术,让它们进行“交流”,实现对齐和融合。Transformer通常是实现融合的优选架构。

3.解码器 (Decoder):根据融合后的信息,生成目标输出(如文本回答、图像等)。通常使用LLM作为文本解码器。

2.3 能力与应用

能力:图像描述、视觉问答、文本生成图像/视频、音频生成、跨模态检索等。

代表性模型:GPT-4V (视觉问答)、Gemini 1.5 (原生多模态)、CLIP (图文对比学习)、Stable Diffusion (文生图,虽不算传统大模型但原理相关) 等。

2.4 图示阐释:MLM的工作原理 (以视觉问答为例)

下图以“这张图片里有什么动物?”为例,展示了多模态大模型的工作流程:

图像
图像编码器
如ViT
特征向量序列
文本问题
文本编码器
特征向量序列
融合模块
跨模态Transformer
融合后的多模态表示
LLM解码器
作为大脑
生成文本回答
一只猫和一只狗

关键在于融合模块,它学会了将图像的视觉特征(“猫的纹理”、“狗的形态”)与文本的语义特征(“动物”)在同一个高维空间里关联起来,从而使LLM“大脑”能够基于视觉信息进行推理和回答。

特征大语言模型 (LLM)多模态大模型 (MLM)
核心定义专注于文本的单模态大模型能处理多种模态信息的大模型
处理模态文本 ONLY文本、图像、音频、视频等
技术基础Transformer架构、自监督学习LLM为基础,加上多模态编码器与融合器
关键能力文本生成、对话、摘要跨模态理解与生成(如图文互答)
代表模型GPT-4, LLaMA 2, PaLM 2GPT-4V, Gemini, CLIP

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97616.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97616.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/97616.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML应用指南:利用GET请求获取全国招商银行网点位置信息

招商银行(China Merchants Bank, CMB)作为中国领先的股份制商业银行,始终坚持“以客户为中心”的服务理念,致力于为个人客户、企业客户及机构客户提供专业、高效、便捷的综合金融服务。依托“轻型银行”战略与“金融科技银行”建设…

JVM性能监控工具的使用

了解JVM性能监控工具并能熟练使用,是Java开发者进阶的必备技能。下面本文将为你介绍一些主流的JVM性能监控工具及其使用方法,并通过一些场景案例来分析如何应用这些工具解决实际问题。 🛠️ JVM性能监控与调优工具指南 ✨ 工具概览 以下是几款…

【工作】一些找工作需要了解避雷的知识

面试前 1.公司的具体情况 公司全称,办公地点,涉及岗位 要求hr做个简单的公司介绍 2.岗位职责/业务方向 工作内容、公司业务 3.薪资待遇,构成,底薪,五险一金 问一下工资范围 底薪 (有责,无…

五、练习2:Git分支操作

练习2:Git分支操作 练习目标 掌握Git分支的创建、切换、合并等操作,理解分支在开发中的作用。 练习步骤 步骤1:准备基础仓库 # 创建练习目录 mkdir branch-practice cd branch-practice# 初始化仓库 git init# 创建初始文件 echo "# 分支…

【笔记】算法设计:异或空间线性基

Content1.什么是异或(定义和性质)2.异或空间线性基的构造方法3.异或空间线性基的应用4.算法设计例举5.小结说明算法设计应用之前,首先明确异或空间线性基:一种数据结构。用于处理异或关系(运算)下的向量空间…

Filebeat采集数据与日志分析实战

🌟Filebeat采集数据的原理 Filebeat默认按行采集数据,如果数据没有换行,则该条数据无法采集到 属于有状态服务,可以记录上一次采集数据的位置点信息 修改配置文件 vim /etc/filebeat/config/03-log-to-console.yaml filebeat.inp…

Fluent Bit针对kafka心跳重连机制详解(下)

#作者:程宏斌 文章目录disconnectreconnect接上篇:https://blog.csdn.net/qq_40477248/article/details/150957571?spm1001.2014.3001.5501disconnect 断开连接的情况主要是两种: 连接或传输过程中有错误发生 超时, 比如空闲时间超时 ** * Close and …

React 第七十一节 Router中generatePath的使用详解及注意事项

前言 generatePath 是 React Router 的一个实用工具函数,用于根据路径模式和参数对象生成实际的 URL 路径。它在需要动态构建链接的场景中非常有用,比如生成导航链接或重定向路径。 1、基本用法和注意事项 import { generatePath } from react-router-do…

Python 爬虫案例:爬取豆瓣电影 Top250 数据

一、案例背景与目标 豆瓣电影 Top250 是国内权威的电影评分榜单之一,包含电影名称、评分、评价人数、导演、主演、上映年份、国家 / 地区、类型等关键信息。本案例将使用 Python 编写爬虫,实现以下目标: 自动请求豆瓣电影 Top250 的 10 个分…

SPA安全警示:OAuth2.0致命漏洞

OAuth2.0在SPA应用中的安全陷阱SPA(单页应用)通常采用隐式授权(Implicit Flow)或PKCE(Proof Key for Code Exchange)授权模式,但存在以下安全隐患:隐式授权模式的漏洞访问令牌直接暴…

table表格字段明细展示

文章目录1、字段渲染2、异步请求展示明细3、hover展示问题3.1 基本逻辑3.2 hover时长判断3.3 renderhover表格字段明细展示,属于比较小的需求,但是也有一定交互细节,本文选取部分场景。 1、字段渲染 render和渲染组件是有区别的。render常见为…

主网上线后生态极速扩张的 Berachain 生态,有哪些值得关注的项目?

Berachain 是典型的将 DeFi 思维嵌入到共识机制中的 Layer1,其核心是 PoL(Proof of Liquidity)共识。PoL 要求验证者在获得区块奖励前,必须将流动性导入白名单协议,并由市场决定资金流向。这样,验证者的权重…

claude-code对比GitHub-Copilot

Claude Code 文档日期:2025 年 08 月 20 日 定位 项目级开发助手,专注于全局视野和复杂任务的处理。 特点 超长上下文支持:支持 200k 超长上下文,适合处理复杂项目。丰富的自定义命令:提供灵活的命令配置,满…

Roo Code自定义Mode(模式)

什么是自定义模式? 简单来说,自定义模式就像是给Roo Code穿上不同的"职业装"。你可以创建针对特定任务或工作流程量身定制的模式,让Roo在不同场景下表现出专业的行为。 这些模式分为两种类型:全局模式(在所有…

Next.js渲染模式:SSR、SSG与ISR揭秘

Next.js 核心渲染模式深度解析:SSR、SSG 与 ISR 在构建现代 Web 应用时,性能和用户体验是至关重要的考量。Next.js 作为 React 生态中一个备受推崇的框架,其强大的服务端渲染(SSR)、静态站点生成(SSG&#…

Veo Videos Generation API 对接说明

本文介绍了如何对接 Veo Videos Generation API,通过输入自定义参数生成Veo官方视频。 下面将详细阐述 Veo Videos Generation API 的对接流程。 申请流程 使用 API 前,需前往 Veo Videos Generation API 页面申请服务。进入页面后,点击「…

YOLO 目标检测:YOLOv3网络结构、特征输出、FPN、多尺度预测

文章目录一、YOLOV31、网络结构1.1 整体结构1.2 主干网络1.3 特征输出1.4 特征融合FPN(Feature Pyramid Networks)FPN 融合上采样融合2、多尺度预测3、损失函数4、性能对比一、YOLOV3 YOLOv3(You Only Look Once v3)是YOLO系列中…

【GIS图像处理】有哪些SOTA方法可以用于将1.5米分辨率遥感图像超分辨率至0.8米精度的?

针对将1.5米分辨率遥感图像超分辨率至0.8米的需求,当前主流方法可分为以下几类,结合最新研究进展和实际应用场景,具体技术方案及SOTA方法如下: 一、基于Transformer的高效建模 1. Top-k标记选择Transformer(TTST) 核心机制:通过动态选择前k个关键标记(token),消除冗…

【电力电子】逆变器控制策略:PQ Droop下垂控制、电压电流双环控制与SPWM调制

逆变器中的 PQ Droop 控制。 1. PQ Droop 控制的定义 PQ Droop(有时也称为功率下垂控制,Power Droop Control)是微电网、并联系统或逆变器并网运行中常用的一种分布式功率控制方法。 P-Droop(有功下垂):通过调节逆变器输出频率与有功功率之间的关系实现功率分配。 Q-Dro…

【LeetCode 热题 100】5. 最长回文子串——中心扩散法

Problem: 5. 最长回文子串 文章目录整体思路完整代码时空复杂度时间复杂度:O(N^2)空间复杂度:O(1)整体思路 这段代码旨在解决经典的 “最长回文子串” (Longest Palindromic Substring) 问题。问题要求在一个给定的字符串 S 中,找到一个最长…