文章目录
- 概述:从“模型”到“大”模型
- 1、大语言模型 (Large Language Model, LLM)
- 1.1 定义与概述
- 关键特征:
- 1.2 核心技术与架构
- Transformer架构
- 自注意力机制 (Self-Attention)
- 1.3 训练过程
- 1.4 工作原理
- 2. 多模态大模型 (Multimodal Large Model, MLM)
- 2.1 定义
- 2.2 核心技术与架构
- 2.3 能力与应用
- 2.4 图示阐释:MLM的工作原理 (以视觉问答为例)
概述:从“模型”到“大”模型
在深入探讨之前,我们需理解两个核心概念:
- 模型 (Model):在人工智能中,模型是一个从数据中学习而来的数学函数或程序,用于处理特定任务(如图像分类、文本翻译)。它由参数 (Parameters) 组成,这些参数是在训练过程中调整的数值,决定了模型的行为。
- 大模型 (Large Model):通常指参数规模巨大(达到数十亿甚至万亿级别)、训练数据量海量、需要巨大计算资源训练的模型。其“大”不仅指尺寸,更意味着一种能力的涌现 (Emergent Ability)——即当模型规模超过某个临界点后,它会展现出小模型所不具备的能力,如强大的泛化性、推理能力和上下文学习等。
三者关系可通过以下结构图理解:
1、大语言模型 (Large Language Model, LLM)
1.1 定义与概述
大语言模型(LLM)是一种专门针对文本数据训练的大规模人工智能模型。其核心任务是理解人类语言并生成人类语言。
关键特征:
- 大规模参数:参数量通常达到数十亿甚至万亿级别
- 海量训练数据:使用互联网规模的文本数据进行训练
- 自监督学习:通过预测下一个词等任务进行预训练
- 能力涌现:当规模超过临界点时,展现出小模型不具备的新能力
1.2 核心技术与架构
Transformer架构
LLM几乎都基于Google在2017年提出的Transformer架构,其核心组件包括:
自注意力机制 (Self-Attention)
# 简化的自注意力计算概念
def self_attention(query, key, value):scores = query @ key.T # 计算注意力分数weights = softmax(scores) # 标准化为注意力权重return weights @ value # 加权求和
主要组件:
- 编码器-解码器结构:原始Transformer的完整架构
- 仅解码器结构:GPT系列采用的简化架构
- 位置编码:为模型提供词汇位置信息
- 层归一化:稳定训练过程
- 前馈神经网络:处理注意力输出
1.3 训练过程
预训练阶段
微调阶段
- 指令微调:让模型遵循人类指令
- 人类反馈强化学习:基于人类偏好优化模型输出
- 多任务学习:在多个NLP任务上同时训练
1.4 工作原理
LLM基于概率生成文本的过程如下:
此过程会不断循环(自回归),直到生成一个完整的句子或段落。模型的“知识”就蕴含在那些决定概率分布的万亿级参数中。
2. 多模态大模型 (Multimodal Large Model, MLM)
2.1 定义
多模态大模型是能够同时理解、处理和关联多种类型信息(模态) 的大模型。这些模态包括文本、图像、音频、视频等。其目标是实现不同模态信息间的统一理解和生成,让AI更接近人类感知世界的方式。
2.2 核心技术与架构
实现多模态的关键在于将不同模态的信息映射到同一个语义空间。通常包含以下几个组件:
1.编码器 (Encoders):
- 图像编码器:如ViT (Vision Transformer),将图像切块并编码为一系列向量。
- 文本编码器:通常就是一个现成的LLM的编码部分,将文本编码为向量。
- 音频/视频编码器:将音频频谱图或视频帧编码为向量序列。
2.融合模块 (Fusion Module):核心挑战。接收不同编码器产生的向量序列,并通过跨模态注意力机制等技术,让它们进行“交流”,实现对齐和融合。Transformer通常是实现融合的优选架构。
3.解码器 (Decoder):根据融合后的信息,生成目标输出(如文本回答、图像等)。通常使用LLM作为文本解码器。
2.3 能力与应用
能力:图像描述、视觉问答、文本生成图像/视频、音频生成、跨模态检索等。
代表性模型:GPT-4V (视觉问答)、Gemini 1.5 (原生多模态)、CLIP (图文对比学习)、Stable Diffusion (文生图,虽不算传统大模型但原理相关) 等。
2.4 图示阐释:MLM的工作原理 (以视觉问答为例)
下图以“这张图片里有什么动物?”为例,展示了多模态大模型的工作流程:
关键在于融合模块,它学会了将图像的视觉特征(“猫的纹理”、“狗的形态”)与文本的语义特征(“动物”)在同一个高维空间里关联起来,从而使LLM“大脑”能够基于视觉信息进行推理和回答。
特征 | 大语言模型 (LLM) | 多模态大模型 (MLM) |
---|---|---|
核心定义 | 专注于文本的单模态大模型 | 能处理多种模态信息的大模型 |
处理模态 | 文本 ONLY | 文本、图像、音频、视频等 |
技术基础 | Transformer架构、自监督学习 | LLM为基础,加上多模态编码器与融合器 |
关键能力 | 文本生成、对话、摘要 | 跨模态理解与生成(如图文互答) |
代表模型 | GPT-4, LLaMA 2, PaLM 2 | GPT-4V, Gemini, CLIP |