文章目录

概述：从“模型”到“大”模型
1、大语言模型 (Large Language Model, LLM)
- 1.1 定义与概述
- - 关键特征：
- 1.2 核心技术与架构
- - Transformer架构
  - - 自注意力机制 (Self-Attention)
- 1.3 训练过程
- 1.4 工作原理
2. 多模态大模型 (Multimodal Large Model, MLM)
- 2.1 定义
- 2.2 核心技术与架构
- 2.3 能力与应用
- 2.4 图示阐释：MLM的工作原理 (以视觉问答为例)

概述：从“模型”到“大”模型

在深入探讨之前，我们需理解两个核心概念：

模型 (Model)：在人工智能中，模型是一个从数据中学习而来的数学函数或程序，用于处理特定任务（如图像分类、文本翻译）。它由参数 (Parameters) 组成，这些参数是在训练过程中调整的数值，决定了模型的行为。
大模型 (Large Model)：通常指参数规模巨大（达到数十亿甚至万亿级别）、训练数据量海量、需要巨大计算资源训练的模型。其“大”不仅指尺寸，更意味着一种能力的涌现 (Emergent Ability)——即当模型规模超过某个临界点后，它会展现出小模型所不具备的能力，如强大的泛化性、推理能力和上下文学习等。

三者关系可通过以下结构图理解：

1、大语言模型 (Large Language Model, LLM)

1.1 定义与概述

大语言模型（LLM）是一种专门针对文本数据训练的大规模人工智能模型。其核心任务是理解人类语言并生成人类语言。

关键特征：

大规模参数：参数量通常达到数十亿甚至万亿级别
海量训练数据：使用互联网规模的文本数据进行训练
自监督学习：通过预测下一个词等任务进行预训练
能力涌现：当规模超过临界点时，展现出小模型不具备的新能力

1.2 核心技术与架构

Transformer架构

LLM几乎都基于Google在2017年提出的Transformer架构，其核心组件包括：

自注意力机制 (Self-Attention)

# 简化的自注意力计算概念
def self_attention(query, key, value):scores = query @ key.T  # 计算注意力分数weights = softmax(scores)  # 标准化为注意力权重return weights @ value  # 加权求和

主要组件：

编码器-解码器结构：原始Transformer的完整架构
仅解码器结构：GPT系列采用的简化架构
位置编码：为模型提供词汇位置信息
层归一化：稳定训练过程
前馈神经网络：处理注意力输出

1.3 训练过程

预训练阶段

微调阶段

指令微调：让模型遵循人类指令
人类反馈强化学习：基于人类偏好优化模型输出
多任务学习：在多个NLP任务上同时训练

1.4 工作原理

LLM基于概率生成文本的过程如下：

此过程会不断循环（自回归），直到生成一个完整的句子或段落。模型的“知识”就蕴含在那些决定概率分布的万亿级参数中。

2. 多模态大模型 (Multimodal Large Model, MLM)

2.1 定义

多模态大模型是能够同时理解、处理和关联多种类型信息（模态）的大模型。这些模态包括文本、图像、音频、视频等。其目标是实现不同模态信息间的统一理解和生成，让AI更接近人类感知世界的方式。

2.2 核心技术与架构

实现多模态的关键在于将不同模态的信息映射到同一个语义空间。通常包含以下几个组件：

1.编码器 (Encoders)：

图像编码器：如ViT (Vision Transformer)，将图像切块并编码为一系列向量。
文本编码器：通常就是一个现成的LLM的编码部分，将文本编码为向量。
音频/视频编码器：将音频频谱图或视频帧编码为向量序列。

2.融合模块 (Fusion Module)：核心挑战。接收不同编码器产生的向量序列，并通过跨模态注意力机制等技术，让它们进行“交流”，实现对齐和融合。Transformer通常是实现融合的优选架构。

3.解码器 (Decoder)：根据融合后的信息，生成目标输出（如文本回答、图像等）。通常使用LLM作为文本解码器。

2.3 能力与应用

能力：图像描述、视觉问答、文本生成图像/视频、音频生成、跨模态检索等。

代表性模型：GPT-4V (视觉问答)、Gemini 1.5 (原生多模态)、CLIP (图文对比学习)、Stable Diffusion (文生图，虽不算传统大模型但原理相关) 等。

2.4 图示阐释：MLM的工作原理 (以视觉问答为例)

下图以“这张图片里有什么动物？”为例，展示了多模态大模型的工作流程：

关键在于融合模块，它学会了将图像的视觉特征（“猫的纹理”、“狗的形态”）与文本的语义特征（“动物”）在同一个高维空间里关联起来，从而使LLM“大脑”能够基于视觉信息进行推理和回答。

特征	大语言模型 (LLM)	多模态大模型 (MLM)
核心定义	专注于文本的单模态大模型	能处理多种模态信息的大模型
处理模态	文本 ONLY	文本、图像、音频、视频等
技术基础	Transformer架构、自监督学习	LLM为基础，加上多模态编码器与融合器
关键能力	文本生成、对话、摘要	跨模态理解与生成（如图文互答）
代表模型	GPT-4, LLaMA 2, PaLM 2	GPT-4V, Gemini, CLIP