一：一些基本概念

1.1 信息量:特定事件所携带的信息多少

信息量衡量的是特定事件所携带的信息多少，其数学定义为：其中p(x)是事件x发生的概率。

核心思想：越罕见的事件，其携带的信息量越大；越常见的事件，其携带的信息量越小。

例如：

如果某事件必然发生(p(x)=1)，信息量为0，意味着观察到它不会带来任何新信息
-如果某事件极其罕见(p(x)很小)，信息量很大，观察到它提供了大量信息

1.2 惊奇度:观察到某事件时的"意外程度"

惊奇度表示观察到某事件时的"意外程度"，其数学定义为：

核心思想：越意外的事件惊奇度越高，越预期的事件惊奇度越低。

实际上，惊奇度和信息量是完全等价的数学表达式：

信息量强调的是事件所携带的信息内容
惊奇度强调的是事件发生的意外程度

1.3 熵 Entropy:度量随机变量的不确定性

信息论中的基本概念，用于度量随机变量（一个概率分布）的不确定性。

熵的概念可以从信息论角度推导：

定义信息量: 对于概率为 p 的事件，其信息量为 I( p )=-log₂ ( p)
低概率事件携带更多信息（更"意外"）
高概率事件携带更少信息（更"预期"）

1.3.1 定义：熵是平均信息量

熵是平均信息量:

对于离散随机变量X，其熵定义为：

对于一个特例，p(X=x₀)=1，即随机变量 X 确定性地取值为 x₀，我们可以如下推导：

所以，p(X=x₀)=1表示随机变量 X 是一个确定性变量，它总是取值为 x₀，没有任何不确定性。这种情况下：
– 随机变量没有任何随机性
– 系统处于完全确定的状态
– 我们可以100%确定 X 的值

熵为0正是反映了这种情况：当系统完全确定（无不确定性）时，熵达到最小值0，不需要任何额外信息就能预测其状态。

二元分布的熵与概率 p

横轴是第一个事件发生的概率 p（第二个事件的概率就是 1-p）
纵轴是对应的熵值
这个图会呈现出一个倒U形曲线，
在 p = 0.5 处达到最大值1比特。这是因为：
当 p 接近 0 或 1 时，分布非常不平衡，一个事件几乎必然发生，另一个几乎不可能发生，这种情况下熵接近于0（表示低不确定性）
当 p = 0.5 时，两个事件等可能发生，这是最不确定的情况，熵达到最大值1比特

三元分布belike：

当分布均匀时(p1=p2=p3=1/3)，熵达到最大值 log₂(3) ≈ 1.585 比特
当一个概率接近1，其他接近0时，熵接近0
当两个概率相等且较大，第三个较小时，熵介于log₂(2)和log₂(3)之间
分布越不均匀，熵值越低，表示不确定性越小

自由度解释：

三元分布有两个自由度时：
在一个有n个可能取值的概率分布中，因为所有概率之和必须等于1（∑p_i = 1），所以只有(n-1)个概率值可以自由选择。一旦确定了这(n-1)个值，最后一个值就被约束了。

例如：
二元分布：只有1个自由度。如果p₁ = 0.3，那么必然p₂ = 0.7
三元分布：有2个自由度。如果p₁ = 0.2，p₂ = 0.5，那么必然p₃ = 0.3

1.3.2 熵 Entropy和期望 Expectation

期望是随机变量的平均值或加权平均值，表示随机变量的"中心位置"。

对于离散随机变量 X，其期望定义为：

x 是随机变量 X 可能的取值、p(x) 是 X 取值为 x 的概率

对于连续随机变量 X，其期望定义为：

其中 f(x) 是 X 的概率密度函数。

推导过程

第一步：熵的标准定义

第二步：对数性质的应用

这一步是将负号移入对数内部，使用了对数的基本性质。

第三步：转换为期望形式

这一步表明熵是随机变量log(1/p(X))关于分布 p(x) 的期望。

熵是随机变量 X的"惊奇度"log₂(1/p(X))的平均值。
1/p(x) 越大（即概率越小），惊奇度越高，贡献的信息量也越大。

熵是平均信息量。换句话说，熵是对随机变量不确定性的平均度量，数学上就是信息量的期望（期望值）

1.4 相对熵（KL散度）

KL散度的定义：
对于未知概率分布p(x)，我们用q(x)去逼近p(x)，并定义相对熵或称KL散度。

1.5 交叉熵 Cross Entropy:度量两个概率分布之间的差异

交叉熵定义：用于度量两个概率分布之间的差异

所以可以得到

这个公式可以从编码理论角度理解：

H( p) - 使用最优编码方案（基于真实分布p）对来自分布p的数据进行编码所需的平均比特数
H(p,q) - 使用基于估计分布q的编码方案对来自真实分布p的数据进行编码所需的平均比特数
D(p||q) - 使用分布q的编码方案（而非最优编码方案p）所导致的额外编码成本

因此，这个公式表明：交叉熵 = 最优编码长度 + 使用错误分布造成的额外成本

二：从机器学习训练角度理解交叉熵与KL散度

2.1 模型训练目标:

有监督学习中：H( p) 是固定的,等价于最小化 D(p||q)

目标：最小化 p 和 q 之间的差异

在有监督学习中：
H( p)是固定的（取决于真实数据分布）
我们试图最小化H(p,q)（交叉熵损失）
这等价于最小化D(p||q)（KL散度）

p(x) 是数据的真实分布（由标签定义）
q(x) 是模型预测的分布（模型输出）
我们的目标是最小化 p 和 q 之间的差异

2.2 为什么使用交叉熵作为损失函数

最小化交叉熵等价于最大化对数似然

当我们使用交叉熵 H(p,q) 作为损失函数时：
我们实际上是在最小化 D(p||q)，因为 H( p) 是固定的
最小化交叉熵等价于最大化对数似然（log-likelihood）
交叉熵容易计算，且梯度性质好

梯度下降最小化交叉熵，D(p||q)→0时，q→p

当我们通过梯度下降最小化交叉熵时：
我们在寻找能够使模型分布q最接近真实分布p的参数
在训练过程中，D(p||q)逐渐减小
理想情况下，当D(p||q)→0时，q→p，模型完美拟合数据

训练开始时：
q分布与p分布差异大，D(p||q)值高, 交叉熵损失值大
训练进行中：
模型更新使q逐渐接近p, D(p||q)逐渐减小, 交叉熵损失逐渐降低

过拟合与正则化

如果模型过度专注于使训练数据的D(p||q)→0，可能会导致过拟合
正则化技术可以理解为对模型分布q施加额外约束，防止其过度拟合训练数据的p

2.3 具体例子

2.3.1 多分类问题

p 是one-hot编码的真实标签 [0,1,0,0,…]
q 是模型输出的softmax概率 [0.1,0.7,0.05,…]
交叉熵损失: H(p,q) = -∑p(x)log q(x)
因为p是one-hot编码，这简化为: -log q(正确类别)

2.3.2 在语言模型训练中

p是下一个token的真实分布
q是模型预测的下一个token的概率分布
最小化H(p,q)使模型预测分布尽可能接近真实分布

这种框架不仅解释了为什么交叉熵是首选损失函数，还帮助我们理解模型训练的本质：让模型分布逐渐接近数据真实分布的过程。
它帮助我们让模型分布q尽可能接近真实分布p，当q完全匹配p时，KL散度为0，交叉熵达到理论最小值H§ 。

2.4 最大似然估计 MLE

最大似然估计是统计学习的核心原理，
MLE的本质：找到一组参数使模型生成观测数据的概率最大

基本概念
我们从真实但未知的数据分布 p_data(x) 中采样得到数据集

每个样本 x_i 都是独立同分布(i.i.d.)的
目标是估计模型参数 θ，使得模型分布Pmodel (x; θ)最接近真实分布

2.4.1 推导过程解析:MLE与交叉熵

在这里插入图片描述这一步是对目标函数（也就是似然函数）取对数。这样做的原因是：

对数是单调递增函数，所以最大化一个函数和最大化这个函数的对数是等价的，不会改变最大值对应的参数θ
将乘积转换为求和，计算上更加方便，特别是当我们需要计算导数时
避免数值计算中的下溢问题。直接计算很多小概率的乘积容易导致数值变得极小，超出计算机的表示范围

当我们将 p_model(x; θ) 记为 q(x)，将 p_data(x) 记为 p(x) 时：

这最后一步正是最小化交叉熵

2.4.2 MLE的与交叉熵的等价性，

最小化交叉熵也等价于最小化KL散度

MLE的本质
找到一组参数使模型生成观测数据的概率最大
与交叉熵的等价性：
最大化似然等价于最小化真实分布与模型分布之间的交叉熵
与KL散度的关系：
由于H(p,q) = H§ + D(p||q)，而H§是常数，最小化交叉熵也等价于最小化KL散度
实际应用：
这就是为什么在神经网络等模型训练中，我们使用交叉熵作为损失函数 - 它直接对应于最大似然估计原则