1 定义与数学原理:从信息论到分布差异度量

交叉熵(Cross Entropy)是信息论中用于量化两个概率分布差异的核心概念,由Claude Shannon的信息论发展而来。它测量了在相同事件集合上,使用估计的概率分布q对服从真实概率分布p的事件进行编码所需的平均比特数。其数学定义为:

对离散分布:
H(p,q)=−∑i=1np(xi)log⁡q(xi)H(p, q) = -\sum_{i=1}^{n} p(x_i)\log q(x_i) H(p,q)=i=1np(xi)logq(xi)

对连续分布:
H(p,q)=−∫Xp(x)log⁡q(x)dxH(p, q) = -\int_{\mathcal{X}} p(x) \log q(x) dx H(p,q)=Xp(x)logq(x)dx

其中p(xi)p(x_i)p(xi)是事件xix_ixi在真实分布中的概率,q(xi)q(x_i)q(xi)则是在估计分布中的概率。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

1.1 与相关概念的深刻联系

交叉熵不是孤立存在的概念,它与信息论中其它关键指标存在紧密的数理关系:

  • 信息熵(H§):表示真实分布ppp下编码样本所需的最小平均比特数,即最优编码方案的代价:
    H(p)=−∑p(xi)log⁡p(xi)H(p) = -\sum p(x_i)\log p(x_i) H(p)=p(xi)logp(xi)

  • KL散度(D_{KL}(p \parallel q):衡量真实分布ppp与估计分布qqq之间的差异程度:
    DKL(p∥q)=∑p(xi)log⁡p(xi)q(xi)D_{KL}(p \parallel q) = \sum p(x_i)\log \frac{p(x_i)}{q(x_i)} DKL(pq)=p(xi)logq(xi)p(xi)

  • 交叉熵的分解关系:从定义可推导出交叉熵是信息熵与KL散度之和:
    H(p,q)=H(p)+DKL(p∥q)H(p, q) = H(p) + D_{KL}(p \parallel q) H(p,q)=H(p)+DKL(pq)

这一关系揭示出:交叉熵由数据自身的不确定度(H§)和预测分布与真实分布的偏离度(KL散度)共同构成

往期文章推荐:

  • 20.批判式微调(CFT):原理、架构与高效推理训练新范式
  • 19.LoRA:大模型低秩适配技术全景——原理、演进与高效微调革命
  • 18.SFT:大型语言模型专业化定制的核心技术体系——原理、创新与应用全景
  • 17.预训练模型:大规模数据预学习范式——定义、原理与演进逻辑
  • 16.OpenAI GPT-4o模型性能评估体系解析:多模态能力、安全性与应用效能的系统性验证
  • 15.OpenAI GPT-4o技术详解:全能多模态模型的架构革新与生态影响
  • 14.AGI:通用人工智能的进击之路——从理论定义到现实挑战的全面解析
  • 13.迁移学习:知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式
  • 12.KL散度:信息差异的量化标尺 | 从概率分布对齐到模型优化的核心度量
  • 11.知识蒸馏:模型压缩与知识迁移的核心引擎
  • 10.TinyBERT:知识蒸馏驱动的BERT压缩革命 | 模型小7倍、推理快9倍的轻量化引擎
  • 9.BERT:双向Transformer革命 | 重塑自然语言理解的预训练范式
  • 8.MoE混合专家模型:千亿参数的高效推理引擎与架构革命
  • 7.RLHF:人类反馈强化学习 | 对齐AI与人类价值观的核心引擎
  • 6.Transformer:自注意力驱动的神经网络革命引擎
  • 5.[特殊字符] LLM(大型语言模型):智能时代的语言引擎与通用推理基座
  • 4.陶哲轩:数学界的莫扎特与跨界探索者
  • 3.48次复乘重构计算极限:AlphaEvolve终结56年矩阵乘法优化史
  • 2.AlphaEvolve:谷歌的算法进化引擎 | 从数学证明到芯片设计的AI自主发现新纪元
  • 1.[特殊字符] AlphaGo:“神之一手”背后的智能革命与人机博弈新纪元

1.2 直观理解交叉熵的行为特性

通过一个简单例子可直观感受交叉熵的物理意义:

设真实分布 p=[0.25,0.25,0.25,0.25]p = [0.25, 0.25, 0.25, 0.25]p=[0.25,0.25,0.25,0.25](完全均匀分布)
现有两个估计分布:
q1=[0.25,0.5,0.125,0.125]q_1 = [0.25, 0.5, 0.125, 0.125]q1=[0.25,0.5,0.125,0.125]
q2=[0.25,0.25,0.125,0.375]q_2 = [0.25, 0.25, 0.125, 0.375]q2=[0.25,0.25,0.125,0.375]

计算得:
H(p,q1)≈1.386H(p, q_1) \approx 1.386H(p,q1)1.386
H(p,q2)≈1.299H(p, q_2) \approx 1.299H(p,q2)1.299

显然q2q_2q2q1q_1q1更接近真实分布ppp,其交叉熵也更低。这验证了交叉熵的核心性质:估计分布q越接近真实分布p,交叉熵值越小

2 机器学习中的关键作用:损失函数与优化特性

在机器学习尤其是分类任务中,交叉熵被广泛用作损失函数,衡量模型预测概率分布与真实标签分布的差异。其优势主要体现在三方面:概率意义明确、梯度性质优秀、能处理多分类问题。

2.1 在二分类与多分类中的实现形式

根据分类任务的不同,交叉熵损失有相应形式:

  • 二分类任务(Binary Cross-Entropy)
    L=−1n∑i=1n[yilog⁡(y^i)+(1−yi)log⁡(1−y^i)]L = -\frac{1}{n}\sum_{i=1}^n \left[ y_i \log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i) \right] L=n1i=1n[yilog(y^i)+(1yi)log(1y^i)]
    其中yi∈{0,1}y_i \in \{0,1\}yi{0,1}是真实标签,y^i\hat{y}_iy^i是模型预测的正类概率。

  • 多分类任务(Categorical Cross-Entropy)
    L=−1n∑i=1n∑j=1myijlog⁡(y^ij)L = -\frac{1}{n} \sum_{i=1}^n \sum_{j=1}^m y_{ij} \log(\hat{y}_{ij}) L=n1i=1nj=1myijlog(y^ij)
    其中mmm是类别数,yijy_{ij}yij是样本iii属于类别jjj的真实概率(常为one-hot向量),y^ij\hat{y}_{ij}y^ij是模型预测的概率。

2.2 为何优于均方误差:梯度视角的分析

当神经网络输出层使用Sigmoid或Softmax激活函数时,交叉熵比均方误差(Mean Squared Error, MSE)具有更优秀的梯度特性:

损失函数梯度表达式(输出层)梯度特性分析
均方误差(MSE)∂L∂w=(a−y)⋅σ′(z)⋅x\frac{\partial L}{\partial w} = (a - y) \cdot \sigma'(z) \cdot xwL=(ay)σ(z)x梯度含σ′(z)\sigma'(z)σ(z),在饱和区梯度消失
交叉熵(CE)∂L∂w=(a−y)⋅x\frac{\partial L}{\partial w} = (a - y) \cdot xwL=(ay)x梯度不含σ′(z)\sigma'(z)σ(z),更新更稳定

以二分类为例,设y^=σ(z)\hat{y} = \sigma(z)y^=σ(z),Sigmoid函数输出。推导交叉熵损失对输入zzz的梯度:
∂L∂z=y^−y\frac{\partial L}{\partial z} = \hat{y} - y zL=y^y

该梯度仅取决于预测误差,不含Sigmoid的导数项σ′(z)\sigma'(z)σ(z),避免了饱和区的梯度消失问题,使模型训练更高效稳定。

2.3 与Softmax激活的天然适配

在多分类任务中,交叉熵通常与Softmax激活函数结合使用。Softmax将神经网络原始输出转换为概率分布:
y^j=ezj∑k=1mezk\hat{y}_j = \frac{e^{z_j}}{\sum_{k=1}^m e^{z_k}} y^j=k=1mezkezj

此时交叉熵损失对Softmax输入zjz_jzj的梯度为:
∂L∂zj=y^j−yj\frac{\partial L}{\partial z_j} = \hat{y}_j - y_j zjL=y^jyj

这一简洁的梯度形式使参数更新计算高效,是交叉熵成为分类任务标准损失的关键原因。

3 实际应用案例:超越基础理论的价值延伸

交叉熵不仅在理论机器学习中占核心地位,还在众多实际工程和科研领域发挥关键作用,以下是几个突出案例:

3.1 医学信号分析与模式识别

  • 血压与神经活动耦合研究:利用多尺度交叉熵分析血压与肾交感神经信号间的耦合模式,研究发现麻醉状态下信号复杂度显著降低,揭示生理状态变化的内在动力学特征。
  • 医学影像分类:在X光、CT等影像诊断系统中,交叉熵作为损失函数优化卷积神经网络,提升病灶识别准确率,是AI辅助诊断的核心组件。

3.2 气象预报与事件建模

  • 降水概率预测:在闽北地区暴雨预报中,传统BP神经网络使用均方误差时对小概率事件建模不佳。改用交叉熵作为目标函数后,模型对大雨事件的预测准确率显著提升,TS评分明显改善。
  • 极端天气模式识别:通过交叉熵构建的损失函数能更好处理类别不平衡问题,提升罕见天气模式的识别敏感度。

3.3 工程优化与工业设计

  • 船型优化设计:面对高维、计算昂贵的船型优化问题,传统智能算法易陷入局部最优。改进的交叉熵优化法被用于5100TEU集装箱船的兴波阻力性能优化,通过自适应方差调整和接受-拒绝策略,算法高效收敛到全局最优解。
  • 工业参数调优:在制造工艺参数优化中,交叉熵法处理多约束、多目标问题展现出鲁棒性好、收敛速度快的优势。

3.4 信息检索与特征编码

  • 特征工程相似度度量:交叉熵可用于衡量两个随机变量的概率分布相似度,辅助特征选择或聚类分析。
  • 自然语言处理:在机器翻译中,通过计算语义交叉熵指导歧义消除,提升翻译准确性。

4 总结:交叉熵的核心价值与应用前景

交叉熵作为信息论与机器学习的桥梁概念,具有多重不可替代的价值:

理论基础深厚:源于Shannon信息论,通过平均编码长度解释分布差异,数学形式简洁而富有解释力。其与KL散度、信息熵的分解关系揭示了不确定性传递的本质。

算法优势突出:作为损失函数时,其梯度特性避免了激活函数饱和区的学习停滞问题,使优化过程更稳定高效。与Softmax的结合已成为分类模型的标准配置。

应用场景广泛:从基础的逻辑回归、神经网络,到复杂的医学信号分析(如多尺度交叉熵)、气象预报、船舶工业优化,交叉熵都展现出强大的适应能力。

未来,随着深度学习向更复杂概率模型发展,交叉熵将继续在以下方向发挥关键作用:多模态学习中的分布对齐、少样本学习中的不确定性建模、以及强化学习中的策略优化等。理解交叉熵不仅是对一个数学概念的掌握,更是打开概率机器学习大门的钥匙。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/89427.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/89427.shtml
英文地址,请注明出处:http://en.pswp.cn/web/89427.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WAF 能防御哪些攻击?

WAF(Web 应用防火墙)是网站和Web应用的安全守门人,但很多用户对其具体防御范围一知半解。实际上,WAF 能针对性拦截多种网络攻击,从常见的注入攻击到复杂的恶意爬虫,覆盖Web安全的核心威胁。本文详解WAF的防…

闲庭信步使用图像验证平台加速FPGA的开发:第二十二课——图像直方图统计的FPGA实现

(本系列只需要modelsim即可完成数字图像的处理,每个工程都搭建了全自动化的仿真环境,只需要双击top_tb.bat文件就可以完成整个的仿真,大大降低了初学者的门槛!!!!如需要该系列的工程…

群晖中相册管理 immich大模型的使用

相对于其他的相册管理软件,Immich的智能搜索和人脸识别功能是其优势,通过应用机器学习模型,其智能搜索和人脸识别功能更为先进。 一、大模型的下载与安装 网上有大佬提供了相关大模型的下载:https://url22.ctfile.com/d/58003522…

在 Windows 上使用 Docker 运行 Elastic Open Crawler

作者:来自 Elastic Matt Nowzari 了解如何使用 Docker 在 Windows 环境中运行 Open Crawler。 了解将数据摄取到 Elasticsearch 的不同方式,并深入实践示例,尝试一些新方法。 Elasticsearch 拥有大量新功能,助你为特定场景构建最…

iOS高级开发工程师面试——RunTime

iOS高级开发工程师面试——RunTime 一、简介 二、介绍下 RunTime 的内存模型(isa、对象、类、metaclass、结构体的存储信息等) 对象 类 三、为什么要设计 metaclass ? 四、class_copyIvarList & class_copyPropertyList区别? 五、class_rw_t 和 class_ro_t 的区别? 六…

实现分页查询

分页查询分页查询语句项目中添加分页功能按钮设置前后端代码功能实现分页查询语句 限制查询的 sql 语句: select * from student limit 0,4sql 查询结果如下: 分页查询的每一页都对应一行 sql 语句,若每一行都写单独对应的 sql 语句不仅重复…

[QOI] qoi_desc | qoi_encode | qoi_decode

链接:https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression (看代码设计的时候,真的大为震撼,伟大的algorithm T.T) docs:QOI图像格式 qoi项目提出了Quite OK Image(QOI&am…

智慧城轨可视化:一屏智管全城

图扑智慧城轨可视化系统,把地铁线路、车站、列车都搬进三维画面。列车晚点预警、站台拥挤提示、设备故障定位…… 这些关键信息一屏聚合,调度员能快速调整发车频次,疏导高峰客流。遇上突发情况,系统联动应急方案,同步显…

包新的Git安装与使用教程(2024九月更新)

目录 一、安装git 1.下载git 2.git安装 3.环境变量配置与测试 二、使用教程 1.创建版本库 2.版本回退 3.删除和恢复文件 一、安装git 1.下载git 官方下载地址:https://git-scm.com/download 然后进入以下页面,点击下载链接即可(windows一般都是…

中望3D 2026亮点速递(1)-全新槽功能螺纹功能,减少繁琐操作

本文为CAD芯智库整理,未经允许请勿复制、转载!中望3D 2026全新的槽功能,包括:(1)可快速生成多种槽形;(2)快速生成一个或多个槽;(3)支持…

2025毫米波雷达技术白皮书:智能汽车与物联网的感知核心

随着人工智能、物联网(IoT)和智能汽车产业的迅猛发展,毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力,广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年&#x…

用 React-Three-Fiber 实现雪花下落与堆积效果:从零开始的 3D 雪景模拟

在 Web3D 开发中,自然现象模拟一直是极具吸引力的主题。本文将基于 React-Three-Fiber(R3F)框架,详解如何实现一个包含雪花下落、地面堆积的完整雪景效果。我们会从基础粒子系统入手,逐步完善物理交互逻辑,…

从抓包GitHub Copilot认证请求,认识OAuth 2.0技术

引言 在现代开发工具中,GitHub Copilot 以智能、嵌入式的人工智能代码补全能力著称。作为一项涉及用户敏感数据和付费授权的服务,其认证授权流程尤为值得技术研究。本文基于实际抓包 VS Code 中的 Copilot 登录认证请求,系统梳理其 OAuth 2.…

Linux操作系统之线程:分页式存储管理

目录 前言: 一、分页式存储管理 二、二级页表的地址转化 三、缺页中断 总结 前言: 我们上篇文章简单介绍了线程的一些知识点,但是还有很多坑没有给大家填上,包括页表部分我们还没为大家说明。 本篇文章我将会继续为大家讲解…

xss1-8

Level-1<script>alert()</script>基础反射型 无任何过滤Level-2"> <script>alert()</script> <"闭合属性&#xff1a;">用来闭合当前标签的value属性注入新标签&#xff1a;闭合属性后&#xff0c;插入独立的<script>…

51c嵌入式~单片机~合集1

自己的原文哦~ https://blog.51cto.com/whaosoft/11897656 一、STM32的启动模式配置与应用 三种BOOT模式 所谓启动&#xff0c;一般来说就是指我们下好程序后&#xff0c;重启芯片时&#xff0c;SYSCLK的第4个上升沿&#xff0c;BOOT引脚的值将被锁存。用户可以通过设…

Typecho分类导航栏开发指南:从基础到高级实现

文章目录 Typecho分类导航栏深度解析:父分类与子分类的完美呈现 引言 一、Typecho分类系统基础 1.1 Typecho分类结构 1.2 获取分类数据的基本方法 二、基础分类导航输出 2.1 简单的平铺式导航 2.2 带计数器的分类导航 三、层级分类导航实现 3.1 递归输出父子分类 3.2 使用Type…

C++异步编程工具 async promise-future packaged_task等

深入探讨 C11 中引入的四个核心异步编程工具&#xff1a;std::async, std::future, std::promise, 和 std::packaged_task。它们共同构成了 C 现代并发编程的基础。 为了更好地理解&#xff0c;我们可以使用一个餐厅点餐的类比&#xff1a; std::future (取餐凭证)&#xff1…

Linux-网络管理

网络管理1. 网络基础1.1 TCP/IP 协议栈&#xff08;四层模型&#xff09;1.2 网络设备配置与基础概念1.3 网络接口命名规则1.4 网络配置文件位置2. 常用网络配置命令2.1 查看网络接口信息2.2 配置 IP 地址2.3 启用/禁用网卡2.4 修改网卡 MAC 地址2.5 配置网卡的 MTU&#xff08…

Linux锁的概念及线程同步

目录 1.常见锁概念 死锁 死锁四个必要条件 避免死锁 避免死锁算法 2. Linux线程同步 条件变量 同步概念与竞态条件 条件变量函数 初始化 销毁 等待条件满足 唤醒等待 简单案例&#xff1a; 条件变量使用规范 1.常见锁概念 死锁 死锁是指在一组进程中的各个进程均占有不会释放的…