引言

当你第一次看到线性回归时,你是否注意到了作为参数优化关键的损失函数(均方损失),你是否能够理解它的本质和由来。其实,在我第一次接触时,我是感到有些惊讶的,然后试着去强行理解它,而没有想到它的背后其实有一个数学理论作为支撑——最大似然估计。

最大似然估计

最大似然估计(Maximum Likelihood Estimation,MLE)是一种在统计学和机器学习中用于估计模型参数的方法。其核心思想是:在已知观测数据的情况下,寻找使得观测数据出现概率最大的模型参数值。(核心在于概率最大)

似然函数

我们的目的就是把上面的似然函数变成最大。

下面我们将以均方损失和交叉熵损失作为案例进行说明。

均方损失(MSE):对应 “观测噪声服从高斯分布” 的 MLE

概率假设:模型预测误差服从高斯分布

theta是参数,也就是均值和方差。

构建对数似然函数

最大化对数似然 → 最小化 MSE

结论

均方损失是 “假设回归任务的观测噪声服从高斯分布” 时,最大似然估计的等价损失函数(即负对数似然)。

交叉熵损失:对应 “类别标签服从伯努利 / 多项式分布” 的 MLE

交叉熵损失是分类任务(输出为离散类别概率,如判断图像是猫 / 狗 / 鸟)中最常用的损失函数,分为二分类多分类两种形式:

二分类为例(多分类同理,只需将伯努利分布扩展为多项式分布):

概率假设:类别标签服从伯努利分布

这个函数设计地很巧妙。

构建对数似然函数

最大化对数似然 → 最小化交叉熵

多分类的扩展

结论

交叉熵损失是 “假设分类任务的类别标签服从伯努利分布(二分类)或多项式分布(多分类)” 时,最大似然估计的等价损失函数(即负对数似然)。

核心对比:MSE 与交叉熵的 MLE 本质差异

两种损失函数的根本区别源于对 “标签生成过程” 的概率假设不同,而这种假设又由任务类型(回归 / 分类)决定:

损失函数适用任务背后的概率分布假设MLE 关联(等价性)
均方损失(MSE)回归(连续输出)观测噪声~高斯分布最小化 MSE = 最大化高斯分布下的对数似然
交叉熵损失(CE)分类(离散类别)类别标签~伯努利 / 多项式分布最小化 CE = 最大化伯努利 / 多项式分布下的对数似然

怎么说呢?感觉还是很神奇的,损失函数竟然就这么水灵灵的被推导出来了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921465.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921465.shtml
英文地址,请注明出处:http://en.pswp.cn/news/921465.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 n8n 结合通义千问大模型构建业务数据库分析智能体

一、项目概述 本项目致力于构建一个结合 n8n 工作流引擎 与 通义千问大模型 的智能体,旨在对庞大的业务数据库进行自动化分析、语义建模及自然语言问答。通过不同工作流的迭代构建,实现了表结构解析、业务含义提取、关系可视化、问答服务等能力&#xff…

css margin外边距重叠/塌陷问题

一、定义 相邻块级元素或父子元素的垂直外边距会合并&#xff08;折叠&#xff09;为单个边距&#xff0c;其大小为单个边距的最大值&#xff08;或如果他们相等&#xff0c;则仅为其中的一个&#xff09;&#xff0c;这种行为称为边距折叠 <div style"margin-bottom: …

可重复读 是否“100%”地解决幻读?

这是一个非常深刻的问题&#xff0c;答案是&#xff1a;几乎解决了&#xff0c;但在一个非常特殊且罕见的边界场景下&#xff0c;理论上仍然可能出现幻读。 因此&#xff0c;严格来说&#xff0c;它并非被“彻底”或“100%”地解决。下面我们来详细分解这个结论&#xff1a;1. …

从零开始的云计算生活——第五十八天,全力以赴,Jenkins部署

目录 一.故事背景 二.安装Jenkins必要插件 1.安装Publish Over SSH 2.安装maven integration插件 3. 配置jenkins并发执行数量 4. 配置邮件地址 三. 基于Jenkins部署PHP环境 1. 下载ansible插件 2. 下载ansible应用 3. 构建项目 ​编辑 使用Jenkins账户生成ssh密钥 …

串口HAL库发送问题

想了很久&#xff0c;不知道该标题起的是否合适&#xff0c;该篇Blog用于记录在使用HAL库的USART模块时实际遇到的一个涉及发送方式的问题&#xff0c;用于提醒自身同时也希望能帮到各位。程序问题叙述先来看一段代码&#xff1a;void CusUSART_SendByte_IT( uint8_t Byte ) { …

CUDA默认流的同步行为

默认流 对于需要指定 cudaStream_t参数的 cuda API&#xff0c;如果将 0作为实参传入&#xff0c;则视为使用默认流&#xff1b;对于不需要指定 cudaStream_t参数的 cuda API&#xff0c;则也视为使用默认流。 在 cuda中&#xff0c;默认流有两种类型&#xff0c;一种是 legacy…

「数据获取」《中国电力统计年鉴》(1993-2024)(含中国电力年鉴)

01、数据简介一、《中国电力统计年鉴》作为全面系统反映中国电力领域发展状况的权威性年度统计资料&#xff0c;涵盖了电力建设、生产、消费及供需等全链条关键信息。其编制工作有着深厚的历史积淀&#xff0c;可追溯至 20 世纪 50 年代&#xff0c;历经数十年的积累与完善&…

《AI大模型应知应会100篇》第68篇:移动应用中的大模型功能开发 —— 用 React Native 打造你的语音笔记摘要 App

&#x1f4f1; 第68篇&#xff1a;移动应用中的大模型功能开发 —— 用 React Native 打造你的语音笔记摘要 App &#x1f3af; 核心目标&#xff1a;零门槛集成大模型&#xff0c;5步开发跨平台智能功能 &#x1f9e9; 适用人群&#xff1a;前端开发者、产品经理、独立开发者 …

FPGA ad9248驱动

ad9248的最高时钟频率65mhz&#xff0c;采用cmos3.3v电压的并行io接口&#xff0c;做成电子模块后一般为双通道adc&#xff0c;有两个对外输出时钟cha_clk与chb_clk&#xff0c;一个并行输入端口&#xff0c;14分辨率的ddr_data&#xff0c;其模块逻辑如下&#xff0c;首先向ad…

Spring MVC 处理请求的流程

Spring MVC 处理请求的流程流程步骤详解第1步&#xff1a;发起请求 (HTTP Request)第2步&#xff1a;映射处理器 (Handler Mapping)第3步&#xff1a;获取适配器 (Handler Adapter)第4步&#xff1a;执行拦截器前置处理 (Interceptors - preHandle)第5步&#xff1a;真正调用处…

敏捷scrum管理实战经验总结

1.敏捷 敏捷的构成 敏捷由实践来源、应用场景、组织文化、领导力、团队、需求、管理、技术、质量、度量、交付、过程改进、大型项目组合管理以及受监管行业中的敏捷等构成 敏捷开发的特点 短发布周期小批量的方式、开展从需求到实现的开发工作高层级的预先规划结合详细的即时规…

南科大适应、协同与规划的完美融合!P³:迈向多功能的具身智能体

作者&#xff1a;Shengli Zhou1^{1}1, Xiangchen Wang1^{1}1, Jinrui Zhang1^{1}1, Ruozai Tian2^{2}2, Rongtao Xu2,3^{2,3}2,3, Feng Zheng1,2^{1,2}1,2单位&#xff1a;1^{1}1南方科技大学&#xff0c;2^{2}2时空智能&#xff0c;3^{3}3穆罕默德本扎耶德人工智能大学论文标题…

自动化流水线

import React, { useState, useEffect } from ‘react’; import { ChevronRight, CheckCircle, Circle, AlertCircle, Clock, Play, Pause, Settings, Code, Server, Shield, Database, Globe, Zap, FileText, Users, GitBranch, Package, Monitor, ChevronDown } from ‘luci…

【高等数学】第十一章 曲线积分与曲面积分——第三节 格林公式及其应用

上一节&#xff1a;【高等数学】第十一章 曲线积分与曲面积分——第二节 对坐标的曲线积分 总目录&#xff1a;【高等数学】 目录 文章目录1. 格林公式2. 平面上曲线积分与路径无关的条件3. 二元函数的全微分求积4. 曲线积分的基本定理1. 格林公式 单连通与复连通区域 设 DDD …

Boost电路:平均状态空间建模

电路特征介绍如图所示是一个非理想情况下的boost电路&#xff0c;其中L1L_{1}L1​和RL1R_{L1}RL1​是分别是电感和串联电阻&#xff1b;C1C_{1}C1​和RC1R_{C1}RC1​是输出电容和串联电阻&#xff1b;Q1Q_{1}Q1​是MOS管&#xff0c;其导通电阻是RonR_{on}Ron​&#xff1b;D1D…

免费网站模板/网站模板建站的优势/如何下载网站模板搭建网站?

在网站建设领域&#xff0c;“网站模板” 是降低技术门槛、提升建站效率的核心工具&#xff0c;尤其适合非专业开发者或追求低成本、快上线的需求场景。下面从定义、核心优势两方面展开详细解析&#xff0c;帮助你全面理解其价值。 一、什么是网站模板&#xff1f; 网站模板&am…

【MATLAB例程】平面上的组合导航例程,使用EKF融合IMU和GNSS数据,8维状态量和2维观测量,附代码下载链接

文章目录程序详解概述系统架构核心数学模型性能评估算法特点运行结果MATLAB源代码程序详解 概述 本代码实现基于扩展卡尔曼滤波器&#xff08;EKF&#xff09;的二维组合导航系统&#xff0c;融合IMU&#xff08;惯性测量单元&#xff09;和GNSS&#xff08;全球导航卫星系统…

react生命周期,详细版本

React 组件的生命周期分为三个阶段:挂载(Mounting)、更新(Updating) 和 卸载(Unmounting)。以下是类组件生命周期的详细说明(基于 React 16.3+ 版本): 一、挂载阶段(Mounting) 组件实例被创建并插入 DOM 时的流程: constructor(props) ○ 用途:初始化状态(this…

腾讯最新开源HunyuanVideo-Foley本地部署教程:端到端TV2A框架,REPA策略+MMDiT架构,重新定义视频音效新SOTA!

一、模型介绍HunyuanVideo-Foley 是腾讯混元团队在2025年8月底开源的一款端到端视频音效生成模型。它旨在解决AI生成视频“有画无声”的痛点&#xff0c;通过输入视频和文本描述&#xff0c;就能自动生成电影级别的同步音效&#xff0c;显著提升视频的沉浸感。它是专为视频内容…

计算机原理(二)

计算机原理系列 欢迎大家关注「海拉鲁知识大陆」 多交流不迷路 计算机原理&#xff08;一&#xff09; 继续上一篇计算机原理&#xff08;一&#xff09;深入了解程序执行部分&#xff0c;进一步说说程序在冯诺依曼模型上如何执行。如果没有了解的童鞋可以查看我上一篇文章。…