目录

  • 1. 似然函数的定义
  • 2. 对数似然函数的定义
  • 3. 负对数似然函数的定义
  • 4. 负对数似然函数的优化
  • 5. 具体应用示例
    • 5.1 逻辑回归中的负对数似然函数
    • 5.2 优化逻辑回归的负对数似然函数

1. 似然函数的定义

似然函数L(θ∣X)L(\theta | X)L(θX)是在给定参数θ\thetaθ 下,观测数据XXX出现的概率。它是统计推断中的一个核心概念,用于衡量在特定参数假设下,观测数据的合理性。

假设我们有一组观测数据X={x1,x2,…,xn}X = \{x_1, x_2, \dots, x_n\}X={x1,x2,,xn},并且假设这些数据是独立同分布的(i.i.d.)(i.i.d.)i.i.d.,那么似然函数可以表示为所有观测数据概率的乘积:

L(θ∣X)=∏i=1nP(xi∣θ)L(\theta | X) = \prod_{i=1}^{n} P(x_i | \theta) L(θX)=i=1nP(xiθ)

其中:

  • θ\thetaθ是模型的参数,例如线性回归中的权重和偏置,或者逻辑回归中的权重向量。
  • P(xi∣θ)P(x_i | \theta)P(xiθ)是在参数 θ\thetaθ下,第iii 个数据点 xix_ixi出现的概率。

示例:假设有一个简单的硬币抛掷实验,硬币正面朝上的概率为θ\thetaθ,反面朝上的概率为 1−θ1 - \theta1θ。如果进行了 nnn 次独立的抛掷,观察到正面朝上的次数为 kkk,那么似然函数可以表示为:

L(θ∣k,n)=θk(1−θ)n−kL(\theta | k, n) = \theta^k (1 - \theta)^{n - k} L(θk,n)=θk(1θ)nk



2. 对数似然函数的定义

对数似然函数 ℓ(θ∣X)\ell(\theta | X)(θX)是似然函数的自然对数。它将似然函数的乘积形式转换为求和形式,便于计算和优化。

ℓ(θ∣X)=log⁡L(θ∣X)=log⁡(∏i=1nP(xi∣θ))=∑i=1nlog⁡P(xi∣θ)\ell(\theta | X) = \log L(\theta | X) = \log \left( \prod_{i=1}^{n} P(x_i | \theta) \right) = \sum_{i=1}^{n} \log P(x_i | \theta) (θX)=logL(θX)=log(i=1nP(xiθ))=i=1nlogP(xiθ)

为什么要取对数?

  1. 简化计算:将乘积转换为求和,避免数值下溢或上溢问题。
  2. 数学性质:对数函数是单调递增的,因此最大化对数似然函数等价于最大化似然函数。
  3. 统计意义:对数似然函数在统计推断中具有良好的性质,例如渐近正态性。



3. 负对数似然函数的定义

负对数似然函数 NLL(θ∣X)\text{NLL}(\theta | X)NLL(θX)是对数似然函数的负值。它将最大化似然函数的问题转化为最小化损失函数的问题,便于在机器学习中使用优化算法。

NLL(θ∣X)=−ℓ(θ∣X)=−∑i=1nlog⁡P(xi∣θ)\text{NLL}(\theta | X) = -\ell(\theta | X) = -\sum_{i=1}^{n} \log P(x_i | \theta) NLL(θX)=(θX)=i=1nlogP(xiθ)

为什么要取负值?
在机器学习中,优化问题通常被表述为最小化某个损失函数。取负对数似然函数的目的是将最大化似然函数的问题转化为最小化损失函数的问题。具体来说:

  • 最大化似然函数max⁡θℓ(θ∣X)\max_{\theta} \ell(\theta | X)maxθ(θX)
  • 最小化负对数似然函数min⁡θNLL(θ∣X)\min_{\theta} \text{NLL}(\theta | X)minθNLL(θX)

这两个优化问题是等价的,因为对数函数是单调递增的。


4. 负对数似然函数的优化

在实际应用中,通常通过最小化负对数似然函数来估计模型参数 θ\thetaθ。具体步骤如下:

  1. 定义模型:选择一个概率模型 P(x∣θ)P(x | \theta)P(xθ),例如高斯分布、伯努利分布等。
  2. 计算负对数似然函数:根据模型和数据,计算负对数似然函数 NLL(θ∣X)\text{NLL}(\theta | X)NLL(θX)
  3. 优化参数:通过梯度下降或其他优化算法,最小化负对数似然函数,找到最优参数 θ^\hat{\theta}θ^

梯度下降法:假设使用梯度下降法来优化参数θ\thetaθ。梯度下降的更新规则为:

θnew=θold−η∇θNLL(θ∣X)\theta_{\text{new}} = \theta_{\text{old}} - \eta \nabla_{\theta} \text{NLL}(\theta | X) θnew=θoldηθNLL(θX)

其中:

  • η\etaη 是学习率,控制每次迭代的步长。
  • ∇θNLL(θ∣X)\nabla_{\theta} \text{NLL}(\theta | X)θNLL(θX) 是负对数似然函数对参数θ\thetaθ 的梯度。



5. 具体应用示例

5.1 逻辑回归中的负对数似然函数

假设有一个二分类问题,使用逻辑回归模型。逻辑回归模型的输出是样本属于类别 1 的概率:

P(y=1∣x,θ)=σ(θTx)P(y = 1 | x, \theta) = \sigma(\theta^T x) P(y=1∣x,θ)=σ(θTx)

其中 σ(z)=11+e−z\sigma(z) = \frac{1}{1 + e^{-z}}σ(z)=1+ez1是 Sigmoid 函数。

对于二分类问题,似然函数可以表示为:

L(θ∣X,y)=∏i=1nP(yi∣xi,θ)L(\theta | X, y) = \prod_{i=1}^{n} P(y_i | x_i, \theta) L(θX,y)=i=1nP(yixi,θ)

其中yi∈{0,1}y_i \in \{0, 1\}yi{0,1}是第 iii个样本的标签。

对数似然函数为:

ℓ(θ∣X,y)=∑i=1nlog⁡P(yi∣xi,θ)=∑i=1n[yilog⁡σ(θTxi)+(1−yi)log⁡(1−σ(θTxi))]\ell(\theta | X, y) = \sum_{i=1}^{n} \log P(y_i | x_i, \theta) = \sum_{i=1}^{n} \left[ y_i \log \sigma(\theta^T x_i) + (1 - y_i) \log (1 - \sigma(\theta^T x_i)) \right] (θX,y)=i=1nlogP(yixi,θ)=i=1n[yilogσ(θTxi)+(1yi)log(1σ(θTxi))]

负对数似然函数为:

NLL(θ∣X,y)=−∑i=1n[yilog⁡σ(θTxi)+(1−yi)log⁡(1−σ(θTxi))]\text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i \log \sigma(\theta^T x_i) + (1 - y_i) \log (1 - \sigma(\theta^T x_i)) \right] NLL(θX,y)=i=1n[yilogσ(θTxi)+(1yi)log(1σ(θTxi))]

5.2 优化逻辑回归的负对数似然函数

为了优化逻辑回归模型的参数θ\thetaθ,需要计算负对数似然函数的梯度:

∇θNLL(θ∣X,y)=−∑i=1n[yi∂∂θlog⁡σ(θTxi)+(1−yi)∂∂θlog⁡(1−σ(θTxi))]\nabla_{\theta} \text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i \frac{\partial}{\partial \theta} \log \sigma(\theta^T x_i) + (1 - y_i) \frac{\partial}{\partial \theta} \log (1 - \sigma(\theta^T x_i)) \right] θNLL(θX,y)=i=1n[yiθlogσ(θTxi)+(1yi)θlog(1σ(θTxi))]

通过链式法则,可以得到:

∂∂θlog⁡σ(θTxi)=σ′(θTxi)σ(θTxi)xi\frac{\partial}{\partial \theta} \log \sigma(\theta^T x_i) = \frac{\sigma'(\theta^T x_i)}{\sigma(\theta^T x_i)} x_i θlogσ(θTxi)=σ(θTxi)σ(θTxi)xi

∂∂θlog⁡(1−σ(θTxi))=−σ′(θTxi)1−σ(θTxi)xi\frac{\partial}{\partial \theta} \log (1 - \sigma(\theta^T x_i)) = \frac{-\sigma'(\theta^T x_i)}{1 - \sigma(\theta^T x_i)} x_i θlog(1σ(θTxi))=1σ(θTxi)σ(θTxi)xi

其中 σ′(z)=σ(z)(1−σ(z))\sigma'(z) = \sigma(z)(1 - \sigma(z))σ(z)=σ(z)(1σ(z))是 Sigmoid 函数的导数。

因此,负对数似然函数的梯度可以简化为:

∇θNLL(θ∣X,y)=−∑i=1n[yiσ(θTxi)(1−σ(θTxi))σ(θTxi)xi−(1−yi)σ(θTxi)(1−σ(θTxi))1−σ(θTxi)xi]\nabla_{\theta} \text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i \frac{\sigma(\theta^T x_i)(1 - \sigma(\theta^T x_i))}{\sigma(\theta^T x_i)} x_i - (1 - y_i) \frac{\sigma(\theta^T x_i)(1 - \sigma(\theta^T x_i))}{1 - \sigma(\theta^T x_i)} x_i \right] θNLL(θX,y)=i=1n[yiσ(θTxi)σ(θTxi)(1σ(θTxi))xi(1yi)1σ(θTxi)σ(θTxi)(1σ(θTxi))xi]

进一步简化为:

∇θNLL(θ∣X,y)=−∑i=1n[yi(1−σ(θTxi))−(1−yi)σ(θTxi)]xi\nabla_{\theta} \text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i (1 - \sigma(\theta^T x_i)) - (1 - y_i) \sigma(\theta^T x_i) \right] x_i θNLL(θX,y)=i=1n[yi(1σ(θTxi))(1yi)σ(θTxi)]xi

最终得到:

∇θNLL(θ∣X,y)=−∑i=1n[yi−σ(θTxi)]xi\nabla_{\theta} \text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i - \sigma(\theta^T x_i) \right] x_i θNLL(θX,y)=i=1n[yiσ(θTxi)]xi

这个公式是逻辑回归模型中负对数似然函数的梯度,它在模型训练中用于参数的优化。



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97509.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97509.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/97509.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙地址选择库(ArkTs UI)

功能点:支持三级联动、点击确认返回省市区code及name(安心)、布局可以高度自定义 实现:TextPicker读取本地json(也可用第三方的json 不过需要自行调整了) 先上图吧、废话下面再说: 凑和看吧、…

YOLO 目标检测:数据集构建(LabelImg 实操)、评估指标(mAP/IOU)、 NMS 后处理

文章目录基本知识介绍1.视觉处理三大任务2.训练、验证、测试、推理3.数据集3.1 数据集格式3.2 数据集标注4.上游任务和下游任务YOLO指标1.真实框(Ground Truth Box)与边界框(Bounding Box)2.交并比(IOU)3.置…

进程状态 —— Linux内核(Kernel)

🎁个人主页:工藤新一 🔍系列专栏:C面向对象(类和对象篇) 🌟心中的天空之城,终会照亮我前方的路 🎉欢迎大家点赞👍评论📝收藏⭐文章 文章目录进…

计算机视觉与深度学习 | 低照度图像处理算法综述:发展、技术与趋势

文章目录 一、发展历程:从传统模型到智能融合 (一)传统模型构建阶段(1970s-2016) (二)深度学习应用阶段(2017-2020) (三)硬件-算法协同阶段(2021至今) 二、技术分类与性能对比 (一)传统方法体系 (二)深度学习方法 1. 监督学习模型 2. 无监督/自监督方法 3. 混…

责任链模式实践-开放银行数据保护及合规

责任链模式介绍什么是责任链模责任链模式是一种行为设计模式, 允许你将请求沿着处理者链进行发送。 收到请求后, 每个处理者均可对请求进行处理, 或将其传递给链上的下个处理者。责任链模式结构伪代码基于责任链的开放银行数据保护及合规实践…

npm install --global @dcloudio/uni-cli 时安装失败

这个日志显示在执行 npm install --global dcloudio/uni-cli 时安装失败,核心错误是 UNABLE_TO_GET_GET_ISSUER_CERT_LOCALLY(无法获取本地颁发者证书),属于 HTTPS 证书验证失败 问题。错误原因npm 访问官方 registry(…

吱吱企业通讯软件可私有化部署,构建安全可控的通讯办公平台

在当今激烈的市场竞争环境中,企业通讯已成为制胜的关键因素。吱吱作为一款专为企业管理设计的IM即时办公通讯软件,提供了高度安全的通讯办公环境,确保信息在内部流通的安全性与高效性,为企业数字化转型奠定了坚实的基础。 一、私有…

暄桐:唯有认真思考过死亡,才足以应对日常

暄桐是一间传统美学教育教室,创办于2011年,林曦是创办人和授课老师,教授以书法为主的传统文化和技艺,皆在以书法为起点,亲近中国传统之美,以实践和所得,滋养当下生活。初听庄子在妻子离世后“鼓…

目标检测领域基本概念

基于提议的方法,也常被称为两阶段 (Two-stage) 方法,是目标检测领域的经典范式。它们将目标检测任务分解为两个主要步骤:阶段一:区域提议 (Region Proposal Generation) 目标: 在图像中生成一系列可能包含物体的候选区…

【开题答辩全过程】以 基于SpringBoot的流浪猫狗领养系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

扣子(coze)实践指南进阶篇——创建工作流,并将工作流接入智能体

大家好,欢迎阅读这份《智能体(AIAgent)开发指南》! 在大模型和智能体快速发展的今天,很多朋友希望学习如何从零开始搭建一个属于自己的智能体。本教程的特点是 完全基于国产大模型与火山推理引擎实现,不用翻…

【STM32】外部中断(上)

【STM32】外部中断前言一、中断系统1.1 什么是中断1.2 中断优先级1.3 中断嵌套1.4 中断执行流程二、NVIC2.1NVIC基本结构2.2 NVIC优先级分组三、EXTI3.1 EXTI 外部中断(Extern Interrupt)3.2 EXTI基本结构3.3 AFIO复用IO口3.4 EXTI内部框图前言 【STM32…

TimeDP Learning to Generate Multi-Domain Time Series with Domain Prompts论文阅读笔记

TimeDP Learning to Generate Multi-Domain Time Series with Domain Prompts 摘要 在跨域时序数据生成任务中,提出使用”时间序列语义原型“模块定义时间序列原型来表示时间序列基,每个原型向量作为“词”表示一些基本的时间序列特征。应用原型分配模块…

Ubuntu安装NVIDIA显卡驱动

清理旧驱动 sudo apt purge nvidia* libnvidia* sudo apt autoremovesudo find /etc -name *nvidia* -exec sudo rm -rf {} sudo rm -rf /usr/local/cuda*禁用 nouveau echo blacklist nouveau options nouveau modeset0 | sudo tee /etc/modprobe.d/blacklist-nouveau.conf…

硬件工程师成长之路:从入门到精通的技术旅程

文章目录前言第一阶段:基础知识的积累理论知识储备动手实践第二阶段:专业技能的提升PCB设计嵌入式系统开发第三阶段:专业方向的选择射频(RF)工程电源设计高速数字电路FPGA/ASIC设计第四阶段:工程管理与视野…

PyTorch 张量(Tensor)详解:从基础到实战

1. 引言在深度学习和科学计算领域,张量(Tensor) 是最基础的数据结构。PyTorch 作为当前最流行的深度学习框架之一,其核心计算单元就是张量。与 NumPy 的 ndarray 类似,PyTorch 张量支持高效的数值计算,但额…

CPTS---Hospital

端口扫描 nmap -A -p- -n -Pn -T4 10.10.11.241 22/tcp open ssh OpenSSH 9.0p1 Ubuntu 1ubuntu8.5 (Ubuntu Linux; protocol 2.0) | ssh-hostkey: | 256 e1:4b:4b:3a:6d:18:66:69:39:f7:aa:74:b3:16:0a:aa (ECDSA) |_ 256 96:c1:dc:d8:97:20:95:e7:01:5…

【贪心算法】day5

📝前言说明: 本专栏主要记录本人的贪心算法学习以及LeetCode刷题记录,按专题划分每题主要记录:(1)本人解法 本人屎山代码;(2)优质解法 优质代码;&#xff…

软考中级【网络工程师】第6版教材 第4章 无线通信网 (上)

考点分析: 重要程度:⭐⭐⭐ 选择题考查1 ~ 3分,案例分析可能考查填空和简答 高频考点:802.11信道与频段、CSMA/CA、无线网络优化、无线认证、无线配置步骤 新教材变化:新增4G/5G、删除无线城域网 本章将详述蜂窝移动通信系统、无线局域网以及无线个人网的体系结构和实用技…

vscode+EIDE+Clangd环境导入keil C51以及MDK工程

我最近一直在使用vscodeclangd的编译环境替代了vscode自带的c/c插件。感觉clangd的环境更加优秀,能够更好找到函数、全局变量等定义调用等。如果使用keil C51以及MDK环境开发51单片机或者STM32单片机就需要使用到了EIDE这个插件这个插件现在能够自动生成compile_com…