二、损失函数

  • 损失函数定义:损失函数是用来衡量模型参数的质量的函数,衡量方式是比较网络输出和真实输出的差异

  • 别名:损失函数(loss function),代价函数(cost function),目标函数(objective function),误差函数(error function)

1.多分类损失函数

  • 在多分类任务通常使用softmax将logits转换为概率的形式,所以多分类的交叉熵损失也叫做softmax损失,它的计算方法是:L=−∑i=1nyilog(S(fθ(xi)))L=-\sum_{i = 1}^ny_ilog(S(f_\theta(x_i)))L=i=1nyilog(S(fθ(xi)))
    • yiy_iyi:真实值标签(one_hot热编码)
    • f(x)f(x)f(x)是样本属于某一类别的预测分数
    • S(fθ(xi))S(f_\theta(x_i))S(fθ(xi)):网络输出结果的概率值
    • i=1i=1i=1:样本个数
  • 在pytorch中使用nn.CrossEntropyLoss()实现

2.二分类任务损失函数

  • 在处理二分类任务时, 使用sigmoid激活函数,则损失函数也会进行相应的调整,使用二分类的交叉熵损失函数:L=−ylogy^−(1−y)log(1−y^)L = -ylog\hat y-(1-y)log(1-\hat y)L=ylogy^(1y)log(1y^)
    • y是样本x中属于某一个类别的真实概率
    • y^\hat yy^是严格不能属于某一类别的预测概率
    • LLL用来衡量真实值y与预测值y^\hat yy^之间的差异性的损失结果
  • 在pytorch中使用nn.BCELoss()实现

3.回归任务损失函数-MAE损失函数

  • Mean absolute loss(MAE)也被称为L1 Loss,是以绝对误差作为距离,损失函数公式:L=1n∑i=1n∣yi=fθ(xi)∣L = \frac{1}{n}\sum_{i = 1}^n|y_i=f_\theta(x_i)|L=n1i=1nyi=fθ(xi)
  • 特点:
    • 由于L1 loss具有稀疏性,为了惩罚较大的值,因此常常将其作为正则项添加到其他loss中作为约束;
    • L1 loss的最大问题时梯度在零点不平滑,导致会跳过极小值(最优解)

4.回归任务损失函数-MSE损失函数

  • Mean Squared Loss/Quadratic Loss(MSE loss)也被称作L2 loss,或欧氏距离,它以误差的平方和的均值作为距离损失函数公式:L=1n∑i=1n(yi−fθ(xi))2L = \frac{1}{n}\sum_{i = 1}^n(y_i-f_{\theta(x_i)})^2L=n1i=1n(yifθ(xi))2
  • 特点:
    • L2 loss也常常作为正则项
    • 当预测值与目标值相差很大时,梯度容易爆炸(则尽量不会使用这种损失函数)

5.回归任务损失函数-smooth L1损失函数

  • smooth L1说的是光滑之后的L1,损失函数公式为:smoothL1(x)={0.5x2if ∣x∣<1∣x∣−0.5otherwise\text{smooth}_{L_1}(x) = \begin{cases} 0.5x^2 & \text{if } \vert x \vert < 1 \\ \vert x \vert - 0.5 & \text{otherwise} \end{cases}smoothL1(x)={0.5x2x0.5if x<1otherwise
    • 其中,x=f(x)−yx = f(x)-yx=f(x)y为真实值与预测值的差值
  • 从图像中可以看出,该函数实际上就是一个分段函数
    • [−1,1][-1, 1][1,1]之间实际上就是L2损失,这样解决了L1的不光滑问题
    • [−1,1][-1, 1][1,1]区间外,实际上就是L1损失,这样就解决了离群点梯度爆炸的问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/88225.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/88225.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/88225.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面向数据报的套接字通道技术详解

数据报通道基础 通道特性与创建方式 java.nio.channels.DatagramChannel类实例代表数据报通道&#xff0c;默认处于阻塞模式。通过configureBlocking(false)方法可将其配置为非阻塞模式。创建数据报通道需调用其静态open()方法&#xff0c;若用于IP组播则需指定组播组的地址类型…

147.在 Vue3 中使用 OpenLayers 地图上 ECharts 模拟飞机循环飞行

&#x1f9e9; 效果预览 &#x1f447; 飞机从多个城市起飞并向其他城市飞行&#xff0c;动画流畅&#xff0c;地图可缩放拖拽&#xff1a; &#x1f4e6; 一、项目技术栈 技术用途Vue 3现代前端框架OpenLayers地图底图渲染ECharts ol-echarts飞机飞行动画渲染ol-echarts将 …

OCR与PDF解析的区别

我们日常所接触的文档中&#xff0c;经常能碰到多语言混合的文档。比如论文试卷、财报研报、跨国票据都含有多种语言和文字。要将文档中的内容识别并提取务必需要使用到OCR技术&#xff0c;而传统的OCR工具在处理这类型文档的时候有局限性。早期的 OCR 系统识别精度有限&#x…

Java 单例类详解:从基础到高级,掌握线程安全与高效设计

作为一名Java开发工程师&#xff0c;你一定对**单例模式&#xff08;Singleton Pattern&#xff09;**不陌生。它是23种经典设计模式中最简单也是最常用的一种&#xff0c;用于确保一个类在整个应用程序中只有一个实例存在。单例广泛应用于系统配置、数据库连接池、日志管理器、…

面向对象设计

你列出的这些属于 C 高级开发中面向对象设计与架构设计的核心知识&#xff0c;也是面试高级工程师岗位必问的内容。下面我按顺序&#xff0c;深入讲解每一项概念、原理、用途&#xff0c;并穿插 C 示例。✅ 1. 设计原则&#xff08;SOLID&#xff09;SOLID 是面向对象设计的五大…

IntelliJ IDEA让我的开发效率翻倍:从新手到高效开发者的进阶之路

IntelliJ IDEA让我的开发效率翻倍&#xff1a;从新手到高效开发者的进阶之路 &#x1f31f; 嗨&#xff0c;我是IRpickstars&#xff01; &#x1f30c; 总有一行代码&#xff0c;能点亮万千星辰。 &#x1f50d; 在技术的宇宙中&#xff0c;我愿做永不停歇的探索者。 ✨ 用…

css sprites使用

CSS Sprites 是一种将多个小图标或背景图像合并到一个大图中的技术。通过减少HTTP请求次数&#xff0c;可以显著提高页面加载速度。其核心原理是&#xff1a;通过设置元素的背景图&#xff08;background-image&#xff09;为这个大图&#xff0c;然后调整背景位置&#xff08;…

分布式爬虫在电商平台商品数据大规模采集中的技术应用

在电商平台商品数据大规模采集场景中&#xff0c;分布式爬虫凭借其高效、可扩展、抗风险的特性&#xff0c;成为突破单节点爬虫性能瓶颈的核心技术方案。以下从技术架构、关键技术点、电商场景适配及挑战应对四个维度&#xff0c;解析其具体应用&#xff1a;一、分布式爬虫的核…

Linux的`if test`和`if [ ]中括号`的取反语法比较 笔记250709

Linux的if test和if 中括号的取反语法比较 笔记250709 Linux的 test命令&#xff08;或等价中括号写法 [空格expression空格]&#xff09;的用法详解. 笔记250709 四种取反语法: if ! test -e xxx ;then... 和 if test ! -e xxx ;then... 和 if ! [ -e xxx ] ;then... 和 if …

记录使用ubuntu16.04编译aosp(android8.1与10)遇到的问题

一、前言&#xff1a; 本来打算用wsl来编译AOSP&#xff0c;但是折腾了好几天&#xff0c;以失败告终。后来使用vmware反而成功了。 本篇同样会把wsl遇到的问题与尝试记录下来。 环境&#xff1a;vmware ubuntu16.04。 为什么会使用ubuntu16.04呢&#xff0c;因为在公司有一…

hiredis window之RFDMap

简介 RFDMap用于将socket分配映射成连续的文件描述符&#xff0c;同时管理回收的文件描述符&#xff0c;因为ae构架中管理fd与对应事件处理器使用的是数据&#xff0c;fd作为数组下标 结构 #mermaid-svg-zQz2LTrKRi0LQTII {font-family:"trebuchet ms",verdana,arial…

RustFS一款Rust 驱动的 高性能 分布式存储系统

演示地址&#xff1a;https://play.rustfs.com/browser 访问账号&#xff08;默认 rustfsadmin&#xff09;。 访问密钥&#xff08;默认 rustfsadmin&#xff09;。 下载mc https://dl.min.io/client/mc/release可以直接在 Linux 系统上安装 mc&#xff08;&#xff0c;然后访…

微软 Bluetooth LE Explorer 实用工具的详细使用分析

微软 Bluetooth LE Explorer 实用工具的详细使用分析 文章目录 微软 **Bluetooth LE Explorer** 实用工具的详细使用分析1. **工具定位与核心功能**2. **关键特性与更新**3. **使用场景示例**4. **系统要求与依赖**5. **与专业工具对比**6. **局限性**7. **实践建议**结论以下是…

centos 7.6安装mysql8

在 CentOS 7.6 上安装 MySQL 8.0.42 的步骤如下&#xff0c;基于搜索结果中的最新信息&#xff1a; 下载 MySQL 8.0.42 安装包 https://dev.mysql.com/downloads/mysql/从 MySQL 官方网站下载 mysql-8.0.42-1.el7.x86_64.rpm-bundle.tar 文件&#xff1a; 官方下载地址&#xf…

CentOS7更换阿里云yum源

问题&#xff1a;刚刚在本地安装了CentOS7虚拟机&#xff0c;使用yum安装vim软件时&#xff08;最小化安装只有vi没有vim&#xff09;出现下面的报错原因 &#xff1a;CentOS7 已于2024-6-30停止维护&#xff0c;官方镜像源已不可用&#xff0c;可以更换为阿里云镜像源解决&…

UE5内置插件 AnimToTexture 简单入门

开启插件 首先安装插件&#xff0c;然后重启。打开显示插件内容我们就可以找到插件自带的转换内容将骨骼网格体转换为顶点动画有两种方式&#xff1a; 最简单的记录每个顶点的位置然后通过切换拾取颜色偏移实现记录骨骼的变换&#xff0c;然后通过贴图去修改骨骼位置计算 这两种…

如何搭建Appium环境?

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快1、安装Java Development Kit&#xff08;JDK&#xff09;前往Oracle官网下载JDK。在https://www.oracle.com/java/technologies/javase-jdk11-downloads.html 找到…

Android kotlin 协程的详细使用指南

Android Kotlin 协程的详细使用指南&#xff0c;结合核心概念、实战场景和最佳实践&#xff1a;一、协程基础概念‌协程本质‌协程是轻量级线程&#xff0c;通过挂起/恢复机制实现并发&#xff0c;相比线程节省90%以上的内存开销。其核心优势在于结构化并发和挂起函数的协作式调…

什么是 AMR 格式?简鹿音频转换器轻松批量转换 AMR 为 MP3

AMR 格式是一种比较特殊但又常见的音频格式&#xff0c;而MP3 格式则是大家耳熟能详的通用音频格式。那么&#xff0c;它们之间有什么区别&#xff1f;又该如何把 AMR 文件转换成更常用的 MP3 呢&#xff1f;下面我们就来通俗地了解一下。一、什么是 AMR 格式&#xff1f;AMR&a…

C++11 std::move与std::move_backward深度解析

文章目录移动语义的革命性意义std::move&#xff1a;正向范围移动函数原型与核心功能关键特性与实现原理适用场景与代码示例危险区域&#xff1a;重叠范围的未定义行为std::move_backward&#xff1a;反向安全移动函数原型与核心功能关键特性与实现原理适用场景与代码示例重叠范…