主题

1

2

​核心模型​

线性回归 → 神经网络

Softmax回归

​解决问题​

回归问题(预测连续值)

分类问题(预测离散类别)

​关键创新​

引入激活函数解决线性不可分问题

引入独热编码和交叉熵损失解决分类问题

​优化算法​

梯度下降法 → 小批量随机梯度下降(SGD)

小批量随机梯度下降(SGD)

​核心概念​

损失函数(MSE)、学习率、Batch Size

损失函数(交叉熵)、独热编码、全连接层

1. 从线性回归到神经网络
  • ​基础​​:神经网络起源于线性回归(Y = W * X + B),最简单的神经网络就是一个线性模型。

  • ​局限性​​:纯线性模型无法解决复杂(如异或)问题。

  • ​解决方案​​:引入​​激活函数​​(如ReLU),为模型加入非线性变换,使其能够学习复杂模式。

2. 模型训练的核心:损失函数与优化
  • ​目标​​:通过调整参数(W, B)来最小化​​损失函数​​。

  • ​回归问题​​:使用​​均方误差(MSE)​​ 损失函数。

  • ​分类问题​​:使用​​交叉熵损失​​函数。

  • ​优化方法​​:使用​​梯度下降法​​,通过计算梯度并沿反方向更新参数来最小化损失。

  • ​实践策略​​:采用​​小批量随机梯度下降(SGD)​​,这是一种权衡了计算效率和稳定性的常用方法。

3. 分类问题的特殊处理
  • ​输出表示​​:使用​​Softmax回归​​将输出转换为概率分布,所有类别概率之和为1。

  • ​标签表示​​:使用​​独热编码​​将类别标签转换为向量形式,避免模型产生错误的数值偏见。

4. 关键超参数
  • ​学习率(Learning Rate)​​:控制参数更新的步长,是最重要的超参数之一。

  • ​批量大小(Batch Size)​​:每次参数更新时使用的样本数量,影响训练速度和稳定性。

5. 网络结构
  • ​全连接层​​:一种基本的神经网络层,该层的每个神经元都与前一层的所有神经元相连。

​6. 核心模型与概念​
  • ​线性回归​

    • 基础形式:Y = W * X + B(权重W,偏置B)

    • 应用场景:预测连续值(如房价估计)

    • 局限性:无法解决非线性问题(如异或问题)。

  • ​神经网络​

    • ​激活函数​​(如ReLU):引入非线性,使模型能学习复杂模式。

    • ​全连接层​​:每一层的神经元与前一层的所有神经元相连。

  • ​Softmax回归​

    • 用于多类分类问题(如手写数字识别、图像分类)。

    • 输出为概率分布(非负,和为1),通过exp运算实现。

    • 示例:输入[1, -1, 2]→ Softmax输出[0.26, 0.04, 0.7]

​7. 模型训练与优化​
  • ​损失函数​

    • ​回归问题​​:均方误差(MSE/L2损失)、L1损失、Huber损失。

    • ​分类问题​​:交叉熵损失(比较预测概率分布与真实标签)。

  • ​优化算法​

    • ​梯度下降法​​:

      • 核心思想:沿梯度反方向更新参数,逐步最小化损失函数。

      • ​梯度​​:指向函数值下降最快的方向,但不保证全局最优。

    • ​随机梯度下降(SGD)​​:

      • 每次随机选取一个样本计算梯度,高效但波动大。

    • ​小批量随机梯度下降(Mini-batch SGD)​​:

      • 折中方案:每次用一小批(Batch)数据计算梯度。

      • ​超参数​​:

        • ​批量大小(Batch Size)​​:过小浪费计算资源,过大降低收敛速度。

        • ​学习率(Learning Rate)​​:过大易震荡,过小收敛慢。

8. 分类任务实践​
  • ​从回归到分类的扩展​

    • 回归:输出单个连续值(如房价)。

    • 分类:输出多个值(每类的置信度),通过Softmax转为概率。

    • 示例任务:

      • MNIST(10类手写数字)、ImageNet(1000类物体)、Kaggle蛋白质图像分类(28类)。

  • ​独热编码(One-Hot Encoding)​

    • 将类别标签转为向量形式(如“猫”→[1, 0, 0]),避免数值偏见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/98110.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/98110.shtml
英文地址,请注明出处:http://en.pswp.cn/web/98110.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端开发的破局与突围:AI赋能、全栈架构与跨端开发新路径

作为一名前端开发者,你是否曾感到焦虑:技术迭代太快,竞争越来越激烈?别担心,新的机遇正在涌现!本文将带你探索前端开发的新出路。 这里写目录标题 前言:前端开发的现状与挑战 一、AI赋能:从"代码编写"到"智能协作" 1. AI代码助手大幅提升开发效率 …

Java 在 Excel 中查找并高亮数据:详细教程

在日常的开发工作中,我们经常需要处理各种格式的数据,其中 Excel 文件因其广泛的应用而占据重要地位。面对海量的 Excel 数据,如何高效地查找特定内容并进行标记(如高亮显示),成为了许多开发者和办公自动化…

Tessent_ijtag_ug——第 5 章IJTAG 网络插入 (1)

第 5 章IJTAG 网络插入 IJTAG 网络插入功能使您能够连接现有的instrument,并插入 SIB、TDR 和 ScanMux 以创建您自己的 IJTAG 网络。 IJTAG 网络插入功能使您能够将网络连接到 TAP 控制器或设计中已有的 TAP 控制器。IJTAG 网络插入的原理是使用 create_dft_specifi…

同步与互斥学习笔记

一、基本概念同步与互斥是多任务/多线程编程中的两个核心机制:同步:指多个任务之间存在明确的先后顺序,一个任务必须等待另一个任务完成某些操作后才能继续执行。互斥:指多个任务在同一时刻争抢使用同一资源(临界资源&…

Tomcat 启动流程与类加载机制

Tomcat 启动流程与类加载机制1. 引言 Tomcat 的启动不仅仅是简单的 java -jar 或 catalina.sh start。 它背后包含 Bootstrap 启动器、Catalina 控制器、Server/Service/Connector/Container 初始化 等关键步骤。 另一方面,Tomcat 为了支持 热部署、不同应用间类隔离…

MTK Linux Charger驱动分析(十二)- mtk_pd_adapter.c

1. 代码整体分析 mtk_pd_adapter.c(源文件) 主要内容: 该文件实现了MediaTek平台的USB PD(Power Delivery)适配器驱动,基于Linux内核的电源管理和Type-C端口控制器(TCPC)框架。 它处理PD协议事件,包括PD连接状态、Type-C状态、水检测(WD_STATUS)、Sink VBUS变化等。…

Spring Boot Logback 日志配置详解:从基础到分布式追踪

日志是应用程序不可或缺的组成部分,它不仅能帮助我们调试问题,还能监控系统运行状态。在 Spring Boot 生态中,Logback 凭借其高性能和灵活性成为首选的日志框架。本文将通过一个实际的 Logback 配置文件,详细解析其各个组件的功能…

软件体系结构——后端三层架构

三层架构——Controller、Service、Dao 不仅是对代码进行的逻辑分层。其真正的本质,是将业务、技术和数据剥离。搞业务的专心做业务,搞技术的专心搞技术,做数据存储的专心做数据存储。三方通过接口进行对接,任一部分重构&#xff…

QML学习笔记(一)基本了解和工程配置

前言: 已经从事QT开发几年了,但对于QML这个东西始终是没有彻底掌握,一方面实际工作中没有用到过,其次它的语法对我来说是全新的东西,不像QWidget那一套可以直接在C中去写。这就是为什么网上都说qml更简单,我…

SAP HANA Scale-out 04:缓存

结果缓存静态结果缓存 Vs 动态结果缓存FeatureStatic Result CacheDynamic Result CacheTarget Scenario对复杂视图(通常是顶层视图)的查询频繁更新的大表(例如ACDOCA)上的聚合查询Query result非实时数据实时数据ScopeTarget obj…

嘉兴禾润 HTR7216 (S) LED 驱动芯片:特性与应用

在如今智能设备飞速普及的时代,无论是智能家居的氛围营造、IoT 设备的状态提示,还是个人消费电子的视觉呈现,都离不开高性能 LED 驱动芯片的支撑。嘉兴禾润推出的 HTR7216 (S) LED 驱动芯片,凭借丰富的功能、精准的控制以及出色的…

Python实现剑龙优化算法 (Stegosaurus Optimization Algorithm, SOA)优化函数(付完整代码)

Python实现剑龙优化算法 (Stegosaurus Optimization Algorithm, SOA)优化函数(付完整代码)1.剑龙优化算法介绍剑龙优化算法(Stegosaurus Optimization Algorithm,SOA)是一种受剑龙独特生理结构和行为模式启发而设计的元…

分布式拜占庭容错算法——权益证明(PoS)算法详解

Java 实现权益证明(PoS)算法详解 一、PoS 核心机制 #mermaid-svg-Sbj0HU6MjOl1yo5L {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Sbj0HU6MjOl1yo5L .error-icon{fill:#552222;}#mermaid-s…

【论文阅读】谷歌:生成式数据优化,只需请求更好的数据

谷歌DeepMind团队通过Generative Data Refinement(GDR)技术,成功将极端有毒的4chan讨论数据转化为安全且语义丰富的训练素材,推动了LLM训练数据净化的新范式: • GDR利用预训练大模型对原始数据进行“重写”&#xff0…

C++ 多线程实战 10|C++20 的信号量、闩锁与屏障

目录 前言 学习目标 1. 信号量(Semaphore) 示例:限制并发下载任务 2. 闩锁(Latch) 示例:赛跑 3. 屏障(Barrier) 示例:图像处理流水线 4. 常见坑与对策 5. 实践作…

【Java SE】01. 初识Java

1. 认识Java Java是一种优秀的程序设计语言,它具有令人赏心悦目的语法和易于理解的语义。Java还是一个有一系列计算机软件和规范形成的技术体系,这个技术体系提供了完整的用于软件开发和跨平台部署的支持环境,并广泛应用于嵌入式系统、移动终…

解锁仓储智能调度、运输路径优化、数据实时追踪,全功能降本提效的智慧物流开源了

AI 视频监控平台:全链路协同驱动的智能监控解决方案AI 视频监控平台是一款融合高性能功能与轻量化操作的实时算法驱动型视频监控系统,其核心愿景在于深度破除不同芯片厂商间的技术壁垒,省去冗余重复的适配环节,最终达成芯片、算法…

冒泡排序与选择排序以及单链表与双链表

1. 冒泡排序(Bubble Sort) 1. 原理 冒泡排序是一种 简单的排序算法,通过 两两比较相邻元素,把较大的元素逐渐 “冒泡” 到数组末尾。 思路: 从数组头开始,比较相邻两个元素。 如果前一个比后一个大&…

Python实现计算点云投影面积

本次我们分享一种基于 Open3D 的快速、稳健方法,用于从激光点云中自动提取“地面”并计算其投影面积。算法先自适应估计地面高程,再将地面点投影至水平面,随后用凸包或最小外接矩形求取面积。整个流程无需人工干预,单文件即可运行…