文章目录

      • 1. 神经网络基础
        • 1.1 感知器(Perceptron)
        • 1.2 深度神经网络(DNN)
      • 2. 卷积神经网络(CNN)
        • 2.1 核心思想
        • 2.2 典型结构
        • 2.3 ⾥程碑模型:
        • 2.4 卷积层 - CNN 核心
        • 2.5 池化层
      • 3. 循环神经网络(RNN)
        • 3.1 传统序列架构
          • 核心思想
          • 原始 RNN 的局限性
          • RNN 优化
        • 3.2 编码器-解码器架构
      • 4. 词嵌入算法
        • 4.1 基本概念
        • 4.2 解决问题
        • 4.3 嵌入矩阵
        • 4.4 词嵌入模型
        • 4.5 词嵌入算法

1. 神经网络基础

1.1 感知器(Perceptron)
  • 符号主义称之为感知机,连接主义称之为神经元
  • f(n)={0,w1x1+w2⋅x2≤θ1,w1x1+w2⋅x2>θf(n) = \begin{cases} 0, & w_1x_1+ w_2\cdot x_2 \le \theta \\ 1, & w_1x_1+ w_2\cdot x_2 \gt \theta \end{cases}f(n)={0,1,w1x1+w2x2θw1x1+w2x2>θ
  • 单层感知机:简单逻辑门(AND, NAND, OR)
  • 多层感知机:NOR
1.2 深度神经网络(DNN)
  • 组成:神经网络由输入层隐藏层输出层组成,每层包含多个神经元
  • 训练过程:主要包括前向传播损失计算反向传播三个步骤
    • 前向传播
      • 输入层:输入原始数据,假设有两个神经元,a(0)=[x0,x1]Ta^{(0)}=[x_0, x_1]^Ta(0)=[x0,x1]T
      • 隐藏层:z(1)=W1⋅a(0)+b(1),a(1)=g1(z(1))z^{(1)} = W^{1}⋅a^{(0)}+b^{(1)}, a^{(1)} = g_1(z^{(1)})z(1)=W1a(0)+b(1),a(1)=g1(z(1)) , g 是任意的激活函数
      • 输出层,z(2)=W2⋅a(1)+b(2),a(2)=g2(z(2))z^{(2)} = W^{2}⋅a^{(1)}+b^{(2)}, a^{(2)} = g_2(z^{(2)})z(2)=W2a(1)+b(2),a(2)=g2(z(2))
    • 损失函数
      • 回归任务:均方误差(MSE)-> 计算预测值与真实值的平方差的平均值
      • 分类任务:交叉熵损失,二分类或多分类 -> 衡量两个概率分布(预测分布$ \hat y $与真实分布y)的差异
    • 代价函数
      • 代价函数是训练集上所有样本损失的平均值,用于衡量模型在整体数据上的表现
      • J(W,b)=1m∑i=1mL(yi^,yi)+λ⋅R(W)J(W,b) = \frac{1}{m}\sum_{i=1}^{m}L(\hat{y_i}, y_i) + \lambda\cdot{R(W)}J(W,b)=m1i=1mL(yi^,yi)+λR(W)λ\lambdaλ 为惩罚系数,正则项 R(W) 又称惩罚项,常用L1、L2正则。
    • 反向传播
      • 利用链式法则计算代价函数对各层权重 W 和偏置 b 的梯度,并通过梯度下降法更新参数,最终减小化代价函数。
  • 激活函数是神经网络的重要组成部分,它们决定了神经元如何将输入信号转换为输出信号,可以用于学习非线性关系

2. 卷积神经网络(CNN)

2.1 核心思想
  • 利⽤卷积层池化层构建层级化的特征提取器。
2.2 典型结构
  • 输⼊ -> [ [卷积层 -> 激活函数] x N -> 池化层? ] x M -> [ 全连接层 -> 激活函数 ] x K -> 输出层
2.3 ⾥程碑模型:
  • LeNet-5 (1998): 卷积⽹络的早期成功应⽤(手写数字识别),奠定基础结构。
  • AlexNet (2012): ImageNet 竞赛冠军,引爆深度学习⾰命。关键贡献:更深的⽹络、ReLU、Dropout、GPU 加速。
  • VGGNet (2014): 探索深度影响。使⽤⼩的 (3x3) 卷积核堆叠,结构简洁,证明深度是关键。
  • GoogLeNet / Inception (2014): 引⼊ Inception 模块,实现“网络中的网络”,在增加深度和宽度的同时控制计算成本。
  • ResNet (2015): 引⼊残差连接 (Residual Connection),解决了深度⽹络训练中的梯度消失/退化问题,使构建数百甚⾄上千层⽹络成为可能。
2.4 卷积层 - CNN 核心
  • ⼯作原理
    • 使⽤卷积核 (Kernel) 在输入数据(如图像)上滑动,提取局部特征。

输入矩阵边缘处理:填充 0 -> 宽卷积 v.s. 窄卷积

  • 关键特性
    • 参数共享: 同⼀个卷积核在整个输入上共享权重,极大减少参数量。
    • 局部连接:神经元只与输入的⼀个局部区域连接。
    • 平移不变性: 对特征的位置不敏感。
  • 主要参数
    • 卷积核大小
    • 步长 (Stride)
    • 填充 (Padding)
    • 通道数
2.5 池化层
  • 目的
    • 降维、减少计算量
    • 增强特征鲁棒性 (对微小位移不敏感)
  • 作用
    • 逐步减小特征图的空间尺寸,增大感受野。
  • 常见类型
    • 最大池化 (Max Pooling): 取区域内的最大值。
    • 平均池化 (Average Pooling): 取区域内的平均值。

3. 循环神经网络(RNN)

3.1 传统序列架构

核心思想
  • 处理序列数据(文本、语音、时间序列),利用隐藏状态传递历史信息。
原始 RNN 的局限性
  • 难以捕捉长期依赖 (梯度消失/爆炸问题)。
RNN 优化
  1. LSTM (Long short-Term Memory)
    • 通过精密的门控单元(遗忘门、输入门、输出门)和细胞状态 (Cell state),有效控制信息的长期记忆和遗忘。
  2. GRU (Gated Recurrent Unit)
    • 结构比 LSTM 简单(只有更新门、重置门),参数更少,在许多任务上表现与 LSTM 相当。
3.2 编码器-解码器架构

序列到序列模型 (Seq2Seq)

  • 典型应用: 序列到序列(Seq2Seq)任务,如机器翻译
  • 结构组成:
    • 编码器: 将输入序列编码为固定长度向量
    • 解码器: 基于编码向量生成输出序列
  • 工作流程: 如"欢迎来北京"→"welcome to Beijing"的翻译过程
  • 实现方式: 通常使用 GRU 或 LSTM 作为基础单元

4. 词嵌入算法

4.1 基本概念

词嵌入是自然语言处理(NLP)中用于将文本中的 “词” 转换为低维稠密向量的技术,核心目标是用数值向量表示词的语义信息。在神经网络中,嵌入层(Embedding Layer)的功能就是通过嵌入矩阵将词的索引转换为嵌入向量

4.2 解决问题

传统方法(如 one-hot 编码)只能将文本转化为离散稀疏向量,实现简单但存在维度灾难和语义鸿沟(无法描述词与词之间的语义关联)等问题。

4.3 嵌入矩阵

嵌入矩阵是存储所有词嵌入的参数矩阵,是词嵌入技术的核心数据结构
- 存储与查询:嵌入矩阵本质是一个查找表,通过词的索引(one-hot编码)可直接获取对应的嵌入向量(如词汇表中 “猫” 的索引是 0,则嵌入向量为 W [0,:]);
- 参数学习:嵌入矩阵是模型的可学习参数,通过训练数据(如大规模文本)迭代优化,最终使向量满足语义相关性等特性(初始化时通常为随机值,通过反向传播更新)。

4.4 词嵌入模型
- Skip-Gram 模型
- CBOW 模型
4.5 词嵌入算法
- word2vec (本质是一个softmax多标签分类)
- Glove

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90579.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90579.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/90579.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

界面规范3-列表下

4、内容文字有链接的采用蓝色字体<font colorblue></font>重要内容采用红字字体&#xff0c;如状态<font colorred></font>一般字体使用color: #3232325、行高height: 40px;line-height: 40px;6、其他表格占满界面空间&#xff0c;内容多时&#xff0c…

中文语音识别与偏误检测系统开发

中文语音识别与偏误检测系统开发 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家&#xff0c;觉得好请收藏。点击跳转到网站。 1. 系统概述 本系统旨在开发一个基于Paraformer模型的中文语音识别与偏误检…

MySQL创建普通用户并为其分配相关权限的操作步骤

1. 登录MySQL服务器 首先&#xff0c;你需要以管理员身份登录MySQL服务器。可以使用以下命令&#xff1a; mysql -u root -p 输入密码后&#xff0c;即可进入MySQL命令行界面。 2. 创建新用户 使用CREATE USER语句创建新用户。语法如下&#xff1a; CREATE USER usernamehost I…

OSPF 路由协议多区域

一、课程目标本课程旨在帮助学习者掌握 OSPF 多区域的核心知识&#xff0c;具体包括&#xff1a;掌握 OSPF 各种 LSA 的内容和传递过程、了解普通区域与特殊区域的特点、掌握 OSPF 多区域的配置。二、OSPF 多区域划分的必要性单区域存在的问题单区域 OSPF 网络中&#xff0c;存…

小程序的客服咨询(与企业微信建立沟通)

背景&#xff1a;小程序是面向群众的。需要提供与企业的聊天窗口。 一、连接方式。 使用组件的方式最佳wx.openCustomerServiceChat 二、接入小程序 链接

解码3D格式转换

三维图形与可视化领域&#xff0c;3D模型格式作为数据交换与存储的基石&#xff0c;承载着模型结构、几何形状、纹理以及材质等多重信息。不同的3D模型格式在支持材质的方式上各有差异&#xff0c;这些差异不仅影响模型的外观表现&#xff0c;还在格式转换过程中带来了特定的挑…

HarmonyOS学习记录5

HarmonyOS学习记录5 本文为个人学习记录&#xff0c;仅供参考&#xff0c;如有错误请指出。本文主要记录网络请求的开发知识。 参考文档&#xff1a;HTTP和RCP访问网络 网络连接 概述 网络连接管理提供管理网络一些基础能力&#xff0c;包括WiFi/蜂窝/Ethernet等多网络连接优…

【C/C++】explicit_bzero

explicit_bzero explicit_bzero 是一个为了解决 memset 在安全清除内存场景中可能被优化器移除的问题而设计的函数&#xff0c;广泛用于安全编程中&#xff0c;比如密码、密钥清除等。Introduce 头文件 #include <string.h>函数原型 void explicit_bzero(void *s, size_t…

MySQL 链接方法思考

代码: import subprocess import os from dotenv import load_dotenv import pymysql from sqlalchemy import create_enginedef check_mysql_service():"""检查 MySQL 服务是否运行"""try:result = subprocess.run(["systemctl", &…

jxORM--查询数据

jxORM提供了丰富的数据查询功能。在jxORM中&#xff0c;有两种数据查询方式&#xff1a; 通过数据类执行查询直接使用SQL的select语句查询 数据类查询 数据类查询的优势&#xff1a; 可以根据数据类的定义&#xff0c;自动完成查询条件中的条件值和查询到的数据的类型转换直接获…

详解力扣高频SQL50题之1084. 销售分析 III【简单】

传送门&#xff1a;1084. 销售分析 III 题目 表&#xff1a; Product --------------------- | Column Name | Type | --------------------- | product_id | int | | product_name | varchar | | unit_price | int | --------------------- product_id 是该表的主键&#x…

Kafka入门指南:从零开始掌握分布式消息队列

为什么要有消息队列 生活中有这样的场景快递员将包裹送给买家。 我记得在小时候&#xff0c;收快递是需要快递员电话联系上门时间的。这非常不方便&#xff0c;一方面快递员手中可能有多个包裹&#xff0c;另一方面买家可能在上班时间抽不出身。 后来有了驿站&#xff0c;快递员…

基于Matlab图像处理的瓶子自动检测与质量评估系统

本文提出了一种基于图像处理的瓶子缺陷检测系统&#xff0c;旨在通过图像分析自动识别和检测瓶子在生产过程中可能出现的缺陷。系统首先通过图像预处理技术&#xff0c;包括灰度转换、二值化处理、噪声去除等步骤&#xff0c;将原始图像转换为适合分析的格式。然后&#xff0c;…

【Pandas】pandas Index objects Index.name

Pandas2.2 Index objects Properties方法描述Index.values返回 Index 对象的值&#xff0c;通常是一个 NumPy 数组Index.is_monotonic_increasing用于检查索引的元素是否 单调递增Index.is_monotonic_decreasing用于判断索引的值是否 单调递减Index.is_unique用于检查索引中的标…

JDBC教程,2025版最新讲解.超详细入门教程

以下内容全面详尽地梳理了 JDBC &#xff08;Java Database Connectivity&#xff09;的核心知识点&#xff0c;并在关键环节配以示例代码。若要快速定位&#xff0c;可先查看下方结构&#xff1a; JDBC 概览驱动加载与注册获取数据库连接执行 SQL&#xff08;Statement、Prepa…

PyTorch中nn.Module详解和综合代码示例

在 PyTorch 中&#xff0c;nn.Module 是神经网络中最核心的基类&#xff0c;用于构建所有模型。理解并熟练使用 nn.Module 是掌握 PyTorch 的关键。一、什么是 nn.Module nn.Module 是 PyTorch 中所有神经网络模块的基类。可以把它看作是“神经网络的容器”&#xff0c;它封装了…

深入解析三大Web安全威胁:文件上传漏洞、SQL注入漏洞与WebShell

文章目录文件上传漏洞SQL注入漏洞WebShell三者的核心关联&#xff1a;攻击链闭环文件上传漏洞 文件上传漏洞&#xff08;File Upload Vulnerability&#xff09; 当Web应用允许用户上传文件但未实施充分的安全验证时&#xff0c;攻击者可上传恶意文件&#xff08;如WebShell、…

【对比】群体智能优化算法 vs 贝叶斯优化

在机器学习、工程优化和科学计算中&#xff0c;优化算法的选择直接影响问题求解的效率与效果。群体智能优化算法&#xff08;Swarm Intelligence, SI&#xff09;和贝叶斯优化&#xff08;Bayesian Optimization, BO&#xff09;是两种截然不同的优化范式&#xff0c;分别以不同…

LLMs之Agent:ChatGPT Agent发布—统一代理系统将研究与行动无缝对接,开启智能助理新时代

LLMs之Agent&#xff1a;ChatGPT Agent发布—统一代理系统将研究与行动无缝对接&#xff0c;开启智能助理新时代 目录 OpenAI重磅发布ChatGPT Agent—统一代理系统将研究与行动无缝对接&#xff0c;开启智能助理新时代 第一部分&#xff1a;Operator 和深度研究的自然演进 第…

Linux726 raid0,raid1,raid5;raid 创建、保存、停止、删除

RAID创建 创建raid0 安装mdadm yum install mdadm mdadm --create /dev/md0 --raid-devices2 /dev/sdb5 /dev/sdb6 [rootsamba caozx26]# mdadm --create /dev/md0 --raid-devices2 /dev/sdb3 /dev/sdb5 --level0 mdadm: Defaulting to version 1.2 metadata mdadm: array /dev…