神经网络实战：

深度学习——神经网络简单实践（在乳腺癌数据集上的小型二分类示例）-CSDN博客https://blog.csdn.net/2302_78022640/article/details/150779819?spm=1001.2014.3001.5502

深度学习——神经网络（PyTorch 实现 MNIST 手写数字识别案例）-CSDN博客https://blog.csdn.net/2302_78022640/article/details/150781035

深度学习：人工智能的核心驱动力

一、什么是深度学习

深度学习（Deep Learning）是机器学习的一个重要分支

其核心是通过构建多层神经网络（深度神经网络） 模拟人类大脑的信息处理方式，从数据中自动学习特征和规律，最终实现对复杂任务的预测、分类或生成。

与传统的机器学习相比，深度学习能够自动从数据中提取特征，减少人工设计特征的工作量，并在语音识别、图像处理、自然语言处理等领域取得了突破性成果。

通俗来说，深度学习的本质是用多层非线性变换将原始数据映射到更高层次的抽象特征空间，从而让计算机更好地理解复杂问题。

二、深度学习的核心要素

1. 神经网络（Neural Network）

大脑中的神经元：

计算机中的神经元：

x1~xn这些外部信息，通过w1~wn这些突触，传入到神经元，神经元再传给其他神经元或输出。

怎样得到这样的神经元（推导）：

逻辑回归（Logistic Regression） 是神经网络的理论基础之一。

逻辑回归模型的形式和 单层感知机（即由一个或多个神经元构成的最简单神经网络（没有隐藏层））很相似：

输入 → 权重加权求和 → 激活函数 → 输出概率。

单层感知机与逻辑回归的主要不同在于激活函数

所以以逻辑回归为例，为了得到划分线

假设y=kx+b:

最终得到的结果可变换为矩阵形式即：

得到的神经元即可表达为：

非线性函数sigmoid曲线（激活函数）：

神经元（Neuron）是 神经网络的基本计算单元

神经元的作用：

输入 → 权重加和 → 激活函数 → 输出

训练神经网络所要得到的目标就是：最优参数权重Wi和偏置b（b在此神经元内即是w3）

而目前得到的权重Wi和偏置b 并非最优

训练过程：

我们输入大量训练数据

神经元根据当前的权重和偏置计算输出

与真实标签比较（用损失函数）

通过反向传播调整权重 wi 和偏置 b，让输出越来越接近真实标签。

整个神经网络：由很多神经元组成，层层堆叠，训练后形成能解决任务的模型。

每个节点代表一种特定的输出函数，称为激活函数（activation function）。

两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重。

（中间绿色为神经元，两侧为输入输出）

1、设计一个神经网络时，输入层与输出层的节点数往往是固定的，中间层则可以自由指定；

2、神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向，跟训练时的数据流有一定的区别；

3、结构图里的关键不是圆圈（代表“神经元”），而是连接线（代表“神经元”之间的连接）。每个连接线对应一个不同的权重（其值称为权值），这是需要训练得到的。

节点该如何确定？

输入层的节点数：与特征的维度匹配

输出层的节点数：与目标的维度匹配。

中间层（隐藏层）的节点数：一般是根据经验来设置。预设几个可选值，通过切换这几个值来看整个模型的预测效果，选择效果最好的值作为最终选择。

层次结构：输入层 → 隐藏层 → 输出层。（深度学习的“深”就来自于隐藏层的数量）

每个隐藏层 = 由多个神经元组成的一层

一个神经元是一个点，而一层通常包含几十、几百、甚至上千个神经元。
每一层的神经元 并行计算，然后把结果传递给下一层。

作用：

输入层：接收原始数据（像素、特征）。（对于图片，像素就是其特征）

隐藏层：由许多神经元组成，负责特征提取和非线性变换。

输出层：最终给出预测结果。

2.感知机（Perceptron）

单层感知机：

（输入层→ 输出层，无隐藏层）

用矩阵乘法来表达：

使用越阶函数等激活函数，本质上是一种线性分类器，只能解决线性可分问题。

解释：单层感知机的学习能力非常有限，对与像异或问题这样的线性不可分情形，单层感知机就搞不定（线性不可分即输入训练数据，不存在一个线性超平面能够将其进行线性分类）

单层感知机即使使用非线性激活函数（如 Sigmoid、ReLU 等），仍然无法解决非线性可分问题，核心原因在于其网络结构的局限性，而非激活函数本身。“输入特征的线性组合” 是对输入的一次线性变换（即权重与输入的内积），而激活函数只是对这个线性结果进行 “非线性映射”。

多层感知器：

多层感知机（MLP）是最经典、最基础的神经网络结构

增加了隐藏层。隐藏层是神经网络可以做非线性分类的关键。

第一层的输出是对输入的 “非线性特征映射”（线性变换 + 激活函数）

第二层再对这些非线性特征进行线性组合 —— 最终的决策边界可以是曲线、曲面等非线性形式。

假设我们的预测目标是一个向量，那么与前面类似，只需要在“输出层”再增加节点即可。

3. 激活函数（Activation Function）

激活函数是神经网络的“非线性开关”

其核心作用是为网络注入非线性能力，使模型能够学习和表示复杂的非线性关系。

常见类型：

阶跃函数：最简单的激活函数，输出只有 0 或 1。

激活函数	PyTorch 调用方式	输出范围	常见使用场景
Sigmoid	`nn.Sigmoid()` 或 `torch.sigmoid(x)`	(0, 1)	二分类输出层
Tanh	`nn.Tanh()` 或 `torch.tanh(x)`	(-1, 1)	RNN、隐藏层
ReLU	`nn.ReLU()` 或 `torch.relu(x)`	[0, ∞)	CNN、MLP 隐藏层
Leaky ReLU	`nn.LeakyReLU(negative_slope=0.01)`	(-∞, ∞)	改进版 ReLU
ELU	`nn.ELU(alpha=1.0)`	(-α, ∞)	深层网络
Swish	`torch.nn.SiLU()` 或 `torch.sigmoid(x) * x`	(-∞, ∞)	Google 深度 CNN
Softmax	`nn.Softmax(dim=1)` 或 `torch.softmax(x, dim=1)`	(0,1)，和=1	多分类输出层
Softplus	`nn.Softplus()`	(0, ∞)	特殊任务
Maxout	需自定义层	(-∞, ∞)	NLP、图像分类

为什么需要激活函数：

在神经元计算中：如果没有激活函数，整个网络就是线性函数的堆叠（多层线性还是线性），无法表示复杂关系。

激活函数的作用：

引入非线性：让神经网络能够逼近任意复杂函数（通用逼近定理）。
增加表达能力：不同函数适合不同任务。
控制输出范围：比如 Sigmoid 把输出压缩到 (0,1)，适合概率建模。

4. 损失函数（Loss Function）

损失函数的作用：使得参数尽可能的与真实的模型接近。

1、衡量预测效果

如果损失值很小，说明预测结果和真实结果接近；
如果损失值很大，说明预测结果和真实结果差得远。

2、指导参数更新

训练神经网络时，目标是 最小化损失函数
通过 梯度下降（Gradient Descent），我们利用损失函数对参数的梯度，更新神经元的权重和偏置。

3、防止过拟合 / 欠拟合

一些损失函数里会引入 正则化惩罚项（比如 L1/L2 正则化），帮助模型防止过拟合：通过在损失函数中加入 “正则项”（惩罚项），人为增加 “复杂模型” 的损失，迫使模型在 “拟合训练数据” 和 “保持自身简单” 之间做权衡

损失函数 = 预测误差（如均方误差、交叉熵） + 正则项（模型复杂度惩罚）

在训练神经网络中的损失函数：

输入数据：外部信息xi（同时给所有参数赋上随机值。我们使用这些随机生成的参数值，来预测训练数据中的样本。)
前向传播：计算预测值
计算损失：用损失函数比较预测值和真实标签 y
反向传播：根据损失函数的梯度更新权重 W,b （BP神经网络（Back-propagation，反向传播））
迭代优化，直到损失函数收敛

常用的损失函数：

0-1损失函数

均方差损失（MSE）

平均绝对差损失

交叉熵损失（Cross Entropy）

合页损失

损失函数	PyTorch 调用方式	数学公式	输出范围	常见使用场景
均方误差 (MSELoss)	`nn.MSELoss()`		[0, ∞)	回归任务
平均绝对误差 (L1Loss/MAE)	- 不光滑，优化困难		y_i - \hat{y}_i	- 抗异常值
交叉熵 (CrossEntropyLoss)	`nn.CrossEntropyLoss()`		(0, ∞)	多分类任务
二元交叉熵 (BCELoss)	`nn.BCELoss()`		(0, ∞)	二分类任务
带 Logits 的 BCE (BCEWithLogitsLoss)	`nn.BCEWithLogitsLoss()`		(0, ∞)	二分类任务
KL 散度 (KLDivLoss)	- 不对称	( D_{KL}(P		- 度量分布差异
Huber Loss (SmoothL1Loss)	[0, ∞)	(\text{Huber}(y,\hat{y})=\begin{cases} \frac{1}{2}(y-\hat{y})^2 &	y-\hat{y}	-\frac{1}{2}\delta) & \text{else} \end{cases})
负对数似然 (NLLLoss)	`nn.NLLLoss()`		(0, ∞)	多分类任务
余弦相似度损失 (CosineEmbeddingLoss)	`nn.CosineEmbeddingLoss()`		[0, 2]	序列/文本相似度
对比损失 (ContrastiveLoss)	需自定义实现		[0, ∞)	Siamese 网络
Triplet Loss	`nn.TripletMarginLoss(margin=1.0)`		[0, ∞)	人脸识别、度量学习

5. 优化算法（Optimization）

深度学习常用的优化方法是 梯度下降（Gradient Descent）

梯度可以定义为一个函数的全部偏导数构成的向量，梯度向量的方向即为函数值增长最快的方向

不断调整神经网络的参数（权重 W 和偏置 b），使得损失函数的值尽可能小。

本质：

找到一个参数组合，使得损失函数 L(W,b) 达到最小值；
梯度下降就是通过不断“往损失函数下降最快的方向走”，逐步接近最优解。

常见优化算法：

优化算法	PyTorch 调用方式	特点
批量梯度下降 (BGD)	手动实现，一般不用现成类	每次用全部数据更新
随机梯度下降 (SGD)	`torch.optim.SGD(model.parameters(), lr=0.01)`	每次用单个样本更新
小批量梯度下降 (Mini-Batch SGD)	`torch.optim.SGD(model.parameters(), lr=0.01, batch_size=32)`（通过 DataLoader 控制批量）	平衡了稳定性和效率
Adam	`torch.optim.Adam(model.parameters(), lr=0.001, betas=(0.9,0.999))`	结合 Momentum + RMSProp
Momentum	`torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)`	在 SGD 基础上加动量项
NAG (Nesterov Accelerated Gradient)	`torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9, nesterov=True)`	预判未来位置再更新
Adagrad	`torch.optim.Adagrad(model.parameters(), lr=0.01)`	对每个参数自适应学习率
RMSProp	`torch.optim.RMSprop(model.parameters(), lr=0.001, alpha=0.9)`	引入指数加权平均
AdamW	`torch.optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)`	改进 Adam 正则化