深层神经网络简介
深层神经网络是机器学习中一种重要的模型,它通过增加网络的“深度”(即隐藏层的数量)来提升模型对复杂数据的表示和学习能力。同浅层类似,也分为三个部分:
输入层:接收原始数据(如图像像素、文本向量等)。
隐藏层:由多层组成,每一层包含若干神经元(节点),通过权重和激活函数处理数据。
输出层:生成最终预测结果(如分类概率、回归值等)。
深层神经网络正向传播
深层神经网络反向传播
原理比较容易理解,与浅层神经网络类似,可以分为多个逻辑回归,进行反向传播
参数和超参数
参数(Parameters)
定义
模型内部学习得到的变量,通过训练数据自动优化,无需人工设定。
示例:
神经网络中的权重(Weights)和偏置(Bias)。
线性回归中的系数(θ0,θ1θ0,θ1)。
特点
数据驱动:通过反向传播(如梯度下降)从数据中学习。
数量庞大:深层网络的参数量可达数百万甚至数十亿(如GPT-3有1750亿参数)。
存储于模型中:训练完成后,参数被保存用于预测。
优化目标
最小化损失函数(如交叉熵、均方误差)。
2. 超参数(Hyperparameters)
定义
训练前人为设定的配置,控制模型的学习过程或结构。
示例:
学习率(Learning Rate):梯度下降的步长。
批量大小(Batch Size):每次迭代使用的样本数。
网络结构:层数、每层神经元数量。
正则化参数:L2惩罚系数(λλ)、Dropout率。
优化器选择:Adam、SGD等。
特点
人工依赖:无法直接从数据中学习,需通过经验或调优确定。
影响全局:超参数的选择直接影响模型收敛速度、泛化能力和最终性能。
需实验验证:通常通过网格搜索、随机搜索或贝叶斯优化确定。