Class24AlexNet
AlexNet
AlexNet于2012年ImageNet 图像识别挑战赛(ILSVRC-2012)中以 top-5 错误率15.3%获得冠军,远远领先第二名。它首次在大型图像数据集上证明了深层卷积神经网络的强大能力。
AlexNet 的总体结构
AlexNet 总共有 8 层具有学习参数的网络层:
层编号 | 类型 | 参数 / 特点 |
---|---|---|
1 | 卷积层(Conv1) | 11×11 卷积核,96个通道,步幅4,ReLU,局部响应归一化(LRN),最大池化 |
2 | 卷积层(Conv2) | 5×5 卷积核,256个通道,ReLU,LRN,最大池化 |
3 | 卷积层(Conv3) | 3×3 卷积核,384个通道,ReLU |
4 | 卷积层(Conv4) | 3×3 卷积核,384个通道,ReLU |
5 | 卷积层(Conv5) | 3×3 卷积核,256个通道,ReLU,最大池化 |
6 | 全连接层(FC6) | 输入维度较大,输出为 4096,ReLU,Dropout |
7 | 全连接层(FC7) | 4096 → 4096,ReLU,Dropout |
8 | 全连接层(FC8) | 4096 → 1000(类别数),Softmax 输出 |
AlexNet的特点
1.使用 GPU 加速
AlexNet 是第一个在训练时使用 GPU 加速的深度网络。当时使用了 2 个 GPU 并行处理,每个 GPU 处理一半神经元,跨 GPU 只在某些层通信。
2.使用 ReLU 激活函数
替代传统的 sigmoid / tanh,使得网络收敛更快。
3.使用 Dropout 防止过拟合
在两个全连接层之间添加 Dropout(随机丢弃部分神经元)。
4.数据增强
包括图像翻转、裁剪、颜色扰动等,有效扩大训练集、防止过拟合。
5.LRN 局部响应归一化
用于增强激活的竞争机制,虽然在后来的网络(如 VGG、ResNet)中被弃用。
6.重叠池化
池化窗口之间存在重叠(如池化核 3×3,步幅 2),有助于减小信息损失。
AlexNet 与 LeNet 对比
特性 | LeNet-5 | AlexNet |
---|---|---|
提出时间 | 1998 | 2012 |
输入尺寸 | 32×32×1 | 224×224×3 |
激活函数 | Sigmoid / tanh | ReLU |
网络层数 | 5 | 8 |
使用GPU | 否 | 是 |
Dropout | 否 | 是 |
数据增强 | 少 | 多 |
3X3卷积和2X2卷积的主要区别
特性 | 3×3 卷积核 | 2×2 卷积核 |
---|---|---|
感受野(感知范围) | 覆盖 9 个像素 | 覆盖 4 个像素 |
参数数量(单通道) | 9 个参数 | 4 个参数 |
特征提取能力 | 更强,能提取更复杂的边缘和纹理 | 稍弱,适合较简单的特征 |
适用性 | 应用于大多数主流网络结构 | 很少用于主干卷积层 |
信息融合能力 | 更强,覆盖区域大,提取更充分 | 较弱,感受区域小 |
卷积后输出尺寸变化 | 更容易对称(保持形状) | 更容易造成输出尺寸减半 |
是否常用于堆叠 | 是(如 VGG 中大量堆叠) | 否(多用于特殊场景) |
3×3 卷积是主流标准,信息提取强大;2×2 卷积偶尔作为轻量化或结构替代手段出现,但功能更弱。