深度学习图像分割模型介绍入门及常用模型详解
图像分割是计算机视觉的核心任务,旨在将图像划分为语义区域。随着深度学习的发展,分割模型在精度和效率上取得重大突破。以下按技术演进顺序详解主流模型:
1. FCN(全卷积网络)
背景:传统CNN受限于全连接层,无法输出空间图。FCN首次实现端到端像素级预测。
结构:
- 用卷积层替换全连接层,支持任意尺寸输入
- 采用跳跃连接融合浅层(高分辨率)和深层(强语义)特征
输出=反卷积(conv5)⊕conv3⊕conv4 \text{输出} = \text{反卷积}(\text{conv5}) \oplus \text{conv3} \oplus \text{conv4} 输出=反卷积(conv5)⊕conv3⊕conv4
创新: - 上采样恢复空间信息(反卷积)
- 多尺度特征融合(skip connections)
损失函数:逐像素交叉熵
L=−∑i=1H×W∑c=1Cyi,clog(y^i,c) \mathcal{L} = -\sum_{i=1}^{H\times W} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c}) L=−i=1∑H×Wc=1∑Cyi,clog(y^i,c)
其中CCC为类别数,H,WH,WH,W为分辨率。
2. U-Net
背景:针对医学图像小样本问题,实现高精度边界分割。
结构:
创新:
- 对称编解码结构:编码器捕获上下文,解码器精确定位
- 跳跃连接:拼接不同尺度特征图,保留细节
损失:加权交叉熵(增强边界权重)
L=−∑w(x,y)⋅ylog(y^) \mathcal{L} = -\sum w(x,y) \cdot y \log(\hat{y}) L=−∑w(x,y)⋅ylog(y^)
w(x,y)w(x,y)w(x,y)为边界区域权重图。
3. DeepLab系列
核心思想:解决池化导致的空间信息丢失问题。
DeepLab v1/v2
- 空洞卷积(Atrous Conv):扩大感受野不降分辨率
输出(i,j)=∑k,lK(k,l)⋅X(i+r⋅k,j+r⋅l) \text{输出}(i,j) = \sum_{k,l} \mathbf{K}(k,l) \cdot \mathbf{X}(i+r\cdot k, j+r\cdot l) 输出(i,j)=k,l∑K(k,l)⋅X(i+r⋅k,j+r⋅l)
rrr为膨胀率。 - ASPP(空洞空间金字塔池化):并行多尺度空洞卷积捕获上下文
DeepLab v3+
- 编解码扩展:编码器输出经ASPP处理,解码器融合浅层特征
- Xception骨干:深度可分离卷积提升效率
损失函数:交叉熵 + 辅助正则项
L=LCE+λ∑∥∇y^∥2 \mathcal{L} = \mathcal{L}_{CE} + \lambda \sum \|\nabla \hat{y}\|^2 L=LCE+λ∑∥∇y^∥2
4. Mask R-CNN(实例分割)
背景:在目标检测基础上增加像素级掩码预测。
结构:
# 伪代码流程
ROI = Faster R-CNN(输入) # 区域提议
特征图 = ROIAlign(ROI) # 精确特征对齐
掩码 = FCN(特征图) # 掩码分支预测
创新:
- ROIAlign:双线性插值解决ROI池化量化误差
- 解耦设计:独立分类、回归、掩码分支
损失:多任务损失
L=Lcls+Lbox+Lmask \mathcal{L} = \mathcal{L}_{cls} + \mathcal{L}_{box} + \mathcal{L}_{mask} L=Lcls+Lbox+Lmask
其中Lmask\mathcal{L}_{mask}Lmask为二值交叉熵。
5. Transformer模型(前沿方向)
SETR:用ViT作为编码器,CNN解码器重建空间信息
SegFormer:
- 分层Transformer:提取多尺度特征
- 轻量解码器:MLP融合层级特征
F^=MLP(Concat[F1,F2,F3,F4]) \hat{\mathbf{F}} = \text{MLP}(\text{Concat}[\mathbf{F}_1, \mathbf{F}_2, \mathbf{F}_3, \mathbf{F}_4]) F^=MLP(Concat[F1,F2,F3,F4])
技术演进总结
模型类型 | 代表架构 | 关键创新 | 适用场景 |
---|---|---|---|
全卷积 | FCN | 端到端像素预测 | 通用语义分割 |
编解码结构 | U-Net | 跳跃连接保留细节 | 医学图像 |
上下文建模 | DeepLab | 空洞卷积+ASPP | 街景/高清图像 |
实例分割 | Mask R-CNN | ROIAlign+多任务分支 | 物体实例分割 |
注意力机制 | SegFormer | 分层Transformer+MLP解码 | 实时分割 |
当前研究热点:轻量化设计(Mobile-Unet)、3D分割(nnUNet)、弱监督学习(STC)。模型选择需权衡精度、速度与硬件约束。