图像分割是计算机视觉的核心任务，旨在将图像划分为语义区域。随着深度学习的发展，分割模型在精度和效率上取得重大突破。以下按技术演进顺序详解主流模型：
在这里插入图片描述

背景：传统CNN受限于全连接层，无法输出空间图。FCN首次实现端到端像素级预测。
结构：

用卷积层替换全连接层，支持任意尺寸输入
采用跳跃连接融合浅层（高分辨率）和深层（强语义）特征
$\text{输出} = \text{反卷积}(\text{conv5}) \oplus \text{conv3} \oplus \text{conv4}$
创新：
上采样恢复空间信息（反卷积）
多尺度特征融合（skip connections）
损失函数：逐像素交叉熵
$L=−∑i=1H×W∑c=1Cyi,clog⁡(y^i,c) \mathcal{L} = -\sum_{i=1}^{H\times W} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c})$
其中 $C$ 为类别数， $H, W$ 为分辨率。

背景：针对医学图像小样本问题，实现高精度边界分割。
结构：

创新：

对称编解码结构：编码器捕获上下文，解码器精确定位
跳跃连接：拼接不同尺度特征图，保留细节
损失：加权交叉熵（增强边界权重）
$L=−∑w(x,y)⋅ylog⁡(y^) \mathcal{L} = -\sum w(x,y) \cdot y \log(\hat{y})$
$w (x, y)$ 为边界区域权重图。

核心思想：解决池化导致的空间信息丢失问题。

DeepLab v1/v2

空洞卷积（Atrous Conv）：扩大感受野不降分辨率
$\text{输出}(i,j) = \sum_{k,l} \mathbf{K}(k,l) \cdot \mathbf{X}(i+r\cdot k, j+r\cdot l)$
$r$ 为膨胀率。
ASPP（空洞空间金字塔池化）：并行多尺度空洞卷积捕获上下文

DeepLab v3+

损失函数：交叉熵 + 辅助正则项
$L=LCE+λ∑∥∇y^∥2 \mathcal{L} = \mathcal{L}_{CE} + \lambda \sum \|\nabla \hat{y}\|^2$

背景：在目标检测基础上增加像素级掩码预测。
结构：

# 伪代码流程
ROI = Faster R-CNN(输入)      # 区域提议
特征图 = ROIAlign(ROI)         # 精确特征对齐
掩码 = FCN(特征图)            # 掩码分支预测

创新：

ROIAlign：双线性插值解决ROI池化量化误差
解耦设计：独立分类、回归、掩码分支
损失：多任务损失
$\mathcal{L} = \mathcal{L}_{cls} + \mathcal{L}_{box} + \mathcal{L}_{mask}$
其中 $Lmask\mathcal{L}_{mask}$ 为二值交叉熵。

SETR：用ViT作为编码器，CNN解码器重建空间信息
SegFormer：

分层Transformer：提取多尺度特征
轻量解码器：MLP融合层级特征
$F^=MLP(Concat[F1,F2,F3,F4]) \hat{\mathbf{F}} = \text{MLP}(\text{Concat}[\mathbf{F}_1, \mathbf{F}_2, \mathbf{F}_3, \mathbf{F}_4])$