3. Method 方法

3.1 Cross Stage Partial Network 跨阶段局部网络

3.1.1 Cross Stage Partial Network 跨阶段局部网络

3.1.1.1 ResNet 和 DenseNet 的优缺点

主流的卷积神经网络（CNN）架构，如ResNet [8]、ResNeXt [37]、DenseNet [11]，其输出通常是中间层输出的线性或非线性组合。因此，一个k层CNN的输出可以表示为：
$\begin{aligned} y &= F(x_0) = x_k \\& = H_k(x_{k - 1}, H_{k - 1}(x_{k - 2}, H_{k - 2}(x_{k - 3}, \ldots, H_1(x_0), x_0) \tag{1} \end{aligned}$
其中， $F$ 是从输入 $x_0$ 到目标 $y$ 的映射函数，它也是整个CNN的模型。对于 $H_k$ ，它是CNN第 $k$ 层的操作函数。通常，它由一组卷积层和一个非线性激活函数组成。如果我们以ResNet和DenseNet为例，它们可以分别用公式2和公式3表示：
$\begin{aligned} x_k &= R_k(x_{k - 1}) + x_{k - 1} \\&= R_k(x_{k - 1}) + R_{k - 1}(x_{k - 2}) + \ldots + R_1(x_0) + x_0 \tag{2} \end{aligned}$
$\begin{aligned} x_k &= [D_k(x_{k - 1}), x_{k - 1}] \\&= [D_k(x_{k - 1}), D_{k - 1}(x_{k - 2}), \ldots, D_1(x_0), x_0]\tag{3} \end{aligned}$
在以上两个公式中， $R$ 和 $D$ 分别代表残差层和密集层的计算操作，这些操作通常由2 - 3个卷积层组成。
从以上两个公式可以看出，无论是残差层还是密集层，构成它们的每个卷积层的输入都会接收所有之前层的输出。
①为什么可以梯度路径最小化：本来梯度要从k层传递到给1层，要层层传递，k先给k-1，k-1再给k-2等等，现在梯度可以直接 “跳过” 中间层
在这种情况下，梯度路径的长度可以最小化，从而使反向传播过程中的梯度流动更加高效。
②解决了梯度消失问题，但是为什么导致重复学习冗余信息：前面很多层的特征有重叠、冗余、反复用相似梯度去更新，会使网络学习重复、没必要的信息、增加计算量
然而，我们也知道，这种架构设计会让第 $k$ 层将梯度传递到所有 $\ldots,1$ 层，并利用这些梯度来更新权重，这将导致重复学习冗余信息。

3.1.1.2 改进版

最近，一些研究尝试使用经过筛选的 $H_k$ 的输入来提高学习能力和参数利用率。
①例如，SparseNet [44] 使用指数间隔连接，使 $H_k$ 直接与 $Hk−1,Hk−2,Hk−4,…,H2n,…H_{k - 1}, H_{k - 2}, H_{k - 4}, \ldots, H_{2^n}, \ldots$ 相关联。
②ShuffleNetV2 [2]使用分裂通道使Hk仅与Hk−1通道的一半直接相关，并且它的等式可以表示为 $S([H_k(x_{k - 1}[1:c/2]), x_{k - 1}(c/2 + 1:c])])$ ，其中 $S$ 表示混洗操作， $x_{k - 1}[1:c/2]$ 表示 $x_{k - 1}$ 的第一个到 $c /2$ 个通道。
③对于PyramidNet [7] 和PRN [33]，它们都使用不同数量的通道来构建ResNet，以实现梯度分流的效果。

3.1.1.2 本文提出的CSP

当前最先进的方法着重于优化每个层的 $H_i$ 函数，而我们提出CSPNet直接优化 $F$ 函数，优化方式如下：
$M([x_0', T(F(x_0''))]) \tag{4}$
其中， $x_0$ 沿通道维度被分成两部分，表示为 $x_0 = [x_0', x_0'']$ 。
T用于截断，M用于混合
$T$ 是过渡函数，用于截断 $H1,H2,…,HkH_1, H_2, \ldots, H_k$ 的梯度流， $M$ 是过渡函数，用于混合这两个分割部分。
接下来，我们将展示如何将CSPNet整合到DenseNet中，并解释如何解决CNN中重复学习信息的问题。
在这里插入图片描述

3.1.2 DenseNet 密集网络

图2(a)展示了黄等人提出的DenseNet的一级详细结构。
DenseNet的每一级都包含一个密集块和一个过渡层，每个密集块由 $k$ 个密集层组成，第 $i$ 个密集层的输出会与第 $i$ 个密集层的输入进行拼接，拼接后的结果将作为第 $(i + 1)$ 个密集层的输入。

3.1.2.1 正向

上述机制可用以下等式表示：
$\begin{align*} x_1&=w_1 * x_0\\ x_2&=w_2 * [x_0, x_1]\\ &\vdots\\ x_k&=w_k * [x_0, x_1, \ldots, x_{k - 1}] \end{align*}\tag{5}$
其中 $*$ 表示卷积操作符， $[x0,x1,…][x_0, x_1, \ldots]$ 表示对 $x0,x1,…x_0, x_1, \ldots$ 进行拼接， $w_i$ 和 $x_i$ 分别是第 $i$ 个密集层的权重和输出。

3.1.2.2 反向梯度传播

如果使用反向传播来更新权重，权重更新的等式可写为：
$\begin{align*} w_1'&=f_1(w_1, g_1)\\ w_2'&=f_2(w_2, [g_0, g_1])\\ &\vdots\\ w_k'&=f_k(w_k, [g_0, g_1, \ldots, g_{k - 1}]) \end{align*}\tag{6}$
其中 $f_i$ 是第 $i$ 个密集层的权重更新函数， $g_i$ 表示传播到第 $i$ 个密集层的梯度。我们可以发现，大量的梯度信息被重复用于更新不同密集层的权重。这将导致不同的密集层反复学习复制的梯度信息。

3.1.3 Cross Stage Partial DenseNet 跨阶段局部密集网络

所提出的CSPDenseNet的单阶段架构如图2（b）所示。
CSPDenseNet的一个阶段由一个局部密集块和一个局部过渡层组成。

3.1.3.1 局部密集块

在局部密集块中，一个阶段的基础层特征图通过通道划分为两部分，即 $x_0 = [x_0', x_0'']$ 。在 $x_0'$ 和 $x_0''$ 之间，前者直接连接到阶段末尾，后者将经过一个密集块。

3.1.3.2 局部过渡层

局部过渡层涉及的所有步骤如下：首先，密集层的输出 $[x0′′,x1,…,xk][x_0'', x_1, \ldots, x_k]$ 将经过一个过渡层。其次，该过渡层的输出 $x_T$ 将与 $x_0'$ 拼接，并经过另一个过渡层，然后生成输出 $x_U$ 。

3.1.3.3 前向传播和梯度更新

CSPDenseNet前向传播和权重更新的等式如公式7和公式8所示：
$\begin{align*} x_k &= w_k * [x_0'', x_1, \ldots, x_{k - 1}] \\ x_T &= w_T * [x_0'', x_1, \ldots, x_k] \\ x_U &= w_U * [x_0', x_T] \end{align*}\tag{7}$
$\begin{align*} w_k' &= f_k(w_k, \{g_0'', g_1, \ldots, g_{k - 1}\}) \\ w_T' &= f_T(w_T, \{g_0'', g_1, \ldots, g_k\}) \\ w_U' &= f_U(w_U, \{g_0', g_T\}) \end{align*}\tag{8}$
可以看到，来自密集层的梯度被单独整合。另一方面，未经过密集层的特征图 $x_0'$ 也被单独整合。用于更新权重的梯度信息两侧均不包含属于另一侧的重复梯度信息。
总体而言，所提出的CSPDenseNet保留了DenseNet特征复用特性的优势，同时通过截断梯度流防止了过多的重复梯度信息。这一思想通过设计分层特征融合策略实现，并在局部过渡层中应用。

3.1.4 Partial Dense Block 局部密集块

设计局部密集块的优势如下：

增加梯度路径：通过分割与合并策略，梯度路径的数量可翻倍。由于采用了跨阶段策略，能够缓解因使用显式特征图复制进行拼接而产生的弊端。
平衡各层计算量：通常，DenseNet中基础层的通道数远大于增长率。在局部密集块中，参与密集层操作的基础层通道数仅为原始数量的一半，因此可有效解决近一半的计算瓶颈问题。
减少内存流量：假设DenseNet中一个密集块的基础特征图尺寸为 $\times h \times c$ ，增长率为 $d$ ，且共有 $m$ 个密集层。那么，该密集块的内存流量（CIO）为 $\times m) + ((m^2 + m) \times d)/2$ ，而局部密集块的内存流量为 $\times m) + (m^2 + m) \times d)/2$ 。由于 $m$ 和 $d$ 通常远小于 $c$ ，局部密集块最多能够节省网络一半的内存流量。

3.1.5 Partial Transition Layer 局部过渡层

设计局部过渡层的目的是最大化梯度组合的差异。局部过渡层是一种分层特征融合机制，它采用截断梯度流的策略，防止不同层学习重复的梯度信息。
在此，我们设计了两种CSPDenseNet的变体，以展示这种梯度流截断对网络学习能力的影响。图3（c）和图3（d）展示了两种不同的融合策略。CSP（先融合）指的是将两部分生成的特征图拼接，然后执行过渡操作。若采用该策略，大量梯度信息会被重复利用。对于CSP（后融合）策略，密集块的输出会先经过过渡层，然后再与来自第一部分的特征图进行拼接。若采用CSP（后融合）策略，由于梯度流被截断，梯度信息不会被重复利用。若使用图3所示的四种架构进行图像分类，相应结果如图4所示。可以看出，若采用CSP（后融合）策略进行图像分类，计算成本显著降低，但top-1准确率仅下降0.1% 。另一方面，CSP（先融合）策略确实有助于大幅降低计算成本，但top-1准确率显著下降了1.5% 。通过在跨阶段采用分割与合并策略，我们能够有效降低信息整合过程中出现重复的可能性。从图4所示结果可以明显看出，若能有效减少重复的梯度信息，网络的学习能力将大幅提升。
在这里插入图片描述