一、概述

相较于基于强化学习的NAS，可微NAS能直接使用梯度下降更新模型结构超参数，其中较为有名的算法就是DARTS，其具体做法如下。

首先，用户需要定义一些候选模块，这些模块内部结构可以互不相同（如设置不同种类和数量的卷积，使用不同种类的连接结构等）；其次，用户也需要指定神经网络的层数，每一层由候选模块的其中之一构成。

由于搜索空间= $Blocks^{layers}$ （其中 $Blokcs$ 为候选模块种类， $layers$ 为预先指定的神经网络层数）巨大，为了从庞大的搜索空间中找到合适的结构，需要引入superNet。

二、SuperNet

以下内容均基于论文：FBNethttps://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_FBNet_Hardware-Aware_Efficient_ConvNet_Design_via_Differentiable_Neural_Architecture_Search_CVPR_2019_paper.pdf

2.1模型结构

这里以SuperNet中的某一层为例，设置候选模块一共9种，这层superNet由9种不同的模块并联而成。输入向量 $x$ 在候选模块处理后分别得到9个向量 $f$ ，这个处理过程记作： $y=f_i(x,w_i)$ ，其中 $w_i$ 为模块中的权重。将这些向量 $f$ 进行加权求和，这些权重记作 $\alpha$ ，所有 $\alpha$ 之和为1（由softmax计算得到），权重 $\alpha$ 就是模型要学习的神经网络结构超参数。

通过堆叠上述模块，组成一个完整的superNet，经过训练，每一层最终会保留一个模块。

2.2训练

将superNet的候选模块一共9个，记作 $j=1,...9$ ；设superNet一共20层，记作 $l=1,...20$ ；得第 $l$ 层中第 $j$ 个模块的参数记作 $w_j^{(l)}$ 和 $\theta_j^{(l)}$ ，故 $W=\{w_j^{(l)}\}_{j,l}$ ， $\Theta=\{\theta_j^{(l)}\}_{j,l}$ ，这两个即为需要训练并学习的参数。superNet做出的预测记作 $p(x_i;W,\Theta)$ 。

交叉熵损失函数可以写作 $min_{W,\Theta}\frac{1}{n}\sum_{i=1}^nLoss(y_i,p(x_i;W,\Theta))$ ，在这个损失函数中，由于 $p$ 是关于 $\Theta$ 的函数，且两者可微，故损失函数 $Loss$ 能通过 $p$ 传递给 $\Theta$ ，所以可以直接使用反向梯度传播更新模型。

基于学习到的 $\Theta$ ，我们可以计算出superNet中没一层中每个模块的权重 $\alpha_j^{(l)}=\frac{exp(\theta_j^{(l)})}{\sum_{k=1}^9exp(\theta_k^{(l)})}$ ，对于每层而言，选取其中权重最大的模块作为该层的结构，这些模块串联即可得到整个模型的结构，如下图所示。

三、使用额外的性能指标优化superNet

以应用于移动设备的轻量化神经网络举例，这类神经网络由于需要考虑移动设备的算力限制，往往需要延迟(latency，推理时间)越小越好。

可以事先测量每个候选模块的平均延迟，计算这一层中每个模块的延迟加权平均 $\sum_{j=1}^9=t_j \alpha_j$ ，如下图所示。

将20层网络中的延迟求和，得到： $Lat(\Theta)=\sum_{l=1}^20\sum_{j=1}^9t_j^{(l)}\alpha_j^{(l)}$ ，其中 $\alpha_j^{(l)}$ 的定义在2.2节中已经给出，可以进一步记作 $Lat(\Theta)=\sum_{l=1}^20\sum_{j=1}^9t_j^{(l)}\frac{exp(\theta_j^{(l)})}{\sum_{k=1}^9exp(\theta_k^{(l)})}$ ，其中的 $t$ 为计算得到的常数。