概述

这篇题为"NAS-Bench-101: Towards Reproducible Neural Architecture Search"的论文由Chris Ying等人合作完成，旨在解决神经网络架构搜索(NAS)领域面临的重大挑战：计算资源需求高和实验难以复现的问题。

论文提出了NAS-Bench-101，这是第一个公开的NAS研究架构数据集。通过精心构建一个紧凑但表达力强的搜索空间，并利用图同构识别423k个独特的卷积架构，作者训练并评估了这些架构在CIFAR-10上的表现，最终编译成一个包含超过500万训练模型结果的大型数据集。

贡献

NAS-Bench-101数据集：首个大规模开源的NAS架构数据集，使研究人员能够在毫秒级别评估各种模型的质量，而无需实际训练模型。
搜索空间分析：首次全面分析NAS搜索空间的特性，揭示了可能指导NAS算法设计的见解。
算法基准测试：展示了如何使用该数据集对各种开源NAS优化算法进行快速基准测试。

架构设计

采用细胞(cell)结构，每个细胞由最多7个节点组成的有向无环图(DAG)
使用三种基本操作：3×3卷积、1×1卷积和3×3最大池化
限制最大边数为9
通过图同构识别出423k个独特架构

图1：（左上）各模型的外部架构示意图。（右上）一个类似Inception的卷积单元，其原始5x5卷积结构通过两个3x3卷积进行近似处理（省略了拼接和投影操作）。（左下）测试误差均值最低的卷积单元（省略了投影层）。（右下）展示通道计数自动确定方式的典型单元示例（“+”表示加法运算，“&”表示拼接；使用1×1投影来缩放通道计数）。

(右上和左下都是左上这个架构图内部的cell的结构，右上是inception cell，左下是最佳cell,右下是每个cell的更细节展示，包括了他们的输入输出的连接方式。根据后面论文的描述，每个cell最多有7个节点、9条边，输入都是&操作，输出都是&操作。)

训练过程

所有模型在CIFAR-10上训练和评估
使用固定超参数集，通过RMSProp优化器训练
每个架构重复训练3次以获得方差测量
采用四种不同的epoch预算(4,12,36,108)来支持多保真度优化方法

数据集指标

数据集映射每个架构到以下指标：

训练准确率
验证准确率
测试准确率
训练时间(秒)
可训练模型参数数量

数据集分析发现

性能分布

大多数架构能达到100%的训练准确率
验证和测试准确率多数超过90%
最佳架构平均测试准确率达到94.32%
ResNet-like和Inception-like细胞分别达到93.12%和92.95%

架构设计影响

用1×1卷积或3×3最大池化替换3×3卷积通常会导致绝对最终验证准确率下降
深度为3时平均验证准确率最优
宽度增加似乎会提高验证准确率，最高达到5(数据集中的最大宽度)

局部性特征

搜索空间表现出局部性，即"相近"架构往往具有相似性能
随机游走自相关(RWA)显示低距离时相关性高
全局最大值周围的邻域也显示出局部性

算法基准测试结果

论文比较了多种NAS和超参数优化算法：

随机搜索(RS)
正则化进化(RE)
SMAC
TPE
Hyperband(HB)
BOHB
强化学习(RL)

主要发现：

RE、BOHB和SMAC表现最佳，在约50000 TPU秒后开始优于RS
SMAC作为贝叶斯优化方法表现良好，尽管存在无效架构问题
TPE表现不佳，性能回落到随机搜索水平
多保真度优化算法HB和BOHB未显示出常见加速效果
RL虽然最终优于RS，但收敛到全局最优的速度慢得多

论文的第二节详细介绍了nas的架构。

2. The NASBench Dataset

NAS-Bench-101数据集是一张将神经网络架构与训练评估指标对应起来的表格。目前大多数神经架构搜索方法都选择在CIFAR-10分类数据集上训练模型，因为该数据集的小尺寸图像能让神经网络快速完成训练。此外，那些在CIFAR-10上表现优异的模型，在扩展到更难的基准测试（如ImageNet，克里热夫斯基等人，2012年）时通常也能取得好成绩（佐普等人，2018年）。基于这些原因，我们也将CIFAR-10作为CNN训练的基础，构建了NAS-Bench-101数据集。

2.1. Architectures

与其它神经架构搜索方法类似，我们把神经网络拓扑结构的探索范围[search space]限定在小型前馈结构[small feedforward structures]（通常称为单元[cells]）的空间内，具体描述如下。每个单元堆叠三次后接一个下采样层[a downsampling layer]，通过最大池化操作将图像的高度和宽度各减半，同时通道数翻倍。这种模式重复三次后接全局平均池化层[global average pooling]，最终连接一个密集型softmax层[a final dense softmax layer]。模型的初始层是一个包含一个3×3卷积核、输出128个通道的干层[conv stem]。图1左上角展示了整个网络结构示意图。值得注意的是，干层后接单元堆叠的布局模式，在人工设计的图像分类器（何等人，2016；黄等人，2017；胡等人，2018)以及图像分类的神经架构搜索空间中都十分常见。因此，架构差异主要源于单元本身[cell]的创新设计。

细胞[cell]架构空间由所有可能的有向无环图[directed acyclic graphs]构成，这些图包含V个节点，每个节点都带有L种标签之一，分别代表对应的操作[operation]。其中两个顶点被特别标记为输入和输出操作，分别表示细胞的输入张量和输出张量[input and output tensors]。然而，这种带标签的有向无环图空间在节点数V和标签数L上都呈指数级增长。为了限制该空间的规模以实现穷举枚举，我们施加了以下约束条件：

•我们设定L = 3，仅使用以下操作：(这里的操作可以理解节点上的标签，3种操作=3个标签)

– 3×3卷积

– 1×1卷积

– 3×3最大池化

•将V限制在7以内。

•将边的最大数量限制为9条。

所有卷积层[convolutions]均采用批量归一化[batch normalization]后接ReLU激活函数[ReLU]。这种设计选择旨在确保搜索空间仍包含ResNet式和Inception式单元（何等人，2016；塞格迪等人，2016)。图1右上角展示了Inception式单元的典型示例。我们特意选用卷积层[convolutions]而非可分离卷积层[separable convolutions]来复现ResNet和Inception的原始架构设计，尽管这会导致参数量比AmoebaNet（瑞尔等人，2018)等最新前沿架构更为庞大。

2.2. Cell encoding

对细胞进行编码存在多种方式，不同的编码方式可能通过调整搜索空间来优化特定算法的性能。在多数实验中，我们选择采用一种通用编码方案：即使用7×7上三角二进制矩阵表示的7顶点有向无环图，以及包含5个标签的列表（每个中间顶点对应一个标签，需注意输入输出顶点是固定的）。由于矩阵中存在2¹¹种可能的边连接方式，每个标签对应3种操作模式，因此该编码方案总共可生成2²¹∗3⁵≈5¹⁰M个独特模型。补充材料S3中我们还讨论替代编码。

然而，该空间中存在大量无效模型（即输入顶点之间不存在路径，或总边数超过9条）。此外，不同图在该编码方式下可能不具备计算唯一性。我们用于识别和枚举唯一图的方法详见补充材料S1。经过去重处理后，搜索空间中共有约42.3万个唯一图。

在NAS-Bench-101模型搜索空间中，存在具有不同邻接矩阵或标签但计算等效的模型（如图1所示）。我们将这类单元称为同构单元。此外，不在输入节点到输出节点路径上的顶点不会对单元计算产生贡献。对于包含此类顶点的单元，可以通过剪枝操作将其缩减为更小的单元，而不会改变该单元在网络中的有效行为。由于搜索空间规模庞大，若不考虑同构性而逐一评估所有可能的图表示方式，将会导致计算复杂度过高且效率低下。
图1：两个单元，根据它们的邻接矩阵和标签的不同而表示不同，但编码相同的计算。

2.3. Combine semantics

将图结构转换为对应的神经网络架构相对简单，但存在一个例外情况：当多条边指向同一节点时，需要对传入的张量进行合并处理。此时采用加法[+]或拼接[&]操作都是常规做法。为兼容ResNet和Inception类网络单元，同时保持计算空间的可扩展性，我们制定了固定规则：输出节点的张量采用拼接方式处理，而其他节点的输入则进行求和运算。输入节点的输出张量会按顺序投影[projected in order]，以匹配后续操作所需的输入通道数量。该机制如图1右下角所示。

2.4. Training

训练流程是架构搜索基准测试中的关键环节，因为不同的训练方法会导致性能出现显著差异。为解决这一问题并确保NAS算法在公平条件下进行对比，我们为数据集中的所有模型设计并开源了一个通用训练流程。

超参数选择方面[Choice of hyperparameters.]，我们为NAS-Bench-101的所有模型采用统一固定超参数集。该参数集通过粗网格搜索优化了从空间中随机抽取的50个架构的平均准确率，从而确保其在不同架构间的鲁棒性。这种做法与文献中的标准做法（Zoph等人，2018；Liu等人，2018a；Real等人，2018）相似，并在第5.1节的实验分析中得到了进一步验证。

模型训练与评估细节[Implementation details.]。所有模型均在CIFAR-10数据集（包含4万训练样本、1万验证样本和1万测试样本）上进行训练与评估，采用标准数据增强技术（He等人，2016）。通过余弦衰减算法（Loshchilov & Hutter，2017）将学习率逐步降至零，以降低多次独立训练产生的方差波动。训练过程使用RMSProp优化器（Tieleman & Hinton，2012）配合交叉熵损失函数，并采用L2正则化。所有模型均在TPU v2加速器上完成训练。基于TensorFlow开发的代码及相关超参数配置已公开发布于https: //github.com/google-research/nasbench。

我们设置了3次重复实验和4个训练轮次预算[3 repeats and 4 epoch budgets.]。所有架构均进行三次重复训练与评估以获取方差度量。为评估多保真优化方法（如Hyperband算法，Li等人，2018），我们采用四个递增训练轮次预算进行训练：Estop∈{Emax/3 3，Emax/3 2，Emax/3，Emax} = {4,12,36,108}轮次。每次训练时，学习率在Estop轮次达到最大值后逐步衰减至零。因此，针对每个Estop参数值，我们分别训练了3×423k∼1.27M个模型，总计获得4×1.27M∼5M个模型。

2.5.Metrics

我们对每个架构A进行了三次不同随机初始化的训练测试，针对上述四个预算参数Estop逐一进行。最终数据集包含以下维度：

•训练准确率；

•验证准确率；

•测试准确率；

•训练耗时（秒）；

•可训练模型参数数量。

在单一NAS算法中，仅需使用训练集和验证集的指标来搜索模型，测试准确率仅用于离线评估。训练耗时指标既可用于基准测试算法在时间限制下的精度优化（见第4节），也可评估多目标优化方法。其他无需重新训练的指标可通过公开代码计算得出。

2.6. Benchmarking methods

该数据集的核心目标之一是为NAS算法提供基准测试支持。本节将详细阐述使用NAS-Bench-101的推荐最佳实践方案，这些方案在后续分析中均被采用；若需获取完整的基准测试操作指南，请参阅补充材料S6。

NAS算法的目标是在Emax轮次时找到具有高测试准确率的架构。为此，我们会在（A，Estop)配对点上反复查询数据集，其中A是搜索空间中的一个架构，Estop表示允许的轮次数（Emstop∈{4,12,36,108})。每次查询都会通过随机试验索引进行查找，该索引是均匀分布的从{1,2,3}中随机选取，以模拟SGD训练的随机性。

在搜索过程中，我们会记录算法在每次函数评估后找到的最佳架构Aˆi，并根据其验证准确率进行排序。为了更好地模拟现实世界的计算约束，当总“训练时间”超过固定限制时，我们会终止搜索运行。每次完整搜索结束后，我们会查询该模型对应的平均测试准确率f（Aˆi）（测试准确率本身不应作为搜索的指导依据）。随后计算即时测试遗憾值：r（Aˆi）=f（Aˆi）−f（A∗），其中A∗表示整个数据集中平均测试准确率最高的模型。该遗憾值即为本次搜索运行的得分。为了评估不同搜索算法的鲁棒性，需要进行大量独立的搜索运行测试。