PNAS论文和算法解析

2023-10-31 20:38

文章标签 算法解析论文 pnas

本文主要是介绍PNAS论文和算法解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

PNAS，论文的全名是Progressive Neural Architecture Search。这篇论文也是由谷歌团队Chenxi Liu和Zoph等人发表出来的，里面的很多思路承袭了NASNet的设计原则。本论文最大的特点是采用了SMBO（Sequential Model-based Optimization）的方法来训练Predictor（结构和controller RNN相似）。

PNAS的基本设计思想是：

Cell和Block的设计原则（与NASNet一样），不区分Normal和Reduction；
将Block的备选operation减少到8个
Predictor可以通过loss的SGD来优化参数
Block由少到多，逐步搜索Cell结构

PNAS只搜索一种Cell，而且作者从NASNet里面发现Block的好几种操作在最后的结果都没用到，所以在operation的搜索空间候选上减少到8个。

在搜索算法上，作者也做了一些改进。采用渐进式叠加搜索，即一开始只搜索一个Block，用数据集进行训练和验证，后面再逐渐增加Block进行新一轮的搜索和训练。具体的搜索算法如下图所示。
在这里插入图片描述
图1. PNAS搜索算法流程

PNAS的SMBO搜索算法步骤：

产生只有一个Block的所有可能性的Cell，再按照NASNet的规则来搭建网络模型；
训练这一组网络模型，得到它们的精度，利用这些精度值去训练Predictor；
接下来是循环的步骤。每次循环增加一个Block，和之前选择的Block构成所有可能的子网络；
用Predictor预测步骤3中所有子网络的精度，从中挑选K个最好的子网络去训练，得到它们的精度。
用这些精度再去更新Predictor，然后跳到步骤3，开始新一轮的循环，直到Block个数达到上限。

PNASNet的搜索过程如下图所示。从图中可以看出，一开始只搜索一个Block，然后加上第2个Block，通过Predictor选择最好的K个子集进行训练和验证，如此循环下去，每次增加一个Block只要训练K个子网络即可。
在这里插入图片描述
图2. PNASNet搜索过程

Predictor和NASNet中的controller RNN具有基本相同的结构，唯一不同的是在最后一个RNN隐藏层添加一个全连接和Sigmoid回归精度。在步骤2和5中的精度就是从验证集上获得的，在Sigmoid回归那边计算Loss，用于更新Predictor的参数。在步骤4中，每增加一个Block，就让Predictor多递归计算一轮，得到添加Block后的模型预测精度。

作者在Cifar-10和ImageNet数据集上进行实验，在参数设置上，Cell的Block个数为5，第一个Cell的输出通道设为 $F = 24$ ，Normal Cell的 $N = 2$ ，每增加一个Block挑选 $K = 256$ 个子网络进行训练和评估。

下面两张图是搜索出来的PNASNet在ImageNet上的训练结果，可以看出在同等级的模型参数条件下，PNASNet比传统手工设计的网络都更好。跟NASNet、AmoebaNet基本上也是不相上下，但是PNASNet的搜索速度比它们更快，相比NASNet，PNASNet搜索的模型个数少了5倍，搜索速度快了8倍。
在这里插入图片描述
图3. 小模型PNASNet在ImageNet上的性能

图4. 大模型PNASNet在ImageNet上的性能