ICLR2021 | 从50篇投稿,看模型搜索最新进展

2024-06-21 08:32

本文主要是介绍ICLR2021 | 从50篇投稿,看模型搜索最新进展,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI研公园”,选择“星标★”公众号

重磅干货,第一时间送达

本文从模型搜索NAS的问题出发,整理了最新ICLR2021相关投稿论文。 

神经网络除了权重(W)之外,其通道数、算子类型和网络连接等结构参数需要设定,而模型搜索NAS即是确定结构参数的自动方法。最初NASNet中每种结构参数的模型单独训练带来的巨大开销,最近两年基于权重共享的NAS方法中,不同结构参数模型复用权重组成代理模型(SuperNet)一起训练,然后评测子模型指标并通过RL , EA , Random搜索(One-shot)或由参数化离散变连续用梯度下降(Darts)从结构参数空间(A)求解出最优子结构,最后重训最优子结构得最后需要的模型。

整个流程中分为SuperNet训练,最优子模型搜索,重训三个阶段,其中搜索阶段时间因为不同的评测方式和指标,快则几秒慢则几天,而SuperNet训练周期一般设置成重训阶段相近,因此目前流行的权重共享搜索方法多是单独训练的两倍左右开销。其中结构参数空间如何建模,代理模型评测好坏是否真实(一致性),以及训练开销是否可以进一步降低,这些问题对应投稿论文整理如下:

  • One-shot方法中SuperNet训练以及一致性? One-shot方法中大多以megvii 的Singlepath为framework,之后的改进工作主要集中在采样方式和具体训练策略上,GreedyNAS 和 AngleNAS分别用droppath和dropnode改进采样方式,Once for all和BigNAS利用训练策略使得SuperNet中子模型性能变强而省去了重训步骤,文【1】是年初的文章总结了训练细节比如分组BN等影响。One-shot框架中其他问题如代理模型评测误差等也都有ICLR2021投稿工作研究;

  • Darts方法的训练和优化方式? Darts方法用bi-level优化轮替优化权重(W)和结构参数(A),因为softmax以及无参数OP影响导致模型坍塌以及结果不稳定,文【2】通过引入辅助分支改善训练,文【3】加noise改善了模型坍塌,文【4】和文【5】都是解耦连接和OP的搜索。由于bi-level求解存在优化误差文,文【6】和文【7】采用single-level优化方法,希望这两篇工作能结束魔改Darts的局面;

  • 结构参数空间怎么建模?比如文【8】按照分布建模,文【9】按照流形建模,文【10】按照邻接关系建模,随着NAS benchmarks101等出现,直接用结构参数作为输入X,提前测试好的对应精度作为Y, 学习X到Y映射关系可以看作对搜索空间建模,这样工作有基于GCN, LSTM等的预测器以及排序器等,如文【6】,文【7】和文【11】等;

  • NAS without training? 文【13】和 文【14】类似,以及我们所更早的工作ModuleNet,都是通过精心设计指标取代精度来避免权重训练的开销,虽然结果图有相关趋势,但是经实际评测一致性数值较低,其他如随机权重的工作基本只能解决很简单任务难以实用;

  • 新的NAS benchmark? 如 TransNAS-Bench-101,NAS-Bench-301,HW-NAS-Bench等,都是推动领域大大的好工作,respect!

  • NAS的下游任务应用?检测上应用如文【16】, 量化上应用如文【17】等。

总结:48篇文章中既有延续之前解决One-shot和Darts框架中训练不稳定以及减少评测误差等方面问题的文章,也有single-level优化,流形结构建模等反思前提假设的硬核文章,更多的NAS benchmark以及泛化应用推动NAS研究的进步与落地。诚然,模型搜索方面的研究大厦似乎已经落成,部分新的改进工作因为评测数据集简单(如cifar等)和不公平对比而难以判断良莠,期待大佬组以及大厂能够持续开坑以及贡献更多solid工作。

ICLR2021中NAS方面投稿文章整理

1. How to Train Your Super-Net: An Analysis of Training Heuristics in Weight-Sharing NAS

链接:https://openreview.net/forum?id=txC1ObHJ0wB

2. DARTS-: Robustly Stepping out of Performance Collapse Without Indicators

链接:https://openreview.net/pdf?id=KLH36ELmwIB

3. Noisy Differentiable Architecture Search

链接:https://openreview.net/pdf?id=JUgC3lqn6r2

4. FTSO: Effective NAS via First Topology Second Operator

他们提出一种称为FTSO的方法,通过分别搜索网络拓扑和运营商,将NAS的搜索时间从几天缩短至0.68秒,同时在ImageNet上实现76.42%的测试精度,在CIFAR10上实现97.77%的测试精度。

链接:https://openreview.net/pdf?id=7Z29QbHxIL

5. DOTS: Decoupling Operation and Topology in Differentiable Architecture Search

本文研究正确的单级优化几何结构可为NAS提供最新的方法。

链接:https://openreview.net/pdf?id=y6IlNbrKcwG

6. Geometry-Aware Gradient Algorithms for Neural Architecture Search

本文研究正确的单级优化几何结构可为NAS提供最新的方法。

链接:https://openreview.net/pdf?id=MuSYkd1hxRP

7. GOLD-NAS: Gradual, One-Level, Differentiable

新的可区分NAS框架结合了一级优化和逐步修剪功能,可在大型搜索空间上工作。

链接:https://openreview.net/pdf?id=DsbhGImWjF

8. Weak NAS Predictor Is All You Need

他们提出了一种新方法,可以在基于预测变量的神经体系结构搜索中逐步估计弱预测变量。通过从粗到细的迭代,逐步完善了采样空间的排名,最终有助于找到最佳架构。

链接:https://openreview.net/pdf?id=kic8cng35wX

9. Differentiable Graph Optimization for Neural Architecture Search

他们学习了可微图神经网络作为替代模型来对候选架构进行排名。

链接:https://openreview.net/pdf?id=NqWY3s0SILo

10 . DrNAS: Dirichlet Neural Architecture Search

他们提出了一种简单而有效的渐进式学习方案,该方案可直接搜索大型任务,从而消除了搜索和评估阶段之间的差距。大量的实验证明了我们方法的有效性。

链接:https://openreview.net/pdf?id=9FWas6YbmB3

11 . Neural Architecture Search of SPD Manifold Networks

他们首先介绍几何丰富且多样化的SPD神经体系结构搜索空间,以进行有效的SPD单元设计。此外,我们使用超网策略为新的NAS问题建模,该策略将架构搜索问题建模为单个超网的一次训练过程。

链接:https://openreview.net/pdf?id=1toB0Fo9CZy

12 . Neighborhood-Aware Neural Architecture Search

他们提出了一种用于神经体系结构搜索的邻域感知公式,以在搜索空间中找到平坦的最小值,该最小值可以更好地推广到新的设置。

链接:https://openreview.net/pdf?id=KBWK5Y92BRh

13 . A Surgery of the Neural Architecture Evaluators

本文评估了在受控设置下具有多个直接标准的当前快速神经体系结构评估器。

链接:https://openreview.net/pdf?id=xBoKLdKrZd

14 . Exploring single-path Architecture Search ranking correlations

关于几种方法变化如何影响体系结构排名预测质量的实证研究。

链接:https://openreview.net/pdf?id=J40FkbdldTX

15 . Neural Architecture Search without Training

链接:https://openreview.net/pdf?id=g4E6SAAvACo

16 . Zero-Cost Proxies for Lightweight NAS

单个小批量数据用于为NAS的神经网络评分,而不是执行完整的训练。

链接:https://openreview.net/pdf?id=0cmMMy8J5q

17 . Improving Zero-Shot Neural Architecture Search with Parameters Scoring

可以考虑参数空间中的jacobian来设计分数,这可以高度预测任务的最终性能。

链接:https://openreview.net/pdf?id=4QpDyzCoH01

18. Triple-Search: Differentiable Joint-Search of Networks, Precision, and Accelerators

我们提出了三重搜索框架,以可区分的方式联合搜索网络结构,精度和硬件体系结构。

链接:https://openreview.net/pdf?id=OLOr1K5zbDu

19 . TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search

链接:https://openreview.net/pdf?id=HUd2wQ0j200

20 . Searching for Convolutions and a More Ambitious NAS

用于神经体系结构搜索的通用搜索空间,该空间可以发现击败图像数据上的卷积的操作。

链接:https://openreview.net/pdf?id=ascdLuNQY4J

21 . EnTranNAS: Towards Closing the Gap between the Architectures in Search and Evaluation

他们展示了有效的维数如何揭示现代深度学习中的多种现象,包括两次下降,宽度-深度权衡和子空间推断,同时提供了一种直接且引人注目的通用度量。

链接:https://openreview.net/pdf?id=qzqBl_nOeAQ

22 . Efficient Graph Neural Architecture Search

通过设计一种新颖而富有表现力的搜索空间,提出了一种基于随机松弛和自然梯度的高效单次NAS方法。

23 . Multi-scale Network Architecture Search for Object Detection

链接:https://openreview.net/pdf?id=mo3Uqtnvz_

24 . Exploring single-path Architecture Search ranking correlations

关于几种方法变化如何影响体系结构排名预测质量的实证研究。

25 . Network Architecture Search for Domain Adaptation

链接:https://openreview.net/pdf?id=4q8qGBf4Zxb

26 . Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective

他们的TE-NAS框架分析了神经切线核(NTK)的频谱和输入空间中线性区域的数量,从而实现了高质量的架构搜索,同时在ImageNet上将搜索成本显着降低到了四个小时。

链接:https://openreview.net/pdf?id=Cnon5ezMHtu

27. Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters

修正用于稳定DARTS算法的建筑参数梯度估计中的错误。

链接:https://openreview.net/pdf?id=67ChnrC0ybo

28. NAS-Bench-301 and the Case for Surrogate Benchmarks for Neural Architecture Search

链接:https://openreview.net/pdf?id=1flmvXGGJaa

29. NASOA: Towards Faster Task-oriented Online Fine-tuning

本文提出了一种名为NASOA的神经体系结构搜索和在线适应框架,旨在根据用户的请求进行更快的面向任务的微调。

链接:https://openreview.net/pdf?id=NqPW1ZJjXDJ

28. Model-based Asynchronous Hyperparameter and Neural Architecture Search

本文提出了一种新的异步多保真贝叶斯优化方法,可以有效地搜索神经网络的超参数和体系结构。

29. Searching for Convolutions and a More Ambitious NAS

用于神经体系结构搜索的通用搜索空间,该空间可以发现击败图像数据上的卷积的操作。

30. A Gradient-based Kernel Approach for Efficient Network Architecture Search

他们首先将这两个术语表述为基于梯度的统一内核,然后选择初始化时具有最大内核的体系结构作为最终网络。新方法取代了昂贵的“先培训后测试”评估范式。

31. Fast MNAS: Uncertainty-aware Neural Architecture Search with Lifelong Learning

他们提出了FNAS,可将基于RL的标准NAS流程加速10倍,并保证在各种视觉任务上具有更好的性能。

32. Explicit Learning Topology for Differentiable Neural Architecture Search

33. NASLib: A Modular and Flexible Neural Architecture Search Library

34. TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search

35. Rethinking Architecture Selection in Differentiable NAS

36. Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective

37. Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets

他们提出了一种有效的NAS框架,该框架在包含数据集和预先训练的网络的数据库上接受过一次训练,并且可以快速生成新数据集的神经体系结构。

38. Interpretable Neural Architecture Search via Bayesian Optimisation with Weisfeiler-Lehman Kernels

他们提出一种NAS方法,该方法效率高,性能高且可解释。

39. AutoHAS: Efficient Hyperparameter and Architecture Search

40. Differentiable Graph Optimization for Neural Architecture Search

该文学习了可微图神经网络作为替代模型来对候选架构进行排名。

41. Width transfer: on the (in)variance of width optimization

他们控制了三种现有宽度优化算法的训练配置(即网络架构和训练数据),发现优化宽度在很大程度上可以跨设置转移。

42. NAHAS: Neural Architecture and Hardware Accelerator Search

他们提出了NAHAS,这是一种由延迟驱动的软件/硬件协同优化器,可以共同优化神经体系结构和移动边缘处理器的设计。

43. Neural Network Surgery: Combining Training with Topology Optimization

他们展示了一种将神经网络训练与基于遗传算法的架构优化相结合的混合方法。

44. Efficient Architecture Search for Continual Learning

他们提出的CLEAS与神经体系结构搜索(NAS)紧密合作,后者利用强化学习技术来搜索适合新任务的最佳神经体系结构。

45. Auto Seg-Loss: Searching Metric Surrogates for Semantic Segmentation

Auto Seg-Loss是第一个用于搜索替代损失以获取主流语义细分指标的通用框架。

46. Improving Random-Sampling Neural Architecture Search by Evolving the Proxy Search Space

47. SEDONA: Search for Decoupled Neural Networks toward Greedy Block-wise Learning

首次尝试使去耦神经网络自动化以实现贪婪的逐块学习,并且在CIFAR-10,Tiny-ImageNet和ImageNet分类上均优于端到端的反向传播和最新的贪婪学习方法。

48. Intra-layer Neural Architecture Search

神经体系结构在单个权重参数的级别上进行搜索。

49. EnTranNAS: Towards Closing the Gap between the Architectures in Search and Evaluation

50. HW-NAS-Bench: Hardware-Aware Neural Architecture Search Benchmark

链接:https://openreview.net/pdf?id=_0kaDkv3dVf

请长按或扫描二维码关注本公众号

喜欢的话,请给我个在看吧

这篇关于ICLR2021 | 从50篇投稿,看模型搜索最新进展的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080714

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

C# ComboBox下拉框实现搜索方式

《C#ComboBox下拉框实现搜索方式》文章介绍了如何在加载窗口时实现一个功能,并在ComboBox下拉框中添加键盘事件以实现搜索功能,由于数据不方便公开,作者表示理解并希望得到大家的指教... 目录C# ComboBox下拉框实现搜索步骤一步骤二步骤三总结C# ComboBox下拉框实现搜索步骤一这

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

hdu1240、hdu1253(三维搜索题)

1、从后往前输入,(x,y,z); 2、从下往上输入,(y , z, x); 3、从左往右输入,(z,x,y); hdu1240代码如下: #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#inc

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}