ICLR2021 | 从50篇投稿,看模型搜索最新进展

2024-06-21 08:32

本文主要是介绍ICLR2021 | 从50篇投稿,看模型搜索最新进展,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI研公园”,选择“星标★”公众号

重磅干货,第一时间送达

本文从模型搜索NAS的问题出发,整理了最新ICLR2021相关投稿论文。 

神经网络除了权重(W)之外,其通道数、算子类型和网络连接等结构参数需要设定,而模型搜索NAS即是确定结构参数的自动方法。最初NASNet中每种结构参数的模型单独训练带来的巨大开销,最近两年基于权重共享的NAS方法中,不同结构参数模型复用权重组成代理模型(SuperNet)一起训练,然后评测子模型指标并通过RL , EA , Random搜索(One-shot)或由参数化离散变连续用梯度下降(Darts)从结构参数空间(A)求解出最优子结构,最后重训最优子结构得最后需要的模型。

整个流程中分为SuperNet训练,最优子模型搜索,重训三个阶段,其中搜索阶段时间因为不同的评测方式和指标,快则几秒慢则几天,而SuperNet训练周期一般设置成重训阶段相近,因此目前流行的权重共享搜索方法多是单独训练的两倍左右开销。其中结构参数空间如何建模,代理模型评测好坏是否真实(一致性),以及训练开销是否可以进一步降低,这些问题对应投稿论文整理如下:

  • One-shot方法中SuperNet训练以及一致性? One-shot方法中大多以megvii 的Singlepath为framework,之后的改进工作主要集中在采样方式和具体训练策略上,GreedyNAS 和 AngleNAS分别用droppath和dropnode改进采样方式,Once for all和BigNAS利用训练策略使得SuperNet中子模型性能变强而省去了重训步骤,文【1】是年初的文章总结了训练细节比如分组BN等影响。One-shot框架中其他问题如代理模型评测误差等也都有ICLR2021投稿工作研究;

  • Darts方法的训练和优化方式? Darts方法用bi-level优化轮替优化权重(W)和结构参数(A),因为softmax以及无参数OP影响导致模型坍塌以及结果不稳定,文【2】通过引入辅助分支改善训练,文【3】加noise改善了模型坍塌,文【4】和文【5】都是解耦连接和OP的搜索。由于bi-level求解存在优化误差文,文【6】和文【7】采用single-level优化方法,希望这两篇工作能结束魔改Darts的局面;

  • 结构参数空间怎么建模?比如文【8】按照分布建模,文【9】按照流形建模,文【10】按照邻接关系建模,随着NAS benchmarks101等出现,直接用结构参数作为输入X,提前测试好的对应精度作为Y, 学习X到Y映射关系可以看作对搜索空间建模,这样工作有基于GCN, LSTM等的预测器以及排序器等,如文【6】,文【7】和文【11】等;

  • NAS without training? 文【13】和 文【14】类似,以及我们所更早的工作ModuleNet,都是通过精心设计指标取代精度来避免权重训练的开销,虽然结果图有相关趋势,但是经实际评测一致性数值较低,其他如随机权重的工作基本只能解决很简单任务难以实用;

  • 新的NAS benchmark? 如 TransNAS-Bench-101,NAS-Bench-301,HW-NAS-Bench等,都是推动领域大大的好工作,respect!

  • NAS的下游任务应用?检测上应用如文【16】, 量化上应用如文【17】等。

总结:48篇文章中既有延续之前解决One-shot和Darts框架中训练不稳定以及减少评测误差等方面问题的文章,也有single-level优化,流形结构建模等反思前提假设的硬核文章,更多的NAS benchmark以及泛化应用推动NAS研究的进步与落地。诚然,模型搜索方面的研究大厦似乎已经落成,部分新的改进工作因为评测数据集简单(如cifar等)和不公平对比而难以判断良莠,期待大佬组以及大厂能够持续开坑以及贡献更多solid工作。

ICLR2021中NAS方面投稿文章整理

1. How to Train Your Super-Net: An Analysis of Training Heuristics in Weight-Sharing NAS

链接:https://openreview.net/forum?id=txC1ObHJ0wB

2. DARTS-: Robustly Stepping out of Performance Collapse Without Indicators

链接:https://openreview.net/pdf?id=KLH36ELmwIB

3. Noisy Differentiable Architecture Search

链接:https://openreview.net/pdf?id=JUgC3lqn6r2

4. FTSO: Effective NAS via First Topology Second Operator

他们提出一种称为FTSO的方法,通过分别搜索网络拓扑和运营商,将NAS的搜索时间从几天缩短至0.68秒,同时在ImageNet上实现76.42%的测试精度,在CIFAR10上实现97.77%的测试精度。

链接:https://openreview.net/pdf?id=7Z29QbHxIL

5. DOTS: Decoupling Operation and Topology in Differentiable Architecture Search

本文研究正确的单级优化几何结构可为NAS提供最新的方法。

链接:https://openreview.net/pdf?id=y6IlNbrKcwG

6. Geometry-Aware Gradient Algorithms for Neural Architecture Search

本文研究正确的单级优化几何结构可为NAS提供最新的方法。

链接:https://openreview.net/pdf?id=MuSYkd1hxRP

7. GOLD-NAS: Gradual, One-Level, Differentiable

新的可区分NAS框架结合了一级优化和逐步修剪功能,可在大型搜索空间上工作。

链接:https://openreview.net/pdf?id=DsbhGImWjF

8. Weak NAS Predictor Is All You Need

他们提出了一种新方法,可以在基于预测变量的神经体系结构搜索中逐步估计弱预测变量。通过从粗到细的迭代,逐步完善了采样空间的排名,最终有助于找到最佳架构。

链接:https://openreview.net/pdf?id=kic8cng35wX

9. Differentiable Graph Optimization for Neural Architecture Search

他们学习了可微图神经网络作为替代模型来对候选架构进行排名。

链接:https://openreview.net/pdf?id=NqWY3s0SILo

10 . DrNAS: Dirichlet Neural Architecture Search

他们提出了一种简单而有效的渐进式学习方案,该方案可直接搜索大型任务,从而消除了搜索和评估阶段之间的差距。大量的实验证明了我们方法的有效性。

链接:https://openreview.net/pdf?id=9FWas6YbmB3

11 . Neural Architecture Search of SPD Manifold Networks

他们首先介绍几何丰富且多样化的SPD神经体系结构搜索空间,以进行有效的SPD单元设计。此外,我们使用超网策略为新的NAS问题建模,该策略将架构搜索问题建模为单个超网的一次训练过程。

链接:https://openreview.net/pdf?id=1toB0Fo9CZy

12 . Neighborhood-Aware Neural Architecture Search

他们提出了一种用于神经体系结构搜索的邻域感知公式,以在搜索空间中找到平坦的最小值,该最小值可以更好地推广到新的设置。

链接:https://openreview.net/pdf?id=KBWK5Y92BRh

13 . A Surgery of the Neural Architecture Evaluators

本文评估了在受控设置下具有多个直接标准的当前快速神经体系结构评估器。

链接:https://openreview.net/pdf?id=xBoKLdKrZd

14 . Exploring single-path Architecture Search ranking correlations

关于几种方法变化如何影响体系结构排名预测质量的实证研究。

链接:https://openreview.net/pdf?id=J40FkbdldTX

15 . Neural Architecture Search without Training

链接:https://openreview.net/pdf?id=g4E6SAAvACo

16 . Zero-Cost Proxies for Lightweight NAS

单个小批量数据用于为NAS的神经网络评分,而不是执行完整的训练。

链接:https://openreview.net/pdf?id=0cmMMy8J5q

17 . Improving Zero-Shot Neural Architecture Search with Parameters Scoring

可以考虑参数空间中的jacobian来设计分数,这可以高度预测任务的最终性能。

链接:https://openreview.net/pdf?id=4QpDyzCoH01

18. Triple-Search: Differentiable Joint-Search of Networks, Precision, and Accelerators

我们提出了三重搜索框架,以可区分的方式联合搜索网络结构,精度和硬件体系结构。

链接:https://openreview.net/pdf?id=OLOr1K5zbDu

19 . TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search

链接:https://openreview.net/pdf?id=HUd2wQ0j200

20 . Searching for Convolutions and a More Ambitious NAS

用于神经体系结构搜索的通用搜索空间,该空间可以发现击败图像数据上的卷积的操作。

链接:https://openreview.net/pdf?id=ascdLuNQY4J

21 . EnTranNAS: Towards Closing the Gap between the Architectures in Search and Evaluation

他们展示了有效的维数如何揭示现代深度学习中的多种现象,包括两次下降,宽度-深度权衡和子空间推断,同时提供了一种直接且引人注目的通用度量。

链接:https://openreview.net/pdf?id=qzqBl_nOeAQ

22 . Efficient Graph Neural Architecture Search

通过设计一种新颖而富有表现力的搜索空间,提出了一种基于随机松弛和自然梯度的高效单次NAS方法。

23 . Multi-scale Network Architecture Search for Object Detection

链接:https://openreview.net/pdf?id=mo3Uqtnvz_

24 . Exploring single-path Architecture Search ranking correlations

关于几种方法变化如何影响体系结构排名预测质量的实证研究。

25 . Network Architecture Search for Domain Adaptation

链接:https://openreview.net/pdf?id=4q8qGBf4Zxb

26 . Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective

他们的TE-NAS框架分析了神经切线核(NTK)的频谱和输入空间中线性区域的数量,从而实现了高质量的架构搜索,同时在ImageNet上将搜索成本显着降低到了四个小时。

链接:https://openreview.net/pdf?id=Cnon5ezMHtu

27. Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters

修正用于稳定DARTS算法的建筑参数梯度估计中的错误。

链接:https://openreview.net/pdf?id=67ChnrC0ybo

28. NAS-Bench-301 and the Case for Surrogate Benchmarks for Neural Architecture Search

链接:https://openreview.net/pdf?id=1flmvXGGJaa

29. NASOA: Towards Faster Task-oriented Online Fine-tuning

本文提出了一种名为NASOA的神经体系结构搜索和在线适应框架,旨在根据用户的请求进行更快的面向任务的微调。

链接:https://openreview.net/pdf?id=NqPW1ZJjXDJ

28. Model-based Asynchronous Hyperparameter and Neural Architecture Search

本文提出了一种新的异步多保真贝叶斯优化方法,可以有效地搜索神经网络的超参数和体系结构。

29. Searching for Convolutions and a More Ambitious NAS

用于神经体系结构搜索的通用搜索空间,该空间可以发现击败图像数据上的卷积的操作。

30. A Gradient-based Kernel Approach for Efficient Network Architecture Search

他们首先将这两个术语表述为基于梯度的统一内核,然后选择初始化时具有最大内核的体系结构作为最终网络。新方法取代了昂贵的“先培训后测试”评估范式。

31. Fast MNAS: Uncertainty-aware Neural Architecture Search with Lifelong Learning

他们提出了FNAS,可将基于RL的标准NAS流程加速10倍,并保证在各种视觉任务上具有更好的性能。

32. Explicit Learning Topology for Differentiable Neural Architecture Search

33. NASLib: A Modular and Flexible Neural Architecture Search Library

34. TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search

35. Rethinking Architecture Selection in Differentiable NAS

36. Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective

37. Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets

他们提出了一种有效的NAS框架,该框架在包含数据集和预先训练的网络的数据库上接受过一次训练,并且可以快速生成新数据集的神经体系结构。

38. Interpretable Neural Architecture Search via Bayesian Optimisation with Weisfeiler-Lehman Kernels

他们提出一种NAS方法,该方法效率高,性能高且可解释。

39. AutoHAS: Efficient Hyperparameter and Architecture Search

40. Differentiable Graph Optimization for Neural Architecture Search

该文学习了可微图神经网络作为替代模型来对候选架构进行排名。

41. Width transfer: on the (in)variance of width optimization

他们控制了三种现有宽度优化算法的训练配置(即网络架构和训练数据),发现优化宽度在很大程度上可以跨设置转移。

42. NAHAS: Neural Architecture and Hardware Accelerator Search

他们提出了NAHAS,这是一种由延迟驱动的软件/硬件协同优化器,可以共同优化神经体系结构和移动边缘处理器的设计。

43. Neural Network Surgery: Combining Training with Topology Optimization

他们展示了一种将神经网络训练与基于遗传算法的架构优化相结合的混合方法。

44. Efficient Architecture Search for Continual Learning

他们提出的CLEAS与神经体系结构搜索(NAS)紧密合作,后者利用强化学习技术来搜索适合新任务的最佳神经体系结构。

45. Auto Seg-Loss: Searching Metric Surrogates for Semantic Segmentation

Auto Seg-Loss是第一个用于搜索替代损失以获取主流语义细分指标的通用框架。

46. Improving Random-Sampling Neural Architecture Search by Evolving the Proxy Search Space

47. SEDONA: Search for Decoupled Neural Networks toward Greedy Block-wise Learning

首次尝试使去耦神经网络自动化以实现贪婪的逐块学习,并且在CIFAR-10,Tiny-ImageNet和ImageNet分类上均优于端到端的反向传播和最新的贪婪学习方法。

48. Intra-layer Neural Architecture Search

神经体系结构在单个权重参数的级别上进行搜索。

49. EnTranNAS: Towards Closing the Gap between the Architectures in Search and Evaluation

50. HW-NAS-Bench: Hardware-Aware Neural Architecture Search Benchmark

链接:https://openreview.net/pdf?id=_0kaDkv3dVf

请长按或扫描二维码关注本公众号

喜欢的话,请给我个在看吧

这篇关于ICLR2021 | 从50篇投稿,看模型搜索最新进展的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080714

相关文章

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python使用DeepSeek进行联网搜索功能详解

《Python使用DeepSeek进行联网搜索功能详解》Python作为一种非常流行的编程语言,结合DeepSeek这一高性能的深度学习工具包,可以方便地处理各种深度学习任务,本文将介绍一下如何使用P... 目录一、环境准备与依赖安装二、DeepSeek简介三、联网搜索与数据集准备四、实践示例:图像分类1.

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee