从起源到具体算法,这是一份适合所有人读的深度学习综述论文

本文主要是介绍从起源到具体算法,这是一份适合所有人读的深度学习综述论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

选自arXiv

作者:Md Zahangir Alom 等

机器之心编译

参与:白妤昕、黄小天、李泽南


自 2012 年多伦多大学 Alex Krizhevsky 等人提出 AlexNet 以来,「深度学习」作为一种机器学习的强大方法逐渐引发了今天的 AI 热潮。随着这种技术被应用到各种不同领域,人们已经开发出了大量新模型与架构,以至于我们无法理清网络类型之间的关系。近日,来自 University of Dayton 的研究者们对深度学习近年来的发展历程进行了全面的梳理与总结,并指出了目前人们面临的主要技术挑战。机器之心觉得这是一份非常详细的综述论文,既适合从零开始了解深度学习的人,又适合有基础的学习者。


论文地址:https://arxiv.org/abs/1803.01164


近年来,深度学习作为机器学习的新分支,其应用在多个领域取得巨大成功,并一直在快速发展,不断开创新的应用模式,创造新机会。深度学习方法根据训练数据是否拥有标记信息被划分为监督学习、半监督学习和无监督学习。实验结果显示了上述方法在图像处理、计算机视觉、语音识别、机器翻译、艺术、医学成像、医疗信息处理、机器人控制和生物、自然语言处理(NLP)、网络安全等领域的最新成果。本报告简要概述了深度学习方法的发展,包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)(包括长短期记忆(LSTM)和门控循环单元(GRU))、自 编码器(AE)、深度信念网络(DBN),生成对抗网络(GAN)和深度强化学习(DRL)。此外,本文也涵盖了深度学习方法前沿发展和高级变体深度学习技术。此外,深度学习方法在各个应用领域进行的探索和评估也包含在本次调查中。我们还会谈到最新开发的框架、SDK 和用于评估深度学习方法的基准数据集。然而,这些论文并没有讨论某些大型深度学习模型和最新开发的生成模型方法 [1]。


介绍


自 20 世纪 50 年代以来,作为人工智能子领域的机器学习已经开始革新若干个领域,而诞生自机器学习的深度学习实现了迄今为止最大的原创性突破,几乎在每个应用领域取得了显著成功。图 1 给出了 AI 的谱系。深度学习(学习或分层学习方法的深层架构)是从 2006 年兴起的一类机器学习技术。在深度学习中,学习即是评估模型参数,使学习模型(算法)可执行特定任务。例如,在人工神经网络(ANN)中,参数是权重矩阵。另一方面,深度学习在输入层和输出层之间包含若干个隐层,使得不同阶段的非线性处理单元具有层级结构,以用于特征学习和模式分类 [1, 2]。基于数据表征的学习方法也被称为表征学习 [3]。根据最新文献,基于深度学习的表征学习涉及特征或概念的层次结构,其中高级概念可以从低级概念定义,低级概念可以从高级概念定义。在一些文章中,深度学习也被描述为一种通用学习方法,可以解决不同应用领域的几乎所有问题(不局限于特定任务)[4]。

 

A. 深度学习方法的类型


像机器学习一样,深度学习方法可以分为以下几类:监督、半监督、部分监督以及无监督。此外,还有另一类学习方法称为强化学习(Reinforcement Learning)或深度强化学习(Deep Reinforcement Learning),它们经常在半监督或非监督学习方法的范围内讨论。

 

图 1:人工智能谱系:AI、机器学习、神经网络、深度学习和脉冲神经网络(SNN)。


1) 监督学习


一种使用标注数据的学习技术。在其案例中,环境包含一组对应的输入输出 。比如,输入是 x_t,智能体预测,则会获得损失值。接着智能体不断迭代调整网络参数,从而更好地近似期望输出。成功训练之后,智能体可对环境问题做出正确回答。监督学习主要有以下几种:深度神经网络 (DNN)、卷积神经网络 (CNN)、循环神经网络(包含 LSTM)以及门控循环单元(GRU)。上述网络将分别在 2、3、4、5 章节中详述。


2) 半监督学习


一种使用部分标注数据的学习技术(通常被称之为强化学习)。本文第 8 节调查了其方法。在一些案例中,深度强化学习(DRL)和生成对抗网络(GAN)常被用作半监督学习技术。此外,包含 LSTM 的 RNN 和 GRU 也可划分为半监督学习。GAN 将在第 7 节讨论。


3) 无监督学习


一种不使用标注数据的学习技术。在这种情况下,智能体学习内部表示或重要特征以发现输入数据中的未知关系或结构。无监督学习方法通常有聚类、降维和生成技术等。有些深度学习技术擅长聚类和非线性降维,如自编码器(AE)、受限玻尔兹曼机(RBM)和 GAN。此外,RNN(比如 LSTM)和 RL 也被用作半监督学习 [243]。本文第 6、7 节将分别详述 RNN 和 LSTM。


4) 深度强化学习(DRL)


一种适用于未知环境的学习技术。DRL 始于 2013 年谷歌 Deep Mind[5,6]。从此,人们基于 RL 提出了几种先进的方法,例如:如果环境样本输入:agent〜ρ,agentpredict:,agentreceivecost:,其中 P 是未知概率分布,环境向智能体提出问题,并给其一个有噪音的分值作为答案。有时这种方法也被称为半监督学习。许多半监督和无监督学习方法已经基于这个概念实施(第 8 节)。在 RL 中,我们没有一个简单的前向损失函数,因此与传统的监督方法相比,这使得机器学习变得更困难。RL 和监督学习之间的根本区别在于:首先,我们无法获取你正在优化的函数,而必须通过交互来查询它;其次,我们正在与基于状态的环境交互:输入 x_t 取决于先前的动作。


图 2:深度学习方法的分类


B. 特征学习


传统机器学习和深度学习之间的关键区别在于如何提取特征。传统机器学习方法通过应用几种特征提取算法,包括尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)、GIST、RANSAC、直方图方向梯度(HOG)、局部二元模式(LBP)、经验模式分解(EMD)语音分析等等。最后,包括支持向量机(SVM)、随机森林(RF)、主成分分析(PCA)、核主成分分析(KPCA)、线性递减分析(LDA)、Fisher 递减分析(FDA)等很多学习算法都被人们应用于分类和提取特征的任务。此外,其他增强方法通常多个应用于单个任务或数据集特征的学习算法,并根据不同算法的多个结果进行决策。


表 1:不同的特征学习方法


另一方面,在深度学习中,这些特征会被自动学习并在多个层上分层表示。这是深度学习超越传统机器学习方法的原因。上表展示了不同特征学习方法与不同学习步骤之间的关系。


C. 应用深度学习的时机和领域


人工智能在以下领域十分有用,深度学习在其中扮演重要角色:


1. 缺乏人类专家(火星导航);

2. 人们尚无法解释的专业知识(演讲、认知、视觉和语言理解);

3. 问题的解决方案随时间不断变化(追踪、天气预报、偏好、股票、价格预测);

4. 解决方案需要适应特定情况(生物统计学、个性化);

5. 人类的推理能力有限,而问题的规模却很大(计算网页排名、将广告匹配到 Facebook、情感分析)。


目前,深度学习几乎在各个领域都有应用。因此,这种方法有时也被称为通用学习方法。图 4 显示了一些示例应用程序。


图 4:成功应用深度学习并取得顶级结果的示例图


D. 深度学习的前沿发展


深度学习在计算机视觉和语音识别领域有一些突出的成就,如下所述:


1)ImageNet 数据集上的图像分类


深度学习在图像分类领域的应用基准被称为大规模视觉识别挑战(LSVRC)。基于深度学习和卷积神经网络技术,深度学习在 ImageNet 测量精确度中有很好的表现 [11]。近日,Russakovsky 等人发表了一篇关于 ImageNet 数据集的文章及近年来研究者们实现的最高精确度 [285]。下图显示了 2012 年深度学习技术的发展历程。时至今日,我们开发的方法在 ResNet-152 上只有 3.57%的误差,低于人类约 5% 的误差。


图 5:使用不同深度学习模型在 ImageNet 测试的准确性。


2)自动语音识别

 

深度学习通过 TIMIT 数据集(通用数据集通常用于评估)完成的小规模识别任务是深度学习在语音识别领域的初次成功体现。TIMIT 连续声音 - 语音语料库包含 630 位来自美国的八种主要英语口音使用者,每位发言人读取 10 个句子。下图总结了包括早期结果在内的错误率,并以过去 20 年的电话错误率(PER)来衡量。条形图清楚地表明,与 TIMIT 数据集上以前的机器学习方法相比,最近开发的深度学习方法(图顶部)表现更好。


图 6:TIMIT 数据集的电话错误率(PER)


E. 为什么要使用深度学习


1)通用学习方法


深度学习有时被称为通用学习,因为它几乎可以应用于任何领域。


2)鲁棒性


深度学习方法不需要提前设计功能。其自动学习的功能对于当前的任务来说是最佳的。结果是,任务自动获得对抗数据自然变化的鲁棒性。


3)泛化


相同的深度学习方法可以用于不同的应用程序或不同的数据类型,这种方法通常被称为迁移学习。另外,这种方法在可用数据不足时很有用。根据这个概念研究学者已经发表了多篇论文(在第 4 节中会有更详细地讨论)。


4)可扩展性


深度学习方法具有高度可扩展性。在 2015 年的一篇论文中,微软描述了一个名为 ResNet 的网络 [11]。该网络包含 1202 个层,并且通常由超级计算规模部署。美国的劳伦斯利弗莫尔国家实验室(LLNL)正在为这样的网络开发框架,该框架可以实现数千个节点 [24]。


F. 深度学习面临的挑战:


  • 使用深度学习进行大数据分析

  • 深度学习方法要有可扩展性

  • 在数据不可用于学习系统的情况下(尤其是对于计算机视觉任务,例如反向图形),生成数据的能力非常重要。

  • 特殊用途设备的低能耗技术,如移动端智能,FPGA 等。

  • 多任务和迁移学习(泛化)或多模块学习。这意味着要从不同的领域或不同的模型一起学习。

  • 在学习中处理因果关系。


图 7:深度学习的性能与数据数量之间的关系。


其次,大部分针对大规模问题的案例,其解决方案正在高性能计算机(HPC)系统(超级计算机、集群,有时被视为云计算)上部署,这为数据密集型商业计算提供了巨大的潜力。但随着数据在速度,多样性,准确性和数量上的爆炸式增长,我们越来越难以使用企业级服务器进行存储和提升计算性能。大多数论文考虑到这些需求,并提出了使用异构计算系统的高效 HPC。例如:劳伦斯利弗莫尔国家实验室(LLNL)开发了一个框架:Livermore Big Artificial Neural Networks(LBANN),用于大规模部署深度学习(超级计算规模),这一项目明确地回答了深度学习是否可扩展的问题 [24]。


第三,生成模型是深度学习的另一个挑战,其中一个例子是 GAN,它是一种优秀的数据生成方法,可以生成具有相同分布数据 [28]。第四,我们在第七节讨论过的多任务和迁移学习。第四,我们对网络架构和硬件方面的高效率深度学习方法进行了大量的研究。第 10 节讨论了这个问题。

 

我们可以制作出适用于多领域、多任务的通用模型吗?出于对多模式系统的关注,最近,谷歌提交的论文《One Model To Learn Them All》[29] 介绍了一种新方法,其可以从不同的应用领域学习,包括 ImageNet、多种翻译任务、图像标题(MS-COCO 数据集)、语音识别语料库和英语解析任务。我们将通过这次调查讨论主要挑战和相应的解决方案。在过去几年中,人们还提出了其他多任务技术。


最后,图形模型是一个具有因果关系的学习系统,用于定义如何根据数据推断因果模型。最近,已经出现了解决此类问题的深度学习方法 [33]。但是,在过去几年中,还有其他许多具有挑战性的问题仍未得到有效地解决。例如:图像或视频字幕 [34],使用 GAN [35] 从文本到图像合成 [36] 以及其他从一个域到另一个域的风格迁移。


最近,一些研究者完成了很多关于深度学习的调查,其中有一篇非常高质量的总结,但它没有涉及最近开发的 GAN 的生成模型 [28]。此外,它提及了强化学习的话题,但没有涉及深度强化学习方法的近期趋势 [1,39]。大多数情况下,调查是依据深度学习的不同方法来分类的。本报告的主要目标是介绍深度学习的总体思路及其相关领域,包括深度监督(如 DNN、CNN 和 RNN)、无监督(如 AE、RBM、GAN)(有时 GAN 也用于半监督学习任务)和深度强化学习的思路。在某些情况下,深度强化学习被认为是半监督/无监督的方法。我们考虑了该领域的最新发展趋势以及基于该技术开发的应用。此外,我们还囊括了评估深度学习技术常用的框架和基准数据集,会议和期刊的名称也包括在内。


本论文的其余部分的组织方式如下:第二节讨论 DNN 的详细调查,第三节讨论 CNN;第四节介绍了不同的先进技术,以有效地训练深度学习模型; 第五节讨论 RNN; AE 和 RBM 在第六节中讨论; GAN 及其应用在第七节讨论;强化学习在第八节中介绍;第九节解释迁移学习; 第十节介绍了深度学习的高效应用方法和硬件; 第十一节讨论了深度学习框架和标准开发工具包(SDK); 第十二节给出了不同应用领域的基准测试结果;第十三节为结论。



点击下方“阅读原文”了解【人工智能实验平台】
↓↓↓

这篇关于从起源到具体算法,这是一份适合所有人读的深度学习综述论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/898137

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig