深度神经网络为何成功?其中的过程、思想和关键主张选择

2023-10-29 18:45

本文主要是介绍深度神经网络为何成功?其中的过程、思想和关键主张选择,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       历史总是由一群人共同创造的,历史的闪亮则是由一群人中的某一小撮人创造的。那么,我们看看深度学习的成功史,看看ChatGPT是怎样出现的。

        LeNet(1989)在小数据集上取得了很好的效果,但是在更大、更真实地数据集上训练卷积神经网络地性能和可行性还有待研究。

       与神经网络竞争的是传统机器学习方法,比如SVM(支持向量机)。这个阶段性能比神经网络方法好。

        这个时期,有好多人在研究,他们持有不同的观点和信念,有一小撮人的观点、信念以及思想主张和坚持,最终成就人类的历史伟业。

        机器学习研究人员的观点:相信机器学习既重要又美丽,用优雅的理论证明各种模型的性质。

        计算机视觉的研究人员的观点:推动领域进步的是数据特征,而不是学习算法。他们相信,从对最终模型精度的影响来说,更大或更干净的数据集或是稍加改进的特征提取方法,比任何学习算法带来的进步大的多。

        另一种观点:观察并设计图像特征的提取方法。主要工作是设计一套新的特征函数,改进结果并撰写论文,代表性成果有:SIFT、SURF、HOG等。

       还有一组研究人员(Yann LeCun, Geoff Hinton, Yoshua Bengio, Andrew Ng, Shun-ichi Amari, and Juergen Schmidhuber)的观点:认为特征本身应该被学习。有趣的是,在AlexNet网络的底层,模型学习到了一些类似于传统滤波器的特征提取器。

       最终的突破出现在2012年,AlexNet在ImageNet挑战赛上一战成名,以很大优势赢得挑战。成功可以归因于两个关键的因素:数据和硬件。2009年,ImageNet有100万个样本,1000个不同类别的对象。硬件上GPU的发展,庞大的GPU数量远远快于CPU的计算能力,GPU的带宽比CPU快10倍。

       在这个思路上一路狂奔,出现了阿尔法狗(AlphaGo)一样,2016年和2017年在围棋挑战赛上分别打败李世石和柯洁,引发全球轰动。

       在这个思路上继续发展,产生了transformer、bert等等优秀的深度学习模型类,ChatGPT(2022)则是一个现象级应用,吸引了大量关注。

       ChatGPT的出现,其基础是超过万亿的数据量(数据),上万张的GPU并行计算(算力),千亿甚至万亿参数的神经网络(算法),在今天,处于全球领先地位(the state of art),具有强大的引领效应。
     

      从transformer到ChatGPT的演进过程,可参考文章《ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT_v_JULY_v的博客-CSDN博客》。

这篇关于深度神经网络为何成功?其中的过程、思想和关键主张选择的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/302630

相关文章

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五):Blender锥桶建模

前言 本系列教程旨在使用UE5配置一个具备激光雷达+深度摄像机的仿真小车,并使用通过跨平台的方式进行ROS2和UE5仿真的通讯,达到小车自主导航的目的。本教程默认有ROS2导航及其gazebo仿真相关方面基础,Nav2相关的学习教程可以参考本人的其他博客Nav2代价地图实现和原理–Nav2源码解读之CostMap2D(上)-CSDN博客往期教程: 第一期:基于UE5和ROS2的激光雷达+深度RG