DL理论笔记与理解

2024-06-23 21:48

文章标签 笔记理解理论 dl

本文主要是介绍DL理论笔记与理解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

gradient的方向代表函数值增大的方向（这个方向由沿着各个轴方向偏导方向综合的方向），大小代表函数值变化的快慢。
导数概念很大，偏导是沿着某方向上的导，梯度是沿着各个方向数偏导的向量。
softmax函数叫这个的原因，把原来较大的数值压缩成相对的大数，把原来较小的数压缩在密集的空间，把数据间的margin压缩得越来越大，这就类似金字塔效应，你能力比别人强一些，得到的收益可能比别人强太多。
CNN中卷积计算并不是真正的数学上的卷积。数学上的卷积运算可交换性的出现是因为我们将核相对输入进行了翻转。一个基于核翻转的卷积运算的算法所学得的核，是对未进行翻转的算法学得的核的翻转。训练的时候若是用真正的卷积（翻转），测试的时候也得用真正的卷积（翻转），这样就相当于没翻转。
卷积稀疏交互。相对FC来言，同样的是一层网络的units，卷积层交互次数少，filter size远小于input feature map size，这就会有receptive field稀疏（全为0或者说有效特征信息少）。
卷积权值共享。滑动过程同一filter的值固定。
CNN随着网络的深入，input feature map的W/H变小C变大，也就是慢慢失去位置信息，最终Flatten之后FC实现概率映射的分类问题。
Pooling具有少量平移不变性。这个是基于如下假设：对输入进行“少量”平移，经池化后的大多数输出不发生改变。个人理解这条性质跟filter size、stride等有很大的关系。