深度学习一些基础知识 | 秋招 2022/8/24

作者：

Changwoo , 2022-08-24 09:56:59 , 所有人可见 , 阅读 195

感受野的意思是现在的一个像素对应原来的多少个像素.卷积神经网络中计算感受野的公式：BFn = BFn-1 + (kn - 1) * stride_n (stride_n是前n-1个步长乘积)
具体例子：在CNN网络中，图A经过核为3x3，步长为2的卷积层，ReLU激活函数层，BN层，以及一个步长为2，核为22的池化层后，再经过一个33的的卷积层，步长为1，此时的感受野是（）
计算过程：BF1 = 3（因为第一层的值就是核大小）BF2 = 3 + (2 - 1) * 2 = 5 BF3 = 5 + (3 - 1) * 2 * 2 = 13
每个神经元可以有一个或多个输入，和一个或多个输出。
CNN和RNN进行了权重共享，CNN主要是卷积核中的参数，RNN是UVW
整超参数来最小化代价函数（cost function）的方法有：穷举搜索：如网格法grid search 随机搜索快于穷举 bayesian优化：在上一次结果较好的参数取值附近查找

线性函数不能做激活函数比如y = 2*x
需要利用手动特征工程从原始数据的领域知识建立特征(Stage1)，然后再部署相关的机器学习算法的都不是特征学习(Stage2)，像SVM、决策树、K邻近算法、随机森林都不是，他们的定位应该是在Stage2部分
特征学习可以被分为两类：监督式特征学习（Supervised Representation Learning）和无监督式特征学习（Unsupervised Representation Learning）。
在监督特征学习中，被标记过的数据被当做特征用来学习。例如神经网络（Neural Networks），多层感知器（Multi-Layer Perception），监督字典学习（Supervised Dictionary Learning）。
在无监督特征学习中，未被标记过的数据被当做特征用来学习。例如无监督字典学习（Unsupervised Dictionary Learning），主成分分析（Principal Component Analysis），独立成分分析（Independent Component Analysis），自动编码（Auto-encoders），矩阵分解（Matrix Factorization），各种聚类分析（Clustering）及其变形。
ResNet-50 总共有50层，最后一层是全连接层，所以50-1=49卷积层

Attention-based Model其实就是一个相似性的度量，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。严格来说，Attention并算不上是一种新的model，而仅仅是在以往的模型中加入attention的思想，所以Attention-based Model或者Attention Mechanism是比较合理的叫法，而非Attention Model。
类似于马鞍这种图形的话，梯度下降不一定正确工作
*降维的两种方法： PCA 提取的是数据分布方差比较大的方向，隐藏层可以提取有预测能力的特征
HK算法思想很朴实,就是在最小均方误差准则下求得权矢量。他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。同或函数是一个非线性的函数
池化算法比如取最大值/取平均值等, 都是输入数据旋转后结果不变, 所以多层叠加后也有不变性。
BN是对多张图像的同一通道做Normalization 所以有多少通道就有多少个mean和variance
在反向传播的过程中出现了梯度消失的问题时候，是从最后层到前面层梯度依次减小到0