-
感受野的意思是现在的一个像素对应原来的多少个像素.卷积神经网络中计算感受野的公式:BFn = BFn-1 + (kn - 1) * stride_n (stride_n是前n-1个步长乘积)
具体例子:在CNN网络中,图A经过核为3x3,步长为2的卷积层,ReLU激活函数层,BN层,以及一个步长为2,核为22的池化层后,再经过一个33的的卷积层,步长为1,此时的感受野是()
计算过程:BF1 = 3(因为第一层的值就是核大小)BF2 = 3 + (2 - 1) * 2 = 5 BF3 = 5 + (3 - 1) * 2 * 2 = 13 -
每个神经元可以有一个或多个输入,和一个或多个输出。
- CNN和RNN进行了权重共享,CNN主要是卷积核中的参数,RNN是UVW
- 整超参数来最小化代价函数(cost function)的方法有:穷举搜索:如网格法grid search 随机搜索快于穷举 bayesian优化:在上一次结果较好的参数取值附近查找
- 线性函数不能做激活函数 比如y = 2*x
- 需要利用手动特征工程从原始数据的领域知识建立特征(Stage1),然后再部署相关的机器学习算法的都不是特征学习(Stage2),像SVM、决策树、K邻近算法、随机森林都不是,他们的定位应该是在Stage2部分
- 特征学习可以被分为两类:监督式特征学习(Supervised Representation Learning)和无监督式特征学习(Unsupervised Representation Learning)。
在监督特征学习中,被标记过的数据被当做特征用来学习。例如神经网络(Neural Networks),多层感知器(Multi-Layer Perception),监督字典学习(Supervised Dictionary Learning)。
在无监督特征学习中,未被标记过的数据被当做特征用来学习。例如无监督字典学习(Unsupervised Dictionary Learning),主成分分析(Principal Component Analysis),独立成分分析(Independent Component Analysis),自动编码(Auto-encoders),矩阵分解(Matrix Factorization) ,各种聚类分析(Clustering)及其变形。 - ResNet-50 总共有50层,最后一层是全连接层,所以50-1=49卷积层
- Attention-based Model其实就是一个相似性的度量,当前的输入与目标状态越相似,那么在当前的输入的权重就会越大,说明当前的输出越依赖于当前的输入。严格来说,Attention并算不上是一种新的model,而仅仅是在以往的模型中加入attention的思想,所以Attention-based Model或者Attention Mechanism是比较合理的叫法,而非Attention Model。
- 类似于马鞍这种图形的话,梯度下降不一定正确工作
*降维的两种方法: PCA 提取的是数据分布方差比较大的方向,隐藏层可以提取有预测能力的特征 - HK算法思想很朴实,就是在最小均方误差准则下求得权矢量。他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。同或函数是一个非线性的函数
- 池化算法比如取最大值/取平均值等, 都是输入数据旋转后结果不变, 所以多层叠加后也有不变性。
- BN是对多张图像的同一通道做Normalization 所以有多少通道就有多少个mean和variance
- 在反向传播的过程中出现了梯度消失的问题时候,是从最后层到前面层梯度依次减小到0
- 矩阵相乘运算次数可以理解为结果矩阵的元素个数与每个元素所需次数的乘积