感知机
感知机基本模型
神经网络和支持向量机的基础
感知准则特点:随意确定的判别函数初始值,在对样本分类训练的过程中逐步修正直至最终确定。
二类分类的线性分类模型
输入:特征向量
输出:实例的类别,+1/-1
思想:导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。
感知机参数学习
感知机:$f(x)=sign(w·x+b)$
符号函数:$sign(x)=\{+1(x>=0),-1(x<0)\}$
定义损失函数并将损失函数极小化
损失函数:误分类点到超平面的总距离
$L(w,b)=\sum_{x_i\in M}y_i(w*x_i+b)$(M为超平面误分类点的集合)
梯度下降法:
随机梯度下降:
梯度下降:每次考虑所有样本,比随机梯度准确,但速度过慢
批量梯度下降:每次迭代随机选取一部分训练样本来计算梯度并更新参数
感知机实验实例
支持向量机
模型
通过结构风险最小化来提高学习机的泛化能力。
二分类模型:$f(x)=sign(w·x+b)$
基本模型:在特征空间上的间隔最大的线性分类器,即SVM的学习策略是使间隔最大化(间隔最大的超平面是唯一的),最终转化为一个凸二次规划问题的求解。
间隔
间隔分为函数间隔和几何间隔,函数间隔随参数变大也变大,造成虽然超平面没有变化,但函数间隔变化,所以一般以几何间隔作为判断依据。
离超平面最近的点称为支持向量。
硬间隔最大化
最大间隔分离超平面具有唯一性。
当数据中有噪声时,数据往往不可分。
对于偏离正常位置的噪声点成为特异点(outlier),可能对SVM模型造成很大的影响。
软间隔最大化
合页损失函数
多分类支持向量机
例如:手写数字分类
将多个二分类SVM组合,将0和!0分割,1和!1分割……
对偶学习
线性可分支持向量机的对偶形式
优点:对偶问题更容易求解,自然引入核函数
对偶问题的对偶是原问题;无论原问题是否是凸的,对偶问题都是凸优化问题;对偶问题可以给出原问题的一个下界;当满足一定条件时,原始问题和对偶问题的解是完全等价的。
原问题:
$min f(x)$
$s.t. g_i(x)≤0,i = 1,2,…,q$
$h_j(x)=0,j = 1,2,…,p$
拉格朗日函数
$L(x,α,β)=f(x)+\sumα_ig_i(x)+\sumβ_jh_j(x)$
原函数
$f(x) = max L(x,α,β)>L(x,α’,β’)$
因此原问题有
$min f(x)=min maxL(x,α,β)$
定义对偶函数$(dual function)$
$D(α,β) = min L(x,a,β)$
·假设原问题解$p^\*$,对偶问题解$d^\*$
·有$d^\* ≤p^\*$
·对偶问题是原问题的一个下界
对偶问题$max_{a,β} min_x L(x,α,β)$
$D(α,B) = min_xL(x,α,β)≤L(x,α,β)≤max_{α,β,β_i≥0}L(x,α,β) = f(x) $
即$D(α,β)≤f(x)$,所以自然而然可得:
$d^\*=max_{α,β,β_i≥0}L(x, α, β)≤min_xf(x) = p^\*$
无论原始问题是什么形式,对偶问题总是一个凸优化的问题,这样对于那些难以求解的原始问题(甚至是NP问题),均可以通过转化为偶问题,通过这个对偶问题来得到原始问题的一个下界
弱对偶性相对应的有一个强对偶性,强对偶即满足:$d\* =p\*$
拉格朗日乘子(Lagrange Multiplier)
基本的拉格朗日乘子法就是求函数$f(x1,x2,…)$在$g(x1,x2,…)=0$约束条件下的极值的方法其主要思想是将约束条件函数与原函数联立,人而求出使原函数取得极值的各个变量的解
$min f(x)$
$s.t. h_i(x)=0,i = 1,2,…,p$
$∇L_x= 0,∇L_β= 0$
$L(x, β) = f(x)+\sumβ_ih_i(x)$
逻辑斯蒂回归
Logistic回归为概率型回归模型
研究内容:当Y取某值(Y=1)发生的概率P与X的关系