五、感知机
5.1 定义
感知机是二分类的线性分类模型,属于判别模型。
- 模型的输入为实例的特征向量,模型的输出为实例的类别:正类取值
+1
, 负类取值-1
。 - 感知机的物理意义:将输入空间(特征空间)划分为正、负两类的分离超平面。
- 模型的输入为实例的特征向量,模型的输出为实例的类别:正类取值
设输入空间(特征空间)为 ;输出空间为 ;输入 为特征空间的点;输出 为实例的类别。
定义函数 为感知机。其中:
- 为权值向量, 为偏置。它们为感知机的参数。
sign
为符号函数:
感知机的几何解释: 对应特征空间 上的一个超平面 ,称作分离超平面。
是超平面 的法向量, 是超平面的截距。
超平面 将特征空间划分为两个部分:
- 超平面 上方的点判别为正类。
- 超平面 下方的点判别为负类。
5.2 损失函数
给定数据集 ,其中 。
若存在某个超平面 : , 使得将数据集中的正实例点与负实例点完全正确地划分到超平面的两侧,则称数据集 为线性可分数据集;否则称数据集 线性不可分。
划分到超平面两侧,用数学语言描述为:
根据感知机的定义:
对正确分类的点 ,有
对误分类的点 ,有
如果将感知机的损失函数定义成误分类点的中总数,则它不是 的连续可导函数,不容易优化。
因此,定义感知机的损失函数为误分类点到超平面 的总距离。
对误分类的点,则 距离超平面的距离为:
由于 ,以及 ,因此上式等于
不考虑 ,则得到感知机学习的损失函数:
其中:
- 为误分类点的集合。它隐式的与 相关,因为 优化导致误分类点减少从而使得 收缩。
- 之所以不考虑 ,因为感知机要求训练集线性可分,最终误分类点数量为零,此时损失函数为零。即使考虑分母,也是零。若训练集线性不可分,则感知机算法无法收敛。
- 误分类点越少或者误分类点距离超平面 越近, 则损失函数 越小。
对于特定的样本点,其损失为:
- 若正确分类,则损失为 0 。
- 若误分类,则损失为 的线性函数。
因此给定训练集 ,损失函数 是 的连续可导函数。
5.3 学习算法
给定训练集 ,求参数 :
。
5.3.1 原始形式
假设误分类点集合 是固定的,则损失函数 的梯度为:
通过梯度下降法,随机选取一个误分类点 ,对 进行更新:
其中 是步长,即学习率。
通过迭代可以使得损失函数 不断减小直到 0 。
感知机学习算法的原始形式:
输入:
- 线性可分训练集
- 学习率
输出:
感知机模型:
步骤:
选取初始值 。
在训练集中选取数据 。若 则:
在训练集中重复选取数据来更新 直到训练集中没有误分类点。
5.3.2 性质
对于某个误分类点 ,假设它被选中用于更新参数。
- 假设迭代之前,分类超平面为 ,该误分类点距超平面的距离为 。
- 假设迭代之后,分类超平面为 ,该误分类点距超平面的距离为 。
则:
因此有 。
这里要求 ,因此步长 要相当小。
几何解释 :当一个实例点被误分类时,调整 使得分离平面向该误分类点的一侧移动,以减少该误分类点与超平面间的距离,直至超平面越过所有的误分类点以正确分类。
感知机学习算法由于采用不同的初值或者误分类点选取顺序的不同,最终解可以不同。
5.3.3 收敛性
感知机收敛性定理:设线性可分训练集 。
存在满足 的超平面: ,该超平面将 完全正确分开。
且存在 ,对所有的 有: 。
其中 。
令 ,则感知机学习算法原始形式在 上的误分类次数 满足:
感知机收敛性定理说明了:
当训练集线性可分时,感知机学习算法原始形式迭代是收敛的。
- 此时算法存在许多解,既依赖于初值,又依赖于误分类点的选择顺序。
- 为了得出唯一超平面,需要对分离超平面增加约束条件。
- 当训练集线性不可分时,感知机学习算法不收敛,迭代结果会发生震荡。
5.3.4 对偶形式
根据原始迭代形式 :
取初始值 均为 0。则 可以改写为:
这就是感知机学习算法的对偶形式。
感知机学习算法的对偶形式:
输入:
- 线性可分训练集
- 学习率
输出:
- ,其中 。
- 感知机模型 。
步骤:
- 初始化: 。
- 在训练集中随机选取数据 ,若 则更新:
- 在训练集中重复选取数据来更新 直到训练集中没有误分类点。
在对偶形式中, 训练集 仅仅以内积的形式出现,因为算法只需要内积信息。
可以预先将 中的实例间的内积计算出来,并以矩阵形式存储。即
Gram
矩阵:与原始形式一样,感知机学习算法的对偶形式也是收敛的,且存在多个解。