六、序列最小最优化方法
支持向量机的学习问题可以形式化为求解凸二次规划问题。这样的凸二次规划问题具有全局最优解,并且有多种算法可以用于这一问题的求解。
当训练样本容量非常大时,这些算法往往非常低效。而序列最小最优化(
sequential minimal optimization:SMO
)算法可以高效求解。SMO
算法的思路:若所有变量都满足条件,则最优化问题的解就得到了。
否则,选择两个变量的同时固定其他所有变量,针对这两个变量构建一个二次规划子问题。
这个二次规划子问题关于这两个变量的解应该更接近原始二次规划问题的解,因为这会使得原始二次规划问题的目标函数值变得更小。
更重要的是,这个二次规划子问题可以通过解析的方法求解。
此时子问题有两个变量,至少存在一个变量不满足约束条件(否则就是所有变量满足条件了)。
假设其中一个是违反约束最严重的那个,另一个由约束等式自动确定: 。
SMO
算法将原始问题不断地分解为子问题并且对子问题求解,进而达到求解原问题的目的。整个
SMO
算法包括两部分:- 求解两个变量二次规划的解析方法。
- 选择变量的启发式方法。
6.1 子问题的求解
假设选择的两个变量是 , 其他变量 是固定的。
于是
SMO
的最优化问题的子问题为:其中 为常数, 且目标函数式中省略了不含 的常数项。
6.1.1 取值范围约束
的约束条件为:
当 异号时, 位于直线 ,且在矩形范围内。矩形的长为 ,宽为 , 起始点坐标为
(0,0)
: 此时 和 的取值范围为:当 时(上面那条线):
当 时(下面那条线):
当 同号时, 位于直线 ,且在矩形范围内。矩形的长为 ,宽为 , 起始点坐标为
(0,0)
:此时 取值范围为:
- 当 时:(上面那条线)
当 时:(下面那条线)
假设 的最优解为 ,其初始可行解为 ; 的初始可行解为 。
既然是初始可行解,则需要满足约束条件。因此有
假设 的取值范围为 ,则有:
当 时:
若 ,则 ;若 ,则 。
根据:
则有: 。
当 时:
若 ,则 ;若, 则 。
根据 ,则有:
6.1.2 解析解
令 。它表示解得 参数之后,对 的预测值。预测值的正负代表了分类的结果。
令 。
- 表示 的预测值与真实输出 之差。
- 表示 的预测值与真实输出 之差。
根据 ,将 代入 中。
求解 ,即可得到 的最优解(不考虑约束条件):
其中:
中的 分别为 (它们表示初始的可行解,用于消掉 )。
将 截断,则得到 的解析解为:
其中 为初始可行解, 为最终解。
根据 ,以及 ,得到 :
。
其中 为初始可行解, 为最终解。
6.2 变量选择
SMO
算法在每个子问题中选择两个变量进行优化,其中至少一个变量是违反约束条件的。如果都不违反约束条件,则说明已经求解了。
6.2.1 外层循环
第一个变量的选择过程称为外层循环。
外层循环在训练样本中选择违反约束条件最严重的样本点,并将对应的变量作为第一个变量。
具体来讲,就是检验训练样本点 是否满足约束条件(
KKT
条件):其中, 。
检验时:
- 外层循环首先遍历所有满足条件 的样本点,即间隔边界上的支持向量点。
- 如果这些样本点都满足条件,再遍历整个训练集,检验是否满足条件。
6.2.2 内存循环
第二个变量的选择过程称为内层循环。
假设已经在外层循环中找到第一个变量 , 现在要在内层循环中找到第二个变量 。第二个变量选择标准是希望能够使得 有足够大的变化。
由前面式子可知, 依赖于 。一种简单的做法是选择 ,使得对应的 最大。因为 已经确定, 也已经确定。
- 如果 为正数,则选择最小的 作为 。
- 如果 为负数,则选择最大的 作为 。
为了节省计算时间,可以将所有 值保存在一个列表中。
特殊情况下,若内层循环找到的 不能使得目标函数有足够的下降,则采用以下的启发式规则继续选择 :
- 遍历在间隔边界上的支持向量点,依次将其对应的变量作为 试用,直到目标函数有足够的下降。
- 若还是找不到合适的 ,则遍历训练数据集寻找。
- 若还是找不到合适的 ,则放弃找到的 ,再通过外层循环寻求另外的 。
6.2.3 参数更新
每次完成两个变量的优化后,都要重新计算 。根据约束条件有:
当 时: 。
代入 的定义式有: 。
同样,当 时有: 。
如果 同时满足 ,则有:
如果 或者为 0,或者为 ,则 区间内的数都可以作为 。此时一个选择是:
每次完成两个变量的优化后,需要更新对应的 值。 的更新要用到 以及所有支持向量对应的 。
6.3 SMO算法
SMO
算法:输入:
- 训练数据集 ,其中
- 精度
输出:近似解
算法步骤:
取初值 ,
选取优化变量 ,解析求解两个变量的最优化问题,求得最优解 ,更新 为 。
若在精度 范围内满足停机条件:
则退出迭代并令 ;否则令 ,继续迭代。
其中 。