四、集成策略
学习器组合可以能带来好处:
由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能。
此时如果使用单学习器可能因为造成误选而导致泛化性能不佳,通过学习器组合之后会减小这一风险。
学习算法往往会陷入局部极小。有的局部极小点所对应的泛化性能可能很差,而通过学习器组合之后可降低陷入糟糕局部极小的风险。
某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时使用单学习器肯定无效。
通过学习器组合之后,由于相应的假设空间有所扩大,有可能学得更好的近似。
假定集成包含 个基学习器 。一共有三种集成策略:
- 平均法。
- 投票法。
- 学习法。
4.1 平均法
平均法通常用于回归任务中。
简单平均法: 。
加权平均法:
其中学习器 的权重 是从训练数据中学的。
现实任务中训练样本通常不充分或者存在噪声,这就使得学得的权重不完全可靠。尤其是对于规模比较大的集成学习,要学习的权重比较多,很容易出现过拟合。
因此实验和应用均显示出,加权平均法不一定优于简单平均法。
通常如果个体学习器性能相差较大时,适合使用加权平均法;个体学习器性能相差较近时,适合使用简单平均法。
4.2 投票法
投票法通常用于分类任务中。
绝大多数投票法:若某个标记得票数过半,则预测为该标记;否则拒绝预测。
此时很有可能所有标记都未过半,则预测失败。因此这种方法比较少用。
相对多数投票法:选取得票最多的标记作为预测值: 。
加权投票法:类似于加权平均法,其中学习器 的权重 是从训练数据中学的: 。
4.3 学习法
学习法中,个体学习器的分类结果通过与另一个学习器来组合。
此时称个体学习器为初级学习器,用于组合的学习器称作次级学习器或者元学习器
meta_learner
。学习法的典型代表就是
stacking
集成算法。stacking
集成算法中:首先从初始数据集训练出初级学习器。
然后将初级学习器的预测结果作为一个新的数据集用于训练次级学习器。
在这个新数据集中,初级学习器的输出被当作样本输入特征;初始样本的标记仍被视作标记。
若直接使用初级学习器的输出来产生次级训练集,则容易发生过拟合。
一般是通过使用交叉验证,使用训练初级学习器时未使用的样本来产生次级学习器的训练样本。
次级学习器的输入属性表示和次级学习算法对
stacking
集成算法的泛化性能有很大影响。通常推荐:- 次级学习器的输入特征是以初级学习器的输出类概率为特征。
- 次级学习算法采用多响应线性回归
Multi-response Linear Regression:MLR
。