一、集成学习误差

  1. 考虑一个二类分类问题。设单个样本为 一、集成学习误差 - 图1,真实类别为 一、集成学习误差 - 图2

    假定基类分类器的错误率为 一、集成学习误差 - 图3,即对每个基分类器 一、集成学习误差 - 图4 有:一、集成学习误差 - 图5

    • 假设集成学习通过简单投票法结合 一、集成学习误差 - 图6 个基分类器 一、集成学习误差 - 图7 。即:若有超过半数的基分类器正确,则集成分类就正确。根据描述,给出集成学习器为:一、集成学习误差 - 图8

    • 集成学习器预测错误的条件为: 一、集成学习误差 - 图9 个基分类器预测正确,其中 一、集成学习误差 - 图10(即:少于一半的基分类器预测正确), 一、集成学习误差 - 图11 个基分类器预测错误。

      假设基分类器的错误率相互独立,则集成学习器预测错误的概率为:一、集成学习误差 - 图12

    • 根据Hoeffding不等式有:一、集成学习误差 - 图13

      可以看出:随着 一、集成学习误差 - 图14 , 集成学习器预测错误的概率 一、集成学习误差 - 图15

  2. 上述推论有非常关键的一个地方:假设基分类器的错误率相互独立。

    • 实际上个体学习器是为了解决同一个问题训练出来的,而且可能是同一类算法从同一个训练集中产生。

      这样个体学习器的错误率显然不能相互独立。

    • 实际上个体学习器的准确性和多样性本身就存在冲突。

      • 通常个体学习器的准确性很高之后,要增加多样性就需要牺牲准确性。
      • 实际上如何产生并结合”好而不同“的个体学习器就是集成学习研究的核心。