二、 特征选择

  1. 特征选择的关键是:选取对训练数据有较强分类能力的特征。若一个特征的分类结果与随机分类的结果没有什么差别,则称这个特征是没有分类能力的。

  2. 通常特征选择的指标是:信息增益或者信息增益比。这两个指标刻画了特征的分类能力。

  3. 对于分布 二、 特征选择 - 图1,熵为 二、 特征选择 - 图2

    定义数据集 二、 特征选择 - 图3 的经验熵为:二、 特征选择 - 图4

    其中:

    • 样本的类别分别为 二、 特征选择 - 图5

    • 类别 二、 特征选择 - 图6 的样本的数量为 二、 特征选择 - 图7 ,所有样本的总数为 二、 特征选择 - 图8

      因此有: 二、 特征选择 - 图9

    • 二、 特征选择 - 图10 是概率 二、 特征选择 - 图11 的估计。

    • 二、 特征选择 - 图12 就是熵 二、 特征选择 - 图13 的估计。它刻画了数据集 二、 特征选择 - 图14 中样本的类别分布情况。

  4. 对于特征 二、 特征选择 - 图15 ,定义数据集 二、 特征选择 - 图16二、 特征选择 - 图17 上的经验熵为:二、 特征选择 - 图18

    其中:

    • 特征 二、 特征选择 - 图19 的取值范围为 二、 特征选择 - 图20

    • 属性二、 特征选择 - 图21 的样本的数量为 二、 特征选择 - 图22

      因此有:二、 特征选择 - 图23

    • 二、 特征选择 - 图24 是概率 二、 特征选择 - 图25 的估计。

    • 二、 特征选择 - 图26 刻画了数据集 二、 特征选择 - 图27 中的样本在属性 二、 特征选择 - 图28 上的取值分布情况。

  5. 对于特征 二、 特征选择 - 图29 ,其条件熵为:二、 特征选择 - 图30

    定义数据集 二、 特征选择 - 图31 关于特征 二、 特征选择 - 图32 的经验条件熵为:

    二、 特征选择 - 图33

    其中:

    • 属性 二、 特征选择 - 图34 且类别为 二、 特征选择 - 图35 的样本的数量为 二、 特征选择 - 图36,所有样本的总数为 二、 特征选择 - 图37

      因此有: 二、 特征选择 - 图38

    • 二、 特征选择 - 图39 是条件熵 二、 特征选择 - 图40 的估计。它刻画了数据集 二、 特征选择 - 图41 中,属性 二、 特征选择 - 图42 中的那些样本中的类别的分布情况。

    • 二、 特征选择 - 图43 是条件熵 二、 特征选择 - 图44 的估计。

2.1 信息增益

  1. 特征 二、 特征选择 - 图45 对训练数据集 二、 特征选择 - 图46 的信息增益 二、 特征选择 - 图47 定义为:集合 二、 特征选择 - 图48 的经验熵 二、 特征选择 - 图49 与关于特征 二、 特征选择 - 图50 经验条件熵 二、 特征选择 - 图51 之差。即: 二、 特征选择 - 图52

    由于熵 二、 特征选择 - 图53 也称作互信息,因此信息增益也等于训练数据集中类与特征的互信息。

  2. 决策树学习可以应用信息增益来选择特征。给定训练集 二、 特征选择 - 图54 和特征 二、 特征选择 - 图55

    • 经验熵 二、 特征选择 - 图56 刻画了对数据集 二、 特征选择 - 图57 进行分类的不确定性。
    • 经验条件熵 二、 特征选择 - 图58 刻画了在特征 二、 特征选择 - 图59 给定条件下,对数据集 二、 特征选择 - 图60 分类的不确定性。
    • 信息增益 二、 特征选择 - 图61 刻画了由于特征 二、 特征选择 - 图62 的确定,从而使得对数据集 二、 特征选择 - 图63 的分类的不确定性减少的程度。
  3. 不同的特征往往具有不同的信息增益。

    • 信息增益大的特征具有更强的分类能力 。
    • 如果一个特征的信息增益为0,则表示该特征没有什么分类能力。

2.2 信息增益比

  1. 以信息增益作为划分训练集的特征选取方案,存在偏向于选取值较多的特征的问题。

    公式 二、 特征选择 - 图64 中:

    • 当极限情况下 ,特征 二、 特征选择 - 图65 在每个样本上的取值都不同,即 二、 特征选择 - 图66

      • 此时特征 二、 特征选择 - 图67 将每一个样本都划分到不同的子结点。即:二、 特征选择 - 图68

      • 由于 二、 特征选择 - 图69 ,因此有: 二、 特征选择 - 图70

        即:二、 特征选择 - 图71 取值为 0 或者 1 。因此有:二、 特征选择 - 图72

      • 最终使得二、 特征选择 - 图73

    • 条件熵的最小值为 0,这意味着该情况下的信息增益达到了最大值。

      然而很显然这个特征 二、 特征选择 - 图74 显然不是最佳选择,因为它并不具有任何分类能力。

  2. 可以通过定义信息增益比来解决该问题。

    特征 二、 特征选择 - 图75 对训练集 二、 特征选择 - 图76 的信息增益比 二、 特征选择 - 图77 定义为:信息增益 二、 特征选择 - 图78 与关于特征 二、 特征选择 - 图79 的熵 二、 特征选择 - 图80 之比:

    二、 特征选择 - 图81

    二、 特征选择 - 图82 表征了特征 二、 特征选择 - 图83 对训练集 二、 特征选择 - 图84 的拆分能力。

    因为 二、 特征选择 - 图85 只考虑样本在特征 二、 特征选择 - 图86 上的取值,而不考虑样本的标记 二、 特征选择 - 图87 ,所以这种拆分并不是对样本的分类。

  3. 信息增益比本质上是对信息增益乘以一个加权系数:

    • 当特征 二、 特征选择 - 图88 的取值集合较大时,加权系数较小,表示抑制该特征。
    • 当特征 二、 特征选择 - 图89 的取值集合较小时,加权系数较大,表示鼓励该特征。