一、最大熵模型MEM

  1. 设随机变量 一、最大熵模型MEM - 图1 的概率分布为 一、最大熵模型MEM - 图2,熵为:一、最大熵模型MEM - 图3

    可以证明:一、最大熵模型MEM - 图4 ,其中 一、最大熵模型MEM - 图5一、最大熵模型MEM - 图6 的取值的个数。

    当且仅当 一、最大熵模型MEM - 图7 的分布为均匀分布时有 一、最大熵模型MEM - 图8 。即 一、最大熵模型MEM - 图9 时熵最大。

1.1 最大熵原理

  1. 最大熵Max Entropy原理:学习概率模型时,在所有可能的概率模型(即概率分布)中,熵最大的模型是最好的模型。

    • 通常还有其他已知条件来确定概率模型的集合,因此最大熵原理为:在满足已知条件的情况下,选取熵最大的模型。
    • 在满足已知条件前提下,如果没有更多的信息,则那些不确定部分都是“等可能的”。而等可能性 通过熵最大化来刻画。
  2. 最大熵原理选取熵最大的模型,而决策树的划分目标选取熵最小的划分。原因在于:

    • 最大熵原理认为在满足已知条件之后,选择不确定性最大(即:不确定的部分是等可能的)的模型。也就是不应该再施加任何额外的约束。

      因此这是一个求最大不确定性的过程,所以选择熵最大的模型。

    • 决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性,最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程,所以选取熵最小的划分。

1.2 期望的约束

  1. 一种常见的约束为期望的约束:一、最大熵模型MEM - 图10 ,其中 一、最大熵模型MEM - 图11 代表随机变量 一、最大熵模型MEM - 图12 的某个函数(其结果是另一个随机变量)。

    • 其物理意义为:随机变量 一、最大熵模型MEM - 图13 的期望是一个常数。
    • 示例:当 一、最大熵模型MEM - 图14 时,约束条件为:一、最大熵模型MEM - 图15 ,即随机变量 一、最大熵模型MEM - 图16 的期望为常数。
  2. 如果有多个这样的约束条件:

    一、最大熵模型MEM - 图17

    则需要求解约束最优化问题:

    一、最大熵模型MEM - 图18

  3. 给出拉格朗日函数:

    一、最大熵模型MEM - 图19

    可以求得:

    一、最大熵模型MEM - 图20

    • 一、最大熵模型MEM - 图21 代入 ,有:

      一、最大熵模型MEM - 图22

      则可以求解出各个 一、最大熵模型MEM - 图23

    • 该式子并没有解析解,而且数值求解也相当困难。

  4. 当只有一个约束 一、最大熵模型MEM - 图24 时,表示约束了变量的期望,即 一、最大熵模型MEM - 图25 。此时有:

    一、最大熵模型MEM - 图26

    代入 一、最大熵模型MEM - 图27,解得:一、最大熵模型MEM - 图28

    即:约束了随机变量期望的分布为指数分布。

  5. 当有两个约束 一、最大熵模型MEM - 图29 时,表示约束了变量的期望和方差。即:

    一、最大熵模型MEM - 图30

    此时有:

    一、最大熵模型MEM - 图31

    代入约束可以解得:

    一、最大熵模型MEM - 图32

    它是均值为 一、最大熵模型MEM - 图33,方差为 一、最大熵模型MEM - 图34 的正态分布。即:约束了随机变量期望、方差的分布为正态分布。