一、最大熵模型MEM
设随机变量 的概率分布为 ,熵为: 。
可以证明: ,其中 为 的取值的个数。
当且仅当 的分布为均匀分布时有 。即 时熵最大。
1.1 最大熵原理
最大熵
Max Entropy
原理:学习概率模型时,在所有可能的概率模型(即概率分布)中,熵最大的模型是最好的模型。- 通常还有其他已知条件来确定概率模型的集合,因此最大熵原理为:在满足已知条件的情况下,选取熵最大的模型。
- 在满足已知条件前提下,如果没有更多的信息,则那些不确定部分都是“等可能的”。而
等可能性
通过熵最大化来刻画。
最大熵原理选取熵最大的模型,而决策树的划分目标选取熵最小的划分。原因在于:
最大熵原理认为在满足已知条件之后,选择不确定性最大(即:不确定的部分是等可能的)的模型。也就是不应该再施加任何额外的约束。
因此这是一个求最大不确定性的过程,所以选择熵最大的模型。
决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性,最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程,所以选取熵最小的划分。
1.2 期望的约束
一种常见的约束为期望的约束: ,其中 代表随机变量 的某个函数(其结果是另一个随机变量)。
- 其物理意义为:随机变量 的期望是一个常数。
- 示例:当 时,约束条件为: ,即随机变量 的期望为常数。
如果有多个这样的约束条件:
则需要求解约束最优化问题:
给出拉格朗日函数:
可以求得:
将 代入 ,有:
则可以求解出各个 。
该式子并没有解析解,而且数值求解也相当困难。
当只有一个约束 时,表示约束了变量的期望,即 。此时有:
代入 ,解得: 。
即:约束了随机变量期望的分布为指数分布。
当有两个约束 时,表示约束了变量的期望和方差。即:
此时有:
代入约束可以解得:
它是均值为 ,方差为 的正态分布。即:约束了随机变量期望、方差的分布为正态分布。