三、 最大熵马尔科夫模型MEMM
HMM
存在两个基本假设:- 观察值之间严格独立。
- 状态转移过程中,当前状态仅依赖于前一个状态(一阶马尔科夫模型)。
如果放松第一个基本假设,则得到最大熵马尔科夫模型
MEMM
。最大熵马尔科夫模型并不通过联合概率建模,而是学习条件概率 。
它刻画的是:在当前观察值 和前一个状态 的条件下,当前状态 的概率。
MEMM
通过最大熵算法来学习。根据最大熵推导的结论:
这里 就是当前观测 和前一个状态 ,因此: 。这里 就是当前状态 ,因此: 。因此得到:
MEMM
的参数学习使用最大熵中介绍的IIS
算法或者拟牛顿法,解码任务使用维特比算法。标注偏置问题:
如下图所示,通过维特比算法解码得到:
可以看到:维特比算法得到的最优路径为 。
实际上,状态 倾向于转换到状态 ;同时状态 也倾向于留在状态 。但是由于状态 可以转化出去的状态较多,从而使得转移概率均比较小。
而维特比算法得到的最优路径全部停留在状态 1 ,这样与实际不符。
MEMM
倾向于选择拥有更少转移的状态,这就是标记偏置问题。
标记偏置问题的原因是:计算 仅考虑局部归一化,它仅仅考虑指定位置的所有特征函数。
如上图中, 只考虑在 这个结点的归一化。
- 对于 ,其转出状态较多,因此每个转出概率都较小。
- 对于 ,其转出状态较少,因此每个转出概率都较大。
CRF
解决了标记偏置问题,因为CRF
是全局归一化的:它考虑了所有位置、所有特征函数。