三、 最大熵马尔科夫模型MEMM

  1. HMM 存在两个基本假设:

    • 观察值之间严格独立。
    • 状态转移过程中,当前状态仅依赖于前一个状态(一阶马尔科夫模型)。

    如果放松第一个基本假设,则得到最大熵马尔科夫模型MEMM

  2. 最大熵马尔科夫模型并不通过联合概率建模,而是学习条件概率 三、 最大熵马尔科夫模型MEMM - 图1

    它刻画的是:在当前观察值 三、 最大熵马尔科夫模型MEMM - 图2 和前一个状态 三、 最大熵马尔科夫模型MEMM - 图3 的条件下,当前状态 三、 最大熵马尔科夫模型MEMM - 图4 的概率。

    MEMM

  3. MEMM通过最大熵算法来学习。

    根据最大熵推导的结论:

    三、 最大熵马尔科夫模型MEMM - 图6

    这里 三、 最大熵马尔科夫模型MEMM - 图7 就是当前观测 三、 最大熵马尔科夫模型MEMM - 图8 和前一个状态 三、 最大熵马尔科夫模型MEMM - 图9 ,因此:三、 最大熵马尔科夫模型MEMM - 图10 。这里 三、 最大熵马尔科夫模型MEMM - 图11 就是当前状态 三、 最大熵马尔科夫模型MEMM - 图12 ,因此: 三、 最大熵马尔科夫模型MEMM - 图13 。因此得到:

    三、 最大熵马尔科夫模型MEMM - 图14

  4. MEMM 的参数学习使用最大熵中介绍的IIS算法或者拟牛顿法,解码任务使用维特比算法。

  5. 标注偏置问题:

    如下图所示,通过维特比算法解码得到:

    三、 最大熵马尔科夫模型MEMM - 图15

    可以看到:维特比算法得到的最优路径为 三、 最大熵马尔科夫模型MEMM - 图16

    bias

    • 实际上,状态 三、 最大熵马尔科夫模型MEMM - 图18 倾向于转换到状态 三、 最大熵马尔科夫模型MEMM - 图19 ;同时状态 三、 最大熵马尔科夫模型MEMM - 图20 也倾向于留在状态 三、 最大熵马尔科夫模型MEMM - 图21 。但是由于状态 三、 最大熵马尔科夫模型MEMM - 图22 可以转化出去的状态较多,从而使得转移概率均比较小。

      而维特比算法得到的最优路径全部停留在状态 1 ,这样与实际不符。

    • MEMM倾向于选择拥有更少转移的状态,这就是标记偏置问题。

  6. 标记偏置问题的原因是:计算 三、 最大熵马尔科夫模型MEMM - 图23 仅考虑局部归一化,它仅仅考虑指定位置的所有特征函数。

    • 如上图中,三、 最大熵马尔科夫模型MEMM - 图24 只考虑在 三、 最大熵马尔科夫模型MEMM - 图25 这个结点的归一化。

      • 对于 三、 最大熵马尔科夫模型MEMM - 图26 ,其转出状态较多,因此每个转出概率都较小。
      • 对于 三、 最大熵马尔科夫模型MEMM - 图27 ,其转出状态较少,因此每个转出概率都较大。
    • CRF解决了标记偏置问题,因为CRF是全局归一化的:

      三、 最大熵马尔科夫模型MEMM - 图28

      它考虑了所有位置、所有特征函数。