二、分类任务最大熵模型

来源:华校专浏览 1636 扫码分享 2020-06-07 18:14:53

二、分类任务最大熵模型

二、分类任务最大熵模型

设分类模型是一个条件概率分布为输入，为输出。

给定一个训练数据集，学习的目标是用最大熵原理选取最好的分类模型。

2.1 最大熵模型

根据训练集，可以得到联合分布的经验分布和的经验分布：

其中为样本数量，为频数。
用特征函数描述输入和输出之间的某个事实：
- 特征函数是一个二值函数，但是理论上它也可以取任意值。
- 特征函数关于经验分布的期望定义为：。
  
  这个期望其实就是约束在训练集上的统计结果的均值（也就是约束出现的期望的估计量）。
  - 如果取值为二值0,1，则表示约束在训练集上出现的次数的均值。
  - 如果取值为任意值，则表示约束在训练集上累计的结果的均值。
- 特征函数关于模型与经验分布的期望用表示：
  
  理论上，这里使用作为的估计。
- 可以假设这两个期望相等，即：。
  - 在时为 0，在才有可能非 0 。因此仅仅在上累加。
  - 在时为 0，在才有可能非 0 。因此仅在上累加。
理论上，由于，看起来可以使用作为的一个估计。

但是这个估计只考虑某个点上的估计，并未考虑任何约束。所以这里通过特征函数的两种期望相等来构建在数据集整体上的最优估计。
最大熵模型：假设有个约束条件，满足所有约束条件的模型集合为：。

定义在条件概率分布上的条件熵为：

则模型集合中条件熵最大的模型称为最大熵模型。

2.2 词性标注约束案例

在词性标注任务中，给定单词序列，需要给出每个单词对应的词性。如：{他们吃苹果} 对应的标注序列为 {代词动词名词} 。

假设标注仅仅与当前单词有关，与前面、后面的单词无关，也无前面、后面的标注有关。即：标注由单词唯一决定。

则统计文本中所有单词及其词性，得到训练集，其中为单词数量。
假设没有任何约束，则每个单词取得任何词性的概率都是等可能的。现在发现：苹果 这个单词的词性标记结果中，大部分都是名词，因此可以定义特征函数：

统计满足特征函数的样本的个数，除以样本总数。则可以认为：当数据足够多时，这个商就是统计意义下的结果：

其中：
- ，为二元对出现的次数。
- 满足特征函数的样本出现总数为：。
事实上对于任意单词，其中为所有单词的词汇表，为词汇表大小；以及对任意词性，其中为词性集合（如名词、动词、形容词….)，为词性表大小。可以任意选择搭配从而构造非常庞大的特征函数：

以及约束条件：。其中为满足特征函数的样本个数。
- 如果较大，则说明该约束指定的 单词,词性 搭配的可能性很高。
- 如果较小，则说明该约束指定的 单词,词性 搭配的可能性很低。
- 如果为 0，则说明该约束指定的 单词,词性 搭配几乎不可能出现。
待求的模型为。以矩阵的形式描述为：

其中，即单词的词性为的概率。
- 设单词在中出现的次数为，则有：。则有：
- 考虑到，则根据有：
  - 其物理意义为：单词的词性为的概率 = 数据集中单词的词性为出现的次数 / 数据集中单词出现的次数。
  - 由于，，因此可以发现有：
    
    因此在这个特殊的情形下，是的估计。
事实上，真实的词性标注还需要考虑前后单词的词性的影响。比如：不可能出现连续的三个动词，也不可能出现连续的五个代词。

当需要考虑前后文影响时，需要使用 HMM 模型或者 CRF 模型。

2.3 模型求解

对给定的训练数据集，以及特征函数，最大熵模型的学习等价于约束最优化问题：
将其转化为最小化问题：

其中：
- 是已知的。
- 是未知的。
将约束最优化的原始问题转换为无约束最优化的对偶问题，通过求解对偶问题来求解原始问题。

引入拉格朗日乘子，定义拉格朗日函数：
- 最优化的原始问题是：，对偶问题是。
- 由于拉格朗日函数是凸函数，因此原始问题的解与对偶问题的解是等价的。
- 求解对偶问题：先求解内部的极小化问题，之后求解对偶问题外部的极大化问题。
先求解内部的极小化问题：。

它是一个的函数，将其记作：。
- 先用对求偏导数：
  
  令偏导数为 0 。在时，解得：
- 由于，则有：。因此有：
- 定义为规范因子，则：
  
  由该式表示的模型就是最大熵模型。
再求解对偶问题外部的极大化问题：。
- 将其解记作，即：。
- 求得之后，用它来表示，得到，即得到最大熵模型。
上述过程总结为：
- 先求对偶问题的内部极小化，得到函数，以及极值点。
- 再求函数的极大值，得到。
- 最后将代入得到最终模型。
可以证明：函数的最大化，等价于最大熵模型的极大似然估计。

证明如下：已知训练数据中，出现的频次为。则条件概率分布的对数似然函数为：

将对数似然函数除以常数，考虑到，其中为经验概率分布。则的对数似然函数为：

再利用：

代入，最后化简合并，最终发现它就是。

2.4 最大熵与逻辑回归

设为维变量，对于二类分类问题，定义个约束：
根据最大熵的结论，有：

以及：
- 当时有：
- 当时有：
最终得到：

这就是逻辑回归模型。

当前内容版权归华校专或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问华校专 .

本文档使用 BookStack 构建

展开/收起文章目录