二、分类任务最大熵模型
设分类模型是一个条件概率分布 为输入, 为输出。
给定一个训练数据集 ,学习的目标是用最大熵原理选取最好的分类模型。
2.1 最大熵模型
根据训练集 ,可以得到联合分布 的经验分布 和 的经验分布 :
其中 为样本数量, 为频数。
用特征函数 描述输入 和输出 之间的某个事实:
特征函数是一个二值函数,但是理论上它也可以取任意值。
特征函数 关于经验分布 的期望定义为 : 。
这个期望其实就是约束 在训练集上的统计结果的均值(也就是约束 出现的期望的估计量)。
- 如果 取值为二值
0,1
,则表示约束 在训练集上出现的次数的均值。 - 如果 取值为任意值,则表示约束 在训练集上累计的结果的均值。
- 如果 取值为二值
特征函数 关于模型 与经验分布 的期望用 表示:
理论上 ,这里使用 作为 的估计。
可以假设这两个期望相等,即:。
- 在 时为 0,在 才有可能非 0 。因此 仅仅在 上累加。
- 在 时为 0,在 才有可能非 0 。因此 仅在 上累加。
理论上,由于 ,看起来可以使用 作为 的一个估计。
但是这个估计只考虑某个点 上的估计,并未考虑任何约束。所以这里通过特征函数的两种期望相等来构建在数据集整体上的最优估计。
最大熵模型:假设有 个约束条件 ,满足所有约束条件的模型集合为: 。
定义在条件概率分布 上的条件熵为:
则模型集合 中条件熵最大的模型称为最大熵模型。
2.2 词性标注约束案例
在词性标注任务中,给定单词序列 ,需要给出每个单词对应的词性 。如 :
{他们 吃 苹果}
对应的标注序列为{代词 动词 名词}
。假设标注仅仅与当前单词有关,与前面、后面的单词无关,也无前面、后面的标注有关。即:标注 由单词 唯一决定。
则统计文本中所有单词及其词性,得到训练集 ,其中 为单词数量。
假设没有任何约束,则每个单词取得任何词性的概率都是等可能的。现在发现:
苹果
这个单词的词性标记结果中,大部分都是名词
,因此可以定义特征函数:统计满足特征函数的样本的个数 ,除以样本总数 。则可以认为:当数据足够多时,这个商就是统计意义下的结果:
其中:
- , 为二元对 出现的次数。
- 满足特征函数的样本出现总数为: 。
事实上对于任意单词 ,其中 为所有单词的词汇表, 为词汇表大小; 以及对任意词性 ,其中 为词性集合(如名词、动词、形容词….), 为词性表大小。 可以任意选择搭配从而构造非常庞大的特征函数:
以及约束条件: 。其中 为满足特征函数 的样本个数。
- 如果 较大,则说明该约束指定的
单词,词性
搭配的可能性很高。 - 如果 较小,则说明该约束指定的
单词,词性
搭配的可能性很低。 - 如果 为 0,则说明该约束指定的
单词,词性
搭配几乎不可能出现。
- 如果 较大,则说明该约束指定的
待求的模型为 。以矩阵的形式描述为:
其中 ,即单词 的词性为 的概率。
设单词 在 中出现的次数为 ,则有: 。则有:
考虑到 ,则根据 有:
其物理意义为:单词 的词性为 的概率 = 数据集 中单词 的词性为 出现的次数 / 数据集 中单词 出现的次数。
由于 , ,因此可以发现有:
因此在这个特殊的情形下, 是 的估计。
事实上,真实的词性标注还需要考虑前后单词的词性的影响。比如:不可能出现连续的三个动词,也不可能出现连续的五个代词。
当需要考虑前后文影响时,需要使用
HMM
模型 或者CRF
模型。
2.3 模型求解
对给定的训练数据集 ,以及特征函数 ,最大熵模型的学习等价于约束最优化问题:
将其转化为最小化问题:
其中:
- 是已知的。
- 是未知的。
将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题来求解原始问题。
引入拉格朗日乘子 ,定义拉格朗日函数 :
- 最优化的原始问题是: ,对偶问题是 。
- 由于拉格朗日函数 是凸函数,因此原始问题的解与对偶问题的解是等价的。
- 求解对偶问题:先求解内部的极小化问题,之后求解对偶问题外部的极大化问题。
先求解内部的极小化问题: 。
它是一个 的函数,将其记作: 。
先用 对 求偏导数:
令偏导数为 0 。在 时,解得:
由于 ,则有: 。因此有:
定义 为规范因子,则:
由该式表示的模型 就是最大熵模型。
再求解对偶问题外部的极大化问题: 。
- 将其解记作 ,即: 。
- 求得 之后,用它来表示 ,得到 ,即得到最大熵模型。
上述过程总结为:
- 先求对偶问题的内部极小化,得到 函数,以及极值点 。
- 再求 函数的极大值,得到 。
- 最后将 代入 得到最终模型 。
可以证明: 函数的最大化,等价于最大熵模型的极大似然估计。
证明如下:已知训练数据 中, 出现的频次为 。则条件概率分布 的对数似然函数为:
将对数似然函数除以常数 ,考虑到 ,其中 为经验概率分布。则 的对数似然函数为:
再利用 :
代入,最后化简合并,最终发现它就是 。
2.4 最大熵与逻辑回归
设 为 维变量,对于二类分类问题,定义 个约束:
根据最大熵的结论,有:
以及:
当 时有:
当 时有:
最终得到:
这就是逻辑回归模型。