12.半监督学习 - 一、生成式半监督学习方法 - 《AI算法工程师手册》

一、生成式半监督学习方法

生成式generative methods 半监督学习方法：直接基于生成式模型的方法。
生成式半监督学习方法假设所有数据（无论是否有标记），都是由同一个潜在的模型生成的。
- 该假设使得能够通过潜在模型的参数将未标记样本与学习目标联系起来。
- 未标记样本的标记可以视作模型的缺失参数，通常可以基于EM算法进行极大似然估计求解。
生成式半监督学习方法其实是一个算法框架，内部不同算法的主要区别在于生成式模型的假设：不同的假设将产生不同的方法。

给定样本，其真实类别标记为。

假设样本由高斯混合模型产生，且每个类别对应一个高斯混合成分。即数据样本是基于概率密度：

来产生的。其中：
- 是样本的第个高斯混合成分的概率。
- 为该高斯混合成分的参数。
- 混合系数。
令为模型对的预测标记，表示样本隶属的高斯混合成分。

根据最大化后验概率，有：
- 考虑到，则有：
- 由于，则有：
  - 为已知样本，则它由第个高斯混合成分生成的后验概率
  - 为已知由第个高斯混合成分生成，则其类别为的概率
在中，需要知道样本的标记；而并不需要样本的标记。因此有标记和无标记的数据均可利用。

因此通过引入大量的未标记数据，对的估计可以由于数据量的增长而更为准确，于是上式的整体估计可能会更准确。
给定标记样本集，和未标记样本集，其中。

假设所有样本独立同分布，且都是由同一个高斯混合模型生成的。
- 高斯混合模型的参数采用极大似然法来估计。
- 的对数似然是：
  - 第一项对数项中，为联合概率：
  - 第二项对数项中，为概率：
高斯混合模型参数估计可以用EM算法求解。迭代更新步骤为：
- E步：根据当前模型参数计算未标记样本属于各高斯混合成分的概率：
- M步：基于更新模型参数。
  
  令为第类的有标记样本数目，则：

![](/projects/huaxiaozhuan-ai/ae1bb6632307b74988980a3dd7fc7a92.svg)
以上过程不断迭代直至收敛，即可获得模型参数。

如果将上述过程中的高斯混合模型替换成其他模型，则可以推导出其他的生成式半监督学习方法。
生成式半监督学习方法优点：方法简单，易于实现。在有标记数据极少的情况下，往往比其他方法性能更好。

缺点：模型假设必须准确，即假设的生成式模型必须与真实数据分布吻合，否则利用未标记数据反倒会降低泛化性能。

在现实任务中往往很难事先做出准确的模型假设，除非拥有充分可靠的领域知识。