一、生成式半监督学习方法
生成式
generative methods
半监督学习方法:直接基于生成式模型的方法。生成式半监督学习方法假设所有数据(无论是否有标记),都是由同一个潜在的模型生成的。
- 该假设使得能够通过潜在模型的参数将未标记样本与学习目标联系起来。
- 未标记样本的标记可以视作模型的缺失参数,通常可以基于
EM
算法进行极大似然估计求解。
- 生成式半监督学习方法其实是一个算法框架,内部不同算法的主要区别在于生成式模型的假设:不同的假设将产生不同的方法。
1.1 生成式高斯混合半监督学习
给定样本 ,其真实类别标记为 。
假设样本由高斯混合模型产生,且每个类别对应一个高斯混合成分。即数据样本是基于概率密度:
来产生的。其中:
- 是样本 的第 个高斯混合成分的概率。
- 为该高斯混合成分的参数。
- 混合系数 。
令 为模型 对 的预测标记, 表示样本 隶属的高斯混合成分。
根据最大化后验概率,有:
考虑到 , 则有:
由于 , 则有:
为已知样本 ,则它由第 个高斯混合成分生成的后验概率
为已知 由第 个高斯混合成分生成,则其类别为 的概率
在 中, 需要知道样本的标记 ; 而 并不需要样本的标记。因此有标记和无标记的数据均可利用。
因此通过引入大量的未标记数据,对 的估计可以由于数据量的增长而更为准确,于是上式的整体估计可能会更准确。
给定标记样本集 ,和未标记样本集 ,其中 。
假设所有样本独立同分布,且都是由同一个高斯混合模型 生成的。
高斯混合模型的参数 采用极大似然法来估计。
的对数似然是:
第一项对数项中,为联合概率 :
第二项对数项中,为概率 :
高斯混合模型参数估计可以用
EM
算法求解。迭代更新步骤为:E
步:根据当前模型参数 计算未标记样本 属于各高斯混合成分的概率:
M
步:基于 更新模型参数。令 为第 类的有标记样本数目,则:
![](/projects/huaxiaozhuan-ai/ae1bb6632307b74988980a3dd7fc7a92.svg)
以上过程不断迭代直至收敛,即可获得模型参数。
预测过程:根据式子:
来对样本 进行分类。
1.2 性质
如果将上述过程中的高斯混合模型替换成其他模型,则可以推导出其他的生成式半监督学习方法。
生成式半监督学习方法优点:方法简单,易于实现。在有标记数据极少的情况下,往往比其他方法性能更好。
缺点:模型假设必须准确,即假设的生成式模型必须与真实数据分布吻合,否则利用未标记数据反倒会降低泛化性能。
在现实任务中往往很难事先做出准确的模型假设,除非拥有充分可靠的领域知识。