二、近似推断
精确推断方法通常需要很大的计算开销,因此在现实应用中近似推断方法更为常用。
近似推断方法可以分作两类:
- 采样
sampling
。通过使用随机化方法完成近似。 - 使用确定性近似完成近似推断,典型代表为变分推断
variantional inference
。
- 采样
2.1 MCMC 采样
MCMC
采样是一种常见的采样方法,可以用于概率图模型的近似推断。其原理部分参考数学基础部分的蒙特卡洛方法与 MCMC 采样
。
2.2 变分推断
变分推断通过使用已知简单分布来逼近需要推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。
给定多维随机变量 ,其中每个分量都依赖于随机变量 。假定 是观测变量, 是隐含变量。
推断任务是:由观察到的随机变量 来估计隐变量 和分布参数变量 , 即求解 和 。
的估计可以使用
EM
算法:(设数据集 )在
E
步:根据 时刻的参数 ,计算 函数:在
M
步:基于E
步的结果进行最大化寻优: 。
根据
EM
算法的原理知道, 是隐变量 的一个近似后验分布。事实上我们可以人工构造一个概率分布 来近似后验分布 ,其中 为参数。
如:,其中 为参数, 表示正态分布。
这样构造的 与 的作用相同,它们都是对 的一个近似。
但是选择构造 的优势是:可以选择一些性质较好的分布。
根据后验概率的定义,对于每个 都需要构造对应的 。
根据 ,两边同时取对数有:
同时对两边对分布 求期望,由于 与 无关,因此有:
其中 为
KL
散度(Kullback-Leibler divergence
),其定义为:我们的目标是使得 尽可能靠近 ,即: 。
考虑到 与 无关,因此上述目标等价于:
称 为
ELBO:Evidence Lower Bound
。是观测变量的概率,一般被称作
evidence
。因为 ,所以有:。因此它被称作
Evidence Lower Bound
。考虑
ELBO
:- 第一项称作能量函数。为了使得
ELBO
最大,则它倾向于在 较大的地方 也较大。 - 第二项为 分布的熵。为了使得
ELBO
最大,则它倾向于 为均匀分布。
- 第一项称作能量函数。为了使得
假设 可以拆解为一系列相互独立的子变量 ,则有: 。这被称作平均场
mean field approximation
。此时
ELBO
为:定义 ,它就是 中去掉 的剩余部分。定义 为 中去掉 的剩余部分。
考虑第一项:
考虑到括号内的内容为:
因此第一项为: 。
考虑第二项:
由于 构成了一个分布函数,因此 :
则有:
即:
定义一个概率分布 ,其中 是与 有关、与 无关的常数项。
则有:
其中 ,因此有:
为求解 ,则可以看到当 时, 取最大值。 因此得到 的更新规则:
根据 可知:在对 进行更新时,融合了 之外的其他 的信息。
在实际应用变分法时,最重要的是考虑如何对隐变量 进行拆解,以及假设各种变量子集服从何种分布。
如果隐变量 的拆解或者变量子集的分布假设不当,则会导致变分法效率低、效果差。