二、近似推断

  1. 精确推断方法通常需要很大的计算开销,因此在现实应用中近似推断方法更为常用。

    近似推断方法可以分作两类:

    • 采样sampling。通过使用随机化方法完成近似。
    • 使用确定性近似完成近似推断,典型代表为变分推断variantional inference

2.1 MCMC 采样

  1. MCMC 采样是一种常见的采样方法,可以用于概率图模型的近似推断。其原理部分参考数学基础部分的蒙特卡洛方法与 MCMC 采样

2.2 变分推断

  1. 变分推断通过使用已知简单分布来逼近需要推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。

  2. 给定多维随机变量 二、近似推断 - 图1 ,其中每个分量都依赖于随机变量 二、近似推断 - 图2 。假定 二、近似推断 - 图3 是观测变量, 二、近似推断 - 图4 是隐含变量。

    推断任务是:由观察到的随机变量 二、近似推断 - 图5 来估计隐变量 二、近似推断 - 图6 和分布参数变量 二、近似推断 - 图7 , 即求解 二、近似推断 - 图8二、近似推断 - 图9

    二、近似推断 - 图10 的估计可以使用EM算法:(设数据集 二、近似推断 - 图11

    • E步:根据 二、近似推断 - 图12 时刻的参数 二、近似推断 - 图13 ,计算 二、近似推断 - 图14 函数:

      二、近似推断 - 图15

    • M 步:基于 E 步的结果进行最大化寻优:二、近似推断 - 图16

  3. 根据 EM 算法的原理知道, 二、近似推断 - 图17 是隐变量 二、近似推断 - 图18 的一个近似后验分布。

    事实上我们可以人工构造一个概率分布 二、近似推断 - 图19 来近似后验分布 二、近似推断 - 图20 ,其中 二、近似推断 - 图21 为参数。

    如:二、近似推断 - 图22,其中 二、近似推断 - 图23 为参数, 二、近似推断 - 图24 表示正态分布。

    • 这样构造的 二、近似推断 - 图25二、近似推断 - 图26 的作用相同,它们都是对 二、近似推断 - 图27 的一个近似。

      但是选择构造 二、近似推断 - 图28 的优势是:可以选择一些性质较好的分布。

    • 根据后验概率的定义,对于每个 二、近似推断 - 图29 都需要构造对应的 二、近似推断 - 图30

  4. 根据 二、近似推断 - 图31,两边同时取对数有:

    二、近似推断 - 图32

    同时对两边对分布 二、近似推断 - 图33 求期望,由于 二、近似推断 - 图34二、近似推断 - 图35 无关,因此有:

    二、近似推断 - 图36

    其中 二、近似推断 - 图37KL 散度(Kullback-Leibler divergence),其定义为:

    二、近似推断 - 图38

    我们的目标是使得 二、近似推断 - 图39 尽可能靠近 二、近似推断 - 图40,即:二、近似推断 - 图41

    考虑到 二、近似推断 - 图42二、近似推断 - 图43 无关,因此上述目标等价于:

    二、近似推断 - 图44

    二、近似推断 - 图45ELBO:Evidence Lower Bound

    二、近似推断 - 图46 是观测变量的概率,一般被称作 evidence 。因为 二、近似推断 - 图47 ,所以有:

    二、近似推断 - 图48 。因此它被称作 Evidence Lower Bound

  5. 考虑 ELBO

    二、近似推断 - 图49

    • 第一项称作能量函数。为了使得ELBO 最大,则它倾向于在 二、近似推断 - 图50 较大的地方 二、近似推断 - 图51 也较大。
    • 第二项为 二、近似推断 - 图52 分布的熵。为了使得ELBO 最大,则它倾向于 二、近似推断 - 图53 为均匀分布。
  6. 假设 二、近似推断 - 图54 可以拆解为一系列相互独立的子变量 二、近似推断 - 图55,则有: 二、近似推断 - 图56 。这被称作平均场mean field approximation

    此时 ELBO 为:

    二、近似推断 - 图57

    定义 二、近似推断 - 图58,它就是 二、近似推断 - 图59 中去掉 二、近似推断 - 图60 的剩余部分。定义 二、近似推断 - 图61二、近似推断 - 图62 中去掉 二、近似推断 - 图63 的剩余部分。

    • 考虑第一项:

      二、近似推断 - 图64

      考虑到括号内的内容为:

      二、近似推断 - 图65

      因此第一项为:二、近似推断 - 图66

    • 考虑第二项:

      二、近似推断 - 图67

      由于 二、近似推断 - 图68 构成了一个分布函数,因此 :

      二、近似推断 - 图69

      则有:

      二、近似推断 - 图70

    即:

    二、近似推断 - 图71

  7. 定义一个概率分布 二、近似推断 - 图72,其中 二、近似推断 - 图73 是与 二、近似推断 - 图74 有关、与 二、近似推断 - 图75 无关的常数项。

    则有:

    二、近似推断 - 图76

    其中 二、近似推断 - 图77 ,因此有:

    二、近似推断 - 图78

    为求解 二、近似推断 - 图79 ,则可以看到当 二、近似推断 - 图80 时, 二、近似推断 - 图81 取最大值。 因此得到 二、近似推断 - 图82 的更新规则:

    二、近似推断 - 图83

    根据 二、近似推断 - 图84 可知:在对 二、近似推断 - 图85 进行更新时,融合了 二、近似推断 - 图86 之外的其他 二、近似推断 - 图87 的信息。

  8. 在实际应用变分法时,最重要的是考虑如何对隐变量 二、近似推断 - 图88 进行拆解,以及假设各种变量子集服从何种分布。

    如果隐变量 二、近似推断 - 图89 的拆解或者变量子集的分布假设不当,则会导致变分法效率低、效果差。