一、示例

1.1 身高抽样问题

  1. 假设学校所有学生中,男生身高服从正态分布 一、示例 - 图1, 女生身高服从正态分布 一、示例 - 图2

    现在随机抽取200名学生,得到这些学生的身高 一、示例 - 图3,求参数 一、示例 - 图4 的估计。

  2. 定义隐变量为 一、示例 - 图5 ,其取值为 一、示例 - 图6 ,分别表示男生、女生

    • 如果隐变量是已知的,即已知每个学生是男生还是女生 一、示例 - 图7,则问题很好解决:

      • 统计所有男生的身高的均值和方差,得到 一、示例 - 图8

        一、示例 - 图9

        其中 一、示例 - 图10 表示满足 一、示例 - 图11一、示例 - 图12 构成的集合。一、示例 - 图13 分别表示平均值和方差。

      • 统计所有女生的身高的均值和方差,得到 一、示例 - 图14

        一、示例 - 图15

        其中 一、示例 - 图16 表示满足 一、示例 - 图17一、示例 - 图18 构成的集合。一、示例 - 图19 分别表示平均值和方差。

    • 如果已知参数 一、示例 - 图20,则任意给出一个学生的身高 一、示例 - 图21 ,可以知道该学生分别为男生/女生的概率。

      一、示例 - 图22

      则有:一、示例 - 图23 。因此也就知道该学生更可能为男生,还是更可能为女生。

    因此:参数 一、示例 - 图24 学生是男生/女生,这两个问题是相互依赖,相互纠缠的。

  3. 为解决该问题,通常采取下面步骤:

    • 先假定参数的初始值:一、示例 - 图25

    • 迭代 :一、示例 - 图26

      • 根据 一、示例 - 图27 来计算每个学生更可能是属于男生,还是属于女生。

        这一步为E 步(Expectation),用于计算隐变量的后验分布 一、示例 - 图28

      • 根据上一步的划分,统计所有男生的身高的均值和方差,得到 一、示例 - 图29 ;统计所有女生的身高的均值和方差,得到 一、示例 - 图30

        这一步为 M 步(Maximization ),用于通过最大似然函数求解正态分布的参数。

      • 当前后两次迭代的参数变化不大时,迭代终止。

1.2 三硬币模型

  1. 已知三枚硬币 ABC ,这些硬币正面出现的概率分别为 一、示例 - 图31。进行如下试验:

    • 先投掷硬币 A,若是正面则选硬币 B;若是反面则选硬币 C
    • 然后投掷被选出来的硬币,投掷的结果如果是正面则记作 1;投掷的结果如果是反面则记作0
    • 独立重复地 一、示例 - 图32 次试验,观测结果为: 1,1,0,1,0,...0,1

    现在只能观测到投掷硬币的结果,无法观测投掷硬币的过程,求估计三硬币正面出现的概率。

  2. 设:

    • 随机变量 一、示例 - 图33 是观测变量,表示一次试验观察到的结果,取值为 1 或者0
    • 随机变量 一、示例 - 图34 是隐变量,表示未观测到的投掷A硬币的结果,取值为 1 或者 0
    • 一、示例 - 图35 是模型参数

    则:

    一、示例 - 图36

    注意:随机变量 一、示例 - 图37 的数据可以观测,随机变量 一、示例 - 图38 的数据不可观测

  3. 将观测数据表示为 一、示例 - 图39,未观测数据表示为 一、示例 - 图40

    由于每次试验之间都是独立的,则有:

    一、示例 - 图41

  4. 考虑求模型参数 一、示例 - 图42 的极大似然估计,即:

    一、示例 - 图43

    这个问题没有解析解,只有通过迭代的方法求解,EM算法就是可以用于求解该问题的一种迭代算法。

  5. EM算法求解:

    首先选取参数的初值,记作 一、示例 - 图44,然后通过下面的步骤迭代计算参数的估计值,直到收敛为止:

    设第 一、示例 - 图45 次迭代参数的估计值为: 一、示例 - 图46, 则EM算法的第 一、示例 - 图47 次迭代如下:

    • E步:计算模型在参数 一、示例 - 图48 下,观测数据 一、示例 - 图49 来自于投掷硬币 B 的概率:

      一、示例 - 图50

      它其实就是 一、示例 - 图51,即:已知观测变量 一、示例 - 图52的条件下,观测数据 一、示例 - 图53 来自于投掷硬币 B 的概率。

    • M 步:计算模型参数的新估计值:

      一、示例 - 图54

      • 第一个式子:通过后验概率 一、示例 - 图55 估计值的均值作为先验概率 一、示例 - 图56 的估计。
      • 第二个式子:通过条件概率 一、示例 - 图57 的估计来求解先验概率 一、示例 - 图58 的估计。
      • 第三个式子:通过条件概率 一、示例 - 图59 的估计来求解先验概率 一、示例 - 图60 的估计。
  6. EM 算法的解释:

    • 初始化:随机选择三枚硬币 ABC 正面出现的概率 一、示例 - 图61 的初始值 一、示例 - 图62

    • E 步:在已知概率 一、示例 - 图63 的情况下,求出每个观测数据 一、示例 - 图64 是来自于投掷硬币 B 的概率。即:一、示例 - 图65

      于是对于 一、示例 - 图66 次实验,就知道哪些观测数据是由硬币 B 产生,哪些是由硬币 C 产生。

    • M 步:在已知哪些观测数据是由硬币 B 产生,哪些是由硬币 C 产生的情况下:

      • 一、示例 - 图67 就等于硬币 B 产生的次数的频率。
      • 一、示例 - 图68 就等于硬币B 产生的数据中,正面向上的频率。
      • 一、示例 - 图69 就等于硬币 C 产生的数据中,正面向上的频率。