三、马尔可夫随机场

  1. 根据前面的介绍,有向图模型可以将一组变量上的联合概率分布分解为局部条件概率分布的乘积。无向图模型也可以表示一个分解形式。

    马尔可夫随机场Markov Random Field:MRF是一种著名的无向图模型。

  2. 现实任务中,可能只知道两个变量之间存在相关关系,但是并不知道具体怎样相关,也就无法得到变量之间的依赖关系。

    • 贝叶斯网络需要知道变量之间的依赖关系,从而对依赖关系(即条件概率)建模。

    • 马尔科夫随机场并不需要知道变量之间的依赖关系。它通过变量之间的联合概率分布来直接描述变量之间的关系。

      如: 三、马尔可夫随机场 - 图1 两个变量的联合概率分布为:

      三、马尔可夫随机场 - 图2三、马尔可夫随机场 - 图3
      三、马尔可夫随机场 - 图41000
      三、马尔可夫随机场 - 图510
      三、马尔可夫随机场 - 图620
      三、马尔可夫随机场 - 图72000

      则这个分布表示:三、马尔可夫随机场 - 图8三、马尔可夫随机场 - 图9 取值相同的概率很大。

    • 事实上这里的 三、马尔可夫随机场 - 图10 就是后面介绍的势函数。

      • 它们的总和不一定为 1 。即:这个表格并未定义一个概率分布,它只是告诉我们某些配置具有更高的可能性。
      • 它们并没有条件关系,它涉及到变量的联合分布的比例。
  3. 马尔可夫随机场可以应用于图像问题中。

    • 每个像素都表示成一个节点,相邻像素之间相互影响。
    • 像素之间并不存在因果关系,它们之间的作用是对称的。因此使用无向图概率模型,而不是有向图概率模型。

3.1 马尔科夫性

  1. 对结点 三、马尔可夫随机场 - 图11 ,若去掉结点 三、马尔可夫随机场 - 图12 之后 三、马尔可夫随机场 - 图13 分属于两个联通分支,则称结点 三、马尔可夫随机场 - 图14 关于结点 三、马尔可夫随机场 - 图15 条件独立,记作 三、马尔可夫随机场 - 图16

    这一概念可以推广到集合。

  2. 分离集separating set:如下图所示,若从结点集 A中的结点到结点集B中的结点都必须经过结点集C中的结点,则称结点集A和结点集B被结点集C分离,C称作分离集。

    三、马尔可夫随机场 - 图17

  3. 马尔可夫随机场有三个马尔可夫性定义:

    • 全局马尔科夫性。
    • 局部马尔科夫性。
    • 成对马尔科夫性。
  4. 全局马尔可夫性global Markov property:给定两个变量子集和它们的分离集,则这两个变量子集关于分离集条件独立。

    如上图,令结点集ABC对应的变量集分别为 三、马尔可夫随机场 - 图18, 则 三、马尔可夫随机场 - 图19三、马尔可夫随机场 - 图20 在给定 三、马尔可夫随机场 - 图21 的条件下独立,记作:三、马尔可夫随机场 - 图22

  5. 局部马尔可夫性local Markov property:给定某变量的邻接变量,则该变量与其他变量(既不是该变量本身,也不是邻接变量)关于邻接变量条件独立。

    即:令 三、马尔可夫随机场 - 图23 为图的结点集, 三、马尔可夫随机场 - 图24 为结点 三、马尔可夫随机场 - 图25 在图上的邻接结点, 三、马尔可夫随机场 - 图26 ,则有:

    三、马尔可夫随机场 - 图27

    这是根据全局马尔可夫性推导而来

    三、马尔可夫随机场 - 图28

  6. 成对马尔可夫性pairwise Markov property:给定两个非邻接变量,则这两个变量关于其他变量(即不是这两个变量的任何其他变量)条件独立。

    即:令 三、马尔可夫随机场 - 图29 为图的结点集,令 三、马尔可夫随机场 - 图30 为图的边集。对图中的两个结点 三、马尔可夫随机场 - 图31,若 三、马尔可夫随机场 - 图32 , 则有:

    三、马尔可夫随机场 - 图33

    这也是根据全局马尔可夫性推导而来

    三、马尔可夫随机场 - 图34

3.2 极大团

  1. 考虑两个结点 三、马尔可夫随机场 - 图35,如果它们之间不存在链接,则给定图中其他所有结点,那么这两个结点一定是条件独立的

    • 因为这两个结点之间没有直接的路径,并且所有其他路径都通过了观测的结点。

    • 该条件独立性表示为:

      三、马尔可夫随机场 - 图36

    • 对于联合概率分布的分解,则一定要让 三、马尔可夫随机场 - 图37 不能出现在同一个因子中,从而让属于这个图的所有可能的概率分布都满足条件独立性质。

  2. 这里引入团的概念:

    • 对于图中结点的一个子集,如果其中任意两个结点之间都有边连接,则称该结点子集为一个团clique。即:团中的结点集合是全连接的。

    • 若在一个团中加入团外的任何一个结点都不再形成团,则称该团为极大团maximal clique

      即:极大团就是不能被其他团所包含的团。

    • 显然,每个结点至少出现在一个极大团中。

      如下图所示

      • 所有的团有: 三、马尔可夫随机场 - 图38
      • 极大团有:三、马尔可夫随机场 - 图39

      三、马尔可夫随机场 - 图40

  3. 可以将联合概率分布分解的因子定义为团中变量的函数,也称作势函数。

    它是定义在随机变量子集上的非负实函数,主要用于定义概率分布函数。

  4. 在马尔可夫随机场中,多个变量之间的联合概率分布能够基于团分解为多个因子的乘积,每个因子仅和一个团相关。

    对于 三、马尔可夫随机场 - 图41 个随机变量 三、马尔可夫随机场 - 图42 ,所有团构成的集合为 三、马尔可夫随机场 - 图43 , 与团 三、马尔可夫随机场 - 图44 对应的变量集合记作 三、马尔可夫随机场 - 图45 ,则联合概率 三、马尔可夫随机场 - 图46 定义为:

    三、马尔可夫随机场 - 图47

    其中:

    • 所有团构成了整个概率图(团包含了结点和连接), 任意两个团之间不互相包含(但是可以相交)。
    • 三、马尔可夫随机场 - 图48 为与团 三、马尔可夫随机场 - 图49 对应的势函数,用于对 团 三、马尔可夫随机场 - 图50 中的变量关系进行建模。
    • 三、马尔可夫随机场 - 图51 为规范化因子,确保 三、马尔可夫随机场 - 图52 满足概率的定义。
    • 实际应用中,三、马尔可夫随机场 - 图53 的精确计算非常困难。但是很多任务往往并不需要获得 三、马尔可夫随机场 - 图54 的精确值。
  5. 在上述 三、马尔可夫随机场 - 图55 计算公式中,团的数量会非常多。如:所有相互连接的两个结点都会构成一个团。这意味着有非常多的乘积项。

    注意到:若团 三、马尔可夫随机场 - 图56 不是极大团,则它必被一个极大团 三、马尔可夫随机场 - 图57 所包含。此时有: 三、马尔可夫随机场 - 图58

    于是: 随机变量集合 三、马尔可夫随机场 - 图59内部随机变量之间的关系不仅体现在势函数 三、马尔可夫随机场 - 图60 中,也体现在势函数 三、马尔可夫随机场 - 图61 中(这是根据势函数的定义得到的结论)。

    于是: 联合概率 三、马尔可夫随机场 - 图62 可以基于极大团来定义。假定所有极大团构成的集合为 三、马尔可夫随机场 - 图63, 则有Hammersley-Clifford 定理:

    三、马尔可夫随机场 - 图64

    其中:三、马尔可夫随机场 - 图65 为规范化因子,确保 三、马尔可夫随机场 - 图66 满足概率的定义 。

  6. 通常贝叶斯网络可以将因子定义成表格形态,而马尔可夫随机场将因子定义为势函数。因为马尔可夫随机场无法将因子表格化。

    假设有 三、马尔可夫随机场 - 图67 个随机变量 三、马尔可夫随机场 - 图68 ,它们的取值都是 三、马尔可夫随机场 - 图69 。假设马尔可夫随机场中它们是全连接的,则其联合概率分布需要 三、马尔可夫随机场 - 图70 个参数。

    如果表达成表格形态,横轴表示连接的一个端点、纵轴表示连接的另一个端点,则需要 三、马尔可夫随机场 - 图71 个参数。当 三、马尔可夫随机场 - 图72 较大的时候, 三、马尔可夫随机场 - 图73 ,因此表格无法完全描述马尔可夫随机场的参数。

  7. 全局马尔可夫性的一个证明:

    三、马尔可夫随机场 - 图74

    将上图简化为如下所示:

    三、马尔可夫随机场 - 图75

    • 最大团有两个:三、马尔可夫随机场 - 图76 ,因此联合概率为:

      三、马尔可夫随机场 - 图77

    • 基于条件概率的定义有:

      三、马尔可夫随机场 - 图78

      根据:

      三、马尔可夫随机场 - 图79

      三、马尔可夫随机场 - 图80三、马尔可夫随机场 - 图81 代入,有:

      三、马尔可夫随机场 - 图82

    • 考虑 三、马尔可夫随机场 - 图83

    三、马尔可夫随机场 - 图84

    • 同理,可以推导出:

    三、马尔可夫随机场 - 图85

    • 于是有:

      三、马尔可夫随机场 - 图86

  8. 有向图和无向图模型都将复杂的联合分布分解为多个因子的乘积:

    • 无向图模型的因子是势函数,需要全局归一化。

      优点是:势函数设计不受概率分布的约束,设计灵活。

    • 有向图模型的因子是概率分布,不需要全局归一化。

      优点是:训练相对高效。

3.3 势函数

  1. 势函数 三、马尔可夫随机场 - 图87 的作用是刻画变量集 三、马尔可夫随机场 - 图88 中变量之间的相关关系。

  2. 与有向图的联合分布的因子不同,无向图中的势函数没有一个具体的概率意义。

    • 这可以使得势函数的选择具有更大的灵活性,但是也产生一个问题:对于具体任务来说,如何选择势函数。
    • 可以这样理解:将势函数看做一种度量:它表示局部变量的哪种配置优于其他配置。
  3. 势函数必须是非负函数(确保概率非负),且在所偏好的变量取值上具有较大的函数值。 如:

    三、马尔可夫随机场 - 图89

    • 该模型偏好变量 三、马尔可夫随机场 - 图90 拥有相同的取值;偏好 三、马尔可夫随机场 - 图91 拥有不同的取值。
    • 如果想获取较高的联合概率,则可以令 三、马尔可夫随机场 - 图92三、马尔可夫随机场 - 图93 相同,且 三、马尔可夫随机场 - 图94三、马尔可夫随机场 - 图95 不同。
  4. 通常使用指数函数来定义势函数:

    三、马尔可夫随机场 - 图96

    其中 三、马尔可夫随机场 - 图97 是一个定义在变量集 三、马尔可夫随机场 - 图98 上的实值函数,称作能量函数。

    • 指数分布被称作玻尔兹曼分布。

    • 联合概率分布被定义为势函数的乘积,因此总能量可以通过将每个最大团中的能量相加得到。

      这就是采取指数函数的原因,指数将势函数的乘积转换为能量函数的相加。

  5. 三、马尔可夫随机场 - 图99 常见形式为:

    三、马尔可夫随机场 - 图100

    其中:

    • 三、马尔可夫随机场 - 图101 表示系数; 三、马尔可夫随机场 - 图102 表示约束条件。
    • 上式第一项考虑每一对结点之间的关系;第二项考虑单个结点。

3.4 图像降噪应用

  1. 马尔可夫随机场的一个应用是图像降噪。

    如下图所示,左侧图片为原始图像,右侧图片为添加了一定噪音(假设噪音比例不超过 10%) 的噪音图像。现在给定噪音图像,需要得到原始图像。

    三、马尔可夫随机场 - 图103

  2. 设随机变量 三、马尔可夫随机场 - 图104 表示噪音图像中的像素,随机变量 三、马尔可夫随机场 - 图105 表示原始图像中的像素。其中:

    • 三、马尔可夫随机场 - 图106 代表图片上的每个位置。
    • 三、马尔可夫随机场 - 图107 。当它们取 +1 时,表示黑色;取-1 时,表示白色。
  3. 由于已知噪音图像,因此 三、马尔可夫随机场 - 图108 的分布是已知的。原始图像未知,则 三、马尔可夫随机场 - 图109 的分布待求解。

    • 由于噪音图像是从原始图像添加噪音而来,因此我们认为:三、马尔可夫随机场 - 图110三、马尔可夫随机场 - 图111 具有较强的关联。

    • 由于原始图像中,每个像素和它周围的像素值比较接近,因此 三、马尔可夫随机场 - 图112 与它相邻的像素也存在较强的关联。

      因此我们假设:三、马尔可夫随机场 - 图113 只和它直接相邻的像素有联系(即:条件独立性质)。

    因此得到一个具备局部马尔可夫性质的概率图模型。模型中具有两类团:

    • 三、马尔可夫随机场 - 图114 :原始图像的像素和噪音图像的像素。
    • 三、马尔可夫随机场 - 图115:原始图像的像素和其直接相邻的像素。

    这两类团就是模型中的最大团。

    三、马尔可夫随机场 - 图116

  4. 定义能量函数:

    • 对于团 三、马尔可夫随机场 - 图117 ,定义能量函数:三、马尔可夫随机场 - 图118。即:三、马尔可夫随机场 - 图119 相同时,能量较低;三、马尔可夫随机场 - 图120 不同时,能量较高。
    • 对于团 三、马尔可夫随机场 - 图121 ,定义能量函数:三、马尔可夫随机场 - 图122。即:三、马尔可夫随机场 - 图123 相同时,能量较低;三、马尔可夫随机场 - 图124 不同时,能量较高。
    • 另外对于团 三、马尔可夫随机场 - 图125三、马尔可夫随机场 - 图126 这个整体,定义能量函数: 三、马尔可夫随机场 - 图127。 即: 三、马尔可夫随机场 - 图128 较大时,能量较高;三、马尔可夫随机场 - 图129 较小时,能量较低。

    于是得到整体的能量函数为:

    三、马尔可夫随机场 - 图130

    其中 三、马尔可夫随机场 - 图131 为原始图像的相邻像素连接得到的边。

    考虑到 三、马尔可夫随机场 - 图132 ,根据最大似然准则,则模型优化目标是:

    三、马尔可夫随机场 - 图133

  5. 对于能量函数最小化这个最优化问题,由于每个位置的 三、马尔可夫随机场 - 图134 都可以取2 个值 三、马尔可夫随机场 - 图135 ,因此有 三、马尔可夫随机场 - 图136 种取值策略,三、马尔可夫随机场 - 图137 为原始图像的像素数量。如果 三、马尔可夫随机场 - 图138 较大,则参数的搜索空间非常巨大。

    实际任务中通过 ICM 算法、模拟退火算法、或者graph cuts 算法来解决这个参数搜索问题。