七、信息论

  1. 信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。

    • 发生可能性较大的事件包含较少的信息。
    • 发生可能性较小的事件包含较多的信息。
    • 独立事件包含额外的信息 。
  2. 对于事件 七、信息论 - 图1,定义自信息self-information为:七、信息论 - 图2

    自信息仅仅处理单个输出,但是如果计算自信息的期望,它就是熵:

    七、信息论 - 图3

    记作 七、信息论 - 图4

    • 熵刻画了按照真实分布 七、信息论 - 图5 来识别一个样本所需要的编码长度的期望(即平均编码长度)。

      如:含有4个字母 (A,B,C,D) 的样本集中,真实分布 七、信息论 - 图6,则只需要1位编码即可识别样本。

    • 对于离散型随机变量 七、信息论 - 图7,假设其取值集合大小为 七、信息论 - 图8,则可以证明: 七、信息论 - 图9

  3. 对于随机变量 七、信息论 - 图10七、信息论 - 图11,条件熵 七、信息论 - 图12 表示:已知随机变量 七、信息论 - 图13 的条件下,随机变量 七、信息论 - 图14 的不确定性。

    它定义为:七、信息论 - 图15 给定条件下 七、信息论 - 图16 的条件概率分布的熵对 七、信息论 - 图17 的期望:

    七、信息论 - 图18

    • 对于离散型随机变量,有:

      七、信息论 - 图19

    • 对于连续型随机变量,有:

      七、信息论 - 图20

  4. 根据定义可以证明:七、信息论 - 图21

    即:描述 七、信息论 - 图22七、信息论 - 图23 所需要的信息是:描述 七、信息论 - 图24 所需要的信息加上给定 七、信息论 - 图25 条件下描述 七、信息论 - 图26 所需的额外信息。

  5. KL散度(也称作相对熵):对于给定的随机变量 七、信息论 - 图27,它的两个概率分布函数 七、信息论 - 图28七、信息论 - 图29 的区别可以用 KL散度来度量:

    七、信息论 - 图30

    • KL散度非负:当它为 0 时,当且仅当 PQ是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)。

    • KL散度不对称:七、信息论 - 图31

      直观上看对于 七、信息论 - 图32 ,当 七、信息论 - 图33 较大的地方, 七、信息论 - 图34 也应该较大,这样才能使得 七、信息论 - 图35 较小。

      对于 七、信息论 - 图36 较小的地方, 七、信息论 - 图37 就没有什么限制就能够使得 七、信息论 - 图38 较小。这就是KL散度不满足对称性的原因。

  6. 交叉熵cross-entropy七、信息论 - 图39

    • 交叉熵刻画了使用错误分布七、信息论 - 图40 来表示真实分布 七、信息论 - 图41 中的样本的平均编码长度。
    • 七、信息论 - 图42 刻画了错误分布七、信息论 - 图43 编码真实分布 七、信息论 - 图44 带来的平均编码长度的增量。
  7. 示例:假设真实分布 七、信息论 - 图45 为混合高斯分布,它由两个高斯分布的分量组成。如果希望用普通的高斯分布 七、信息论 - 图46 来近似 七、信息论 - 图47 ,则有两种方案:

    七、信息论 - 图48

    七、信息论 - 图49

    • 如果选择 七、信息论 - 图50,则:

      • 七、信息论 - 图51 较大的时候 七、信息论 - 图52 也必须较大 。如果 七、信息论 - 图53 较大时 七、信息论 - 图54 较小,则 七、信息论 - 图55 较大。
      • 七、信息论 - 图56 较小的时候 七、信息论 - 图57 可以较大,也可以较小。

      因此 七、信息论 - 图58 会贴近 七、信息论 - 图59 的峰值。由于 七、信息论 - 图60 的峰值有两个,因此 七、信息论 - 图61 无法偏向任意一个峰值,最终结果就是 七、信息论 - 图62 的峰值在 七、信息论 - 图63 的两个峰值之间。

      七、信息论 - 图64

    • 如果选择 七、信息论 - 图65 ,则:

      • 七、信息论 - 图66 较小的时候, 七、信息论 - 图67 必须较小。如果七、信息论 - 图68 较小的时 七、信息论 - 图69 较大,则 七、信息论 - 图70 较大。
      • 七、信息论 - 图71 较大的时候,七、信息论 - 图72 可以较大,也可以较小。

      因此 七、信息论 - 图73 会贴近 七、信息论 - 图74 的谷值。最终结果就是 七、信息论 - 图75 会贴合 七、信息论 - 图76 峰值的任何一个。

      七、信息论 - 图77

    • 绝大多数场合使用 七、信息论 - 图78 ,原因是:当用分布 七、信息论 - 图79 拟合 七、信息论 - 图80 时我们希望对于常见的事件,二者概率相差不大。