二、朴素贝叶斯法

  1. 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

    对给定的训练集:

    • 首先基于特征条件独立假设学习输入、输出的联合概率分布。
    • 然后基于此模型,对给定的输入 二、朴素贝叶斯法 - 图1 ,利用贝叶斯定理求出后验概率最大的输出 二、朴素贝叶斯法 - 图2
  2. 朴素贝叶斯法不是贝叶斯估计,贝叶斯估计是最大后验估计。

2.1 原理

  1. 设输入空间 二、朴素贝叶斯法 - 图3二、朴素贝叶斯法 - 图4 维向量的集合 ,输出空间为类标记集合 二、朴素贝叶斯法 - 图5

    二、朴素贝叶斯法 - 图6 为定义在 二、朴素贝叶斯法 - 图7 上的随机向量,二、朴素贝叶斯法 - 图8 为定义在 二、朴素贝叶斯法 - 图9 上的随机变量。

    二、朴素贝叶斯法 - 图10二、朴素贝叶斯法 - 图11二、朴素贝叶斯法 - 图12 的联合概率分布,假设训练数据集 二、朴素贝叶斯法 - 图13二、朴素贝叶斯法 - 图14 独立同分布产生。

    朴素贝叶斯法通过训练数据集学习联合概率分布 二、朴素贝叶斯法 - 图15。具体的学习下列概率分布:

    • 先验概率分布: 二、朴素贝叶斯法 - 图16
    • 条件概率分布: 二、朴素贝叶斯法 - 图17
  2. 朴素贝叶斯法对条件概率做了特征独立性假设:二、朴素贝叶斯法 - 图18

    • 这意味着在分类确定的条件下,用于分类的特征是条件独立的。
    • 该假设使得朴素贝叶斯法变得简单,但是可能牺牲一定的分类准确率。
  3. 根据贝叶斯定理:

    二、朴素贝叶斯法 - 图19

    考虑分类特征的条件独立假设有:

    二、朴素贝叶斯法 - 图20

    则朴素贝叶斯分类器表示为:

    二、朴素贝叶斯法 - 图21

    由于上式的分母 二、朴素贝叶斯法 - 图22二、朴素贝叶斯法 - 图23 的取值无关,则分类器重写为:二、朴素贝叶斯法 - 图24

2.2 期望风险最小化

  1. 朴素贝叶斯分类器是后验概率最大化,等价于期望风险最小化。

  2. 令损失函数为:

    二、朴素贝叶斯法 - 图25

  3. 根据 二、朴素贝叶斯法 - 图26 有:

    二、朴素贝叶斯法 - 图27

    为了使得期望风险最小化,只需要对 二、朴素贝叶斯法 - 图28 中的元素极小化。

    二、朴素贝叶斯法 - 图29 ,则有:

    二、朴素贝叶斯法 - 图30

    即:期望风险最小化,等价于后验概率最大化。

2.3 算法

  1. 在朴素贝叶斯法中,学习意味着估计概率:二、朴素贝叶斯法 - 图31二、朴素贝叶斯法 - 图32

  2. 可以用极大似然估计相应概率。

    • 先验概率 二、朴素贝叶斯法 - 图33 的极大似然估计为:二、朴素贝叶斯法 - 图34

    • 设第 二、朴素贝叶斯法 - 图35 个特征 二、朴素贝叶斯法 - 图36 可能的取值为 二、朴素贝叶斯法 - 图37,则条件概率 二、朴素贝叶斯法 - 图38 的极大似然估计为:

      二、朴素贝叶斯法 - 图39

      其中:二、朴素贝叶斯法 - 图40 为示性函数, 二、朴素贝叶斯法 - 图41 表示第 二、朴素贝叶斯法 - 图42 个样本的第 二、朴素贝叶斯法 - 图43 个特征。

  3. 朴素贝叶斯算法 :

    • 输入 :

      • 训练集 二、朴素贝叶斯法 - 图44

        二、朴素贝叶斯法 - 图45, 二、朴素贝叶斯法 - 图46 为第 二、朴素贝叶斯法 - 图47 个样本的第 二、朴素贝叶斯法 - 图48 个特征。其中 二、朴素贝叶斯法 - 图49二、朴素贝叶斯法 - 图50为第 二、朴素贝叶斯法 - 图51 个特征可能取到的第 二、朴素贝叶斯法 - 图52 个值。

      • 实例 二、朴素贝叶斯法 - 图53

    • 输出 :实例 二、朴素贝叶斯法 - 图54 的分类

    • 算法步骤:

      • 计算先验概率以及条件概率:

      二、朴素贝叶斯法 - 图55

      • 对于给定的实例 二、朴素贝叶斯法 - 图56,计算:二、朴素贝叶斯法 - 图57
      • 确定实例 二、朴素贝叶斯法 - 图58 的分类:二、朴素贝叶斯法 - 图59

2.4 贝叶斯估计

  1. 在估计概率 二、朴素贝叶斯法 - 图60 的过程中,分母 二、朴素贝叶斯法 - 图61 可能为 0 。这是由于训练样本太少才导致 二、朴素贝叶斯法 - 图62 的样本数为 0 。而真实的分布中, 二、朴素贝叶斯法 - 图63 的样本并不为 0 。

    解决的方案是采用贝叶斯估计(最大后验估计)。

  2. 假设第 二、朴素贝叶斯法 - 图64 个特征 二、朴素贝叶斯法 - 图65 可能的取值为 二、朴素贝叶斯法 - 图66 ,贝叶斯估计假设在每个取值上都有一个先验的计数 二、朴素贝叶斯法 - 图67 。即:

    二、朴素贝叶斯法 - 图68

    它等价于在 二、朴素贝叶斯法 - 图69 的各个取值的频数上赋予了一个正数 二、朴素贝叶斯法 - 图70

    二、朴素贝叶斯法 - 图71 的样本数为0,则它假设特征 二、朴素贝叶斯法 - 图72 每个取值的概率为 二、朴素贝叶斯法 - 图73,即等可能的。

  3. 采用贝叶斯估计后,二、朴素贝叶斯法 - 图74 的贝叶斯估计调整为:

    二、朴素贝叶斯法 - 图75

    • 二、朴素贝叶斯法 - 图76 时,为极大似然估计当 二、朴素贝叶斯法 - 图77 时,为拉普拉斯平滑
    • 二、朴素贝叶斯法 - 图78 的样本数为 0,则假设赋予它一个非零的概率 二、朴素贝叶斯法 - 图79