五、sentence-LDA

5.1 sentence-LDA

  1. LDA 认为每个单词对应一个主题,但是针对短文本可能每句话表示一个主题,这就是Sentence-LDA 的基本假设。

  2. Sentence-LDA 的文档生成过程:

    • 根据参数为 五、sentence-LDA - 图1 的狄利克雷分布随机采样,对每个话题 五、sentence-LDA - 图2 生成一个单词分布 五、sentence-LDA - 图3 。每个话题采样一次,一共采样 五、sentence-LDA - 图4 次。

    • 对每篇文档 五、sentence-LDA - 图5

      • 根据参数为 五、sentence-LDA - 图6 的狄利克雷分布随机采样,生成文档 五、sentence-LDA - 图7 的一个话题分布 五、sentence-LDA - 图8 。每篇文档采样一次。

      • 对文档 五、sentence-LDA - 图9 中的每个句子:

        • 从话题分布中 五、sentence-LDA - 图10 中采样一个话题 五、sentence-LDA - 图11 ,然后从话题的单词分布 五、sentence-LDA - 图12 采样 五、sentence-LDA - 图13 个单词 。 五、sentence-LDA - 图14 为句子的编号。

          此时这些单词的话题都是 五、sentence-LDA - 图15

        • 重复生成 五、sentence-LDA - 图16 个句子,得到一篇包含 五、sentence-LDA - 图17 个句子的文档。

      • 重复执行上述文档生成规则 五、sentence-LDA - 图18 次,即得到 五、sentence-LDA - 图19 篇文档组成的文档集合 五、sentence-LDA - 图20

    五、sentence-LDA - 图21

  3. Sentence-LDA 的吉布斯采样概率为:

    五、sentence-LDA - 图22

    各参数的意义为:

    五、sentence-LDA - 图23

  4. Sentence-LDA 得到的文档-主题概率分布为:

    五、sentence-LDA - 图24

    主题-单词概率分布为:

    五、sentence-LDA - 图25

    其中:

    五、sentence-LDA - 图26

5.2 ASUM

  1. 论文 Aspect and sentiment unification model for online review analysis 中提出了 sentence-LDA 以及扩展了 sentence-LDAASUM 模型。

    ASUMAspect and Sentiment Unification Model )同时对评论的主题以及评论的情感进行建模。它认为客户撰写评论的方式为:(以餐馆评论为例):

    • 首先决定餐馆评价的好坏概率分布,如:70%是满意的,30%是不满意的。
    • 然后对每个情感给出其评价主题概率分布。如:满意的主题概率分布为:50%是服务,25%是食物,25% 是价格。
    • 最后对每个句子,表达一个主题和一个情感。即:每个句子中所有的单词背后都是同一个主题,也是同一个情感。
  2. ASUM 文档生成过程:

    • 对每一个主题-情感 对(情感为 五、sentence-LDA - 图27,主题为 五、sentence-LDA - 图28),从 五、sentence-LDA - 图29 的狄利克雷分布随机采样,得到该主题和该情感下的单词分布: 五、sentence-LDA - 图30 。每个主题-情感采样一次,一共采样五、sentence-LDA - 图31次。

      其中 五、sentence-LDA - 图32 为情感的总数。

    • 对每篇文档 五、sentence-LDA - 图33

      五、sentence-LDA - 图34

      • 对文档 五、sentence-LDA - 图35 中的每个句子:

        五、sentence-LDA - 图36

      • 重复执行上述文档生成规则 五、sentence-LDA - 图37 次,即得到 五、sentence-LDA - 图38 篇文档组成的文档集合 五、sentence-LDA - 图39

      五、sentence-LDA - 图40

  3. LDA 模型不同,ASUM 模型中的 五、sentence-LDA - 图41 参数是非对称的:如 good,great 不大可能会出现在负面情感中,bad,annoying 不大可能出现在正面情感中。

  4. ASUM 的吉布斯采样概率为:

    五、sentence-LDA - 图42

    各参数的意义为:

    五、sentence-LDA - 图43

  5. ASUM 得到的文档-情感概率分布为:

    五、sentence-LDA - 图44

    文档的情感-主题分布为:

    五、sentence-LDA - 图45

    主题-单词概率分布为:

    五、sentence-LDA - 图46

    其中:

    五、sentence-LDA - 图47

  6. ASUMSLDA可以用于以下用途:

    • 利用 SLDA 进行评论的主题抽取。

    • 利用 ASUM 进行 情感-主题 的抽取。

    • 自适应的扩展特定主题下的情感词。

      • 首先进行情感-主题 合并。以词的分布为向量,计算情感-主题 的两两余弦相似度。如果结果超过一个阈值,则认为二者是相同的。
      • 计算词的出现概率。如果一个单词在所有情感-主题 下都有高概率,则它是一个通用词;如果它仅仅在一个情感-主题 下有高概率,则它是一个特定主题下的情感词。
    • 无监督情感分类。根据五、sentence-LDA - 图48 中,各情感的分布来执行分类。

      其中需要引入先验知识:五、sentence-LDA - 图49 的取值是多少才代表正面情感。这需要观察情感-主题 词的分布,由人工指定。