五、sentence-LDA
5.1 sentence-LDA
LDA
认为每个单词对应一个主题,但是针对短文本可能每句话表示一个主题,这就是Sentence-LDA
的基本假设。Sentence-LDA
的文档生成过程:根据参数为 的狄利克雷分布随机采样,对每个话题 生成一个单词分布 。每个话题采样一次,一共采样 次。
对每篇文档 :
根据参数为 的狄利克雷分布随机采样,生成文档 的一个话题分布 。每篇文档采样一次。
对文档 中的每个句子:
从话题分布中 中采样一个话题 ,然后从话题的单词分布 采样 个单词 。 为句子的编号。
此时这些单词的话题都是 。
重复生成 个句子,得到一篇包含 个句子的文档。
重复执行上述文档生成规则 次,即得到 篇文档组成的文档集合 。
Sentence-LDA
的吉布斯采样概率为:各参数的意义为:
Sentence-LDA
得到的文档-主题概率分布为:主题-单词概率分布为:
其中:
5.2 ASUM
论文
Aspect and sentiment unification model for online review analysis
中提出了sentence-LDA
以及扩展了sentence-LDA
的ASUM
模型。ASUM
(Aspect and Sentiment Unification Model
)同时对评论的主题以及评论的情感进行建模。它认为客户撰写评论的方式为:(以餐馆评论为例):- 首先决定餐馆评价的好坏概率分布,如:70%是满意的,30%是不满意的。
- 然后对每个情感给出其评价主题概率分布。如:满意的主题概率分布为:50%是服务,25%是食物,25% 是价格。
- 最后对每个句子,表达一个主题和一个情感。即:每个句子中所有的单词背后都是同一个主题,也是同一个情感。
ASUM
文档生成过程:对每一个
主题-情感
对(情感为 ,主题为 ),从 的狄利克雷分布随机采样,得到该主题和该情感下的单词分布: 。每个主题-情感
采样一次,一共采样次。其中 为情感的总数。
对每篇文档 :
对文档 中的每个句子:
重复执行上述文档生成规则 次,即得到 篇文档组成的文档集合 。
与
LDA
模型不同,ASUM
模型中的 参数是非对称的:如good,great
不大可能会出现在负面情感中,bad,annoying
不大可能出现在正面情感中。ASUM
的吉布斯采样概率为:各参数的意义为:
ASUM
得到的文档-情感概率分布为:文档的情感-主题分布为:
主题-单词概率分布为:
其中:
ASUM
和SLDA
可以用于以下用途:利用
SLDA
进行评论的主题抽取。利用
ASUM
进行情感-主题
的抽取。自适应的扩展特定主题下的情感词。
- 首先进行
情感-主题
合并。以词的分布为向量,计算情感-主题
的两两余弦相似度。如果结果超过一个阈值,则认为二者是相同的。 - 计算词的出现概率。如果一个单词在所有
情感-主题
下都有高概率,则它是一个通用词;如果它仅仅在一个情感-主题
下有高概率,则它是一个特定主题下的情感词。
- 首先进行
无监督情感分类。根据 中,各情感的分布来执行分类。
其中需要引入先验知识: 的取值是多少才代表正面情感。这需要观察
情感-主题
词的分布,由人工指定。