一、向量空间模型 VSM
向量空间模型主要用于文档的表达。
向量空间模型假设单词和单词之间是相互独立的,每个单词代表一个独立的语义单元。实际上该假设很难满足:
- 文档中的单词和单词之间存在一定关联性,单词和其前面几个单词、后面几个单词可能存在语义上的相关性,而向量空间模型忽略了这种上下文的作用。
- 文档中存在很多的一词多义和多词同义的现象,每个单词并不代表一个独立的语义单元。
1.1 文档-单词 矩阵
给定语料库 和词汇表 ,定义
文档-单词
矩阵为:令矩阵为 ,则: 表示文档 中含有单词 ; 表示文档 中不含单词 。
于是文档 表示为: ,其中文档 中包含的单词对应的位置取值为1,其它位置取值为 0 。
事实上,文档的上述表达并未考虑单词的顺序,也未考虑单词出现的次数。一种改进策略是考虑单词出现的次数,从而赋予
文档-单词
矩阵以不同的权重:其中 表示单词 在文档 中的权重。
- 如果单词 在文档 中未出现,则权重
- 如果单词 在文档 中出现,则权重
权重 有两种常用的选取方法:
单词权重等于单词出现的频率
TF
: 。- 函数 返回单词 在文档 中出现的频数。
- 其缺点是:一些高频词(如:
我们
,是
,大家
)以较大的权重出现在每个文档中,这意味着对每篇文档这些高频词是比较重要的。事实上对于绝大多数NLP
任务,将这些词过滤掉不会有任何影响。
单词权重等于单词的
TF-IDF
: 。- 函数 是单词的逆文档频率: 。其中: 为语料库的文档数量, 为出现单词 的文档的数量, 为单词 出现在一篇文档中的概率。
TF-IDF
对于高频词进行降权。如果单词 出现在大多数文档中,则 较大,因此 会较小。
TF-IDF
不仅考虑了单词的局部特征,也考虑了单词的全局特征。- 词频 描述了单词 在文档 中的局部统计特征。
- 逆文档频率 描述了单词 在语料库 中的全局统计特征。
1.2 相似度
给定
文档-单词
矩阵,则很容易得到文档的向量表达: 。给定文档 ,则文档的相似度为:
其中 。
也可以使用其它方式的相似度,如 距离相似度。