词的表达
给定包含 篇文档的语料库 ,所有的单词来自于包含 个词汇的词汇表 ,其中 表示词汇表的大小 。
每篇文档 包含单词序列 ,其中 表示第 篇文档的第 个单词在词汇表中的编号, 表示第 篇文档包含 个单词。
词的表达任务要解决的问题是:如何表示每个词汇 。
最简单的表示方式是
one-hot
编码:对于词汇表中第 个单词 ,将其表示为 ,即第 位取值为1
,剩余位取值为0
。这种表示方式有两个主要缺点:
- 无法表达单词之间的关系:对于任意一对单词 ,其向量距离均为 。
- 向量维度过高:对于中文词汇表,其大小可能达到数十万,因此
one-hot
向量的维度也在数十万维。这对于存储、计算都消耗过大。
BOW:Bag of Words
:词在文档中不考虑先后顺序,这称作词袋模型。