词的表达

  1. 给定包含 8.词向量 - 图1 篇文档的语料库 8.词向量 - 图2 ,所有的单词来自于包含 8.词向量 - 图3 个词汇的词汇表 8.词向量 - 图4,其中 8.词向量 - 图5 表示词汇表的大小 。

    每篇文档 8.词向量 - 图6 包含单词序列 8.词向量 - 图7 ,其中 8.词向量 - 图8 表示第 8.词向量 - 图9 篇文档的第 8.词向量 - 图10 个单词在词汇表中的编号,8.词向量 - 图11 表示第 8.词向量 - 图12 篇文档包含 8.词向量 - 图13 个单词。

    词的表达任务要解决的问题是:如何表示每个词汇 8.词向量 - 图14

  2. 最简单的表示方式是one-hot 编码:对于词汇表中第 8.词向量 - 图15 个单词 8.词向量 - 图16,将其表示为 8.词向量 - 图17 ,即第 8.词向量 - 图18 位取值为1,剩余位取值为0

    这种表示方式有两个主要缺点:

    • 无法表达单词之间的关系:对于任意一对单词 8.词向量 - 图19,其向量距离均为 8.词向量 - 图20
    • 向量维度过高:对于中文词汇表,其大小可能达到数十万,因此one-hot 向量的维度也在数十万维。这对于存储、计算都消耗过大。
  3. BOW:Bag of Words:词在文档中不考虑先后顺序,这称作词袋模型。