10.1 词嵌入(word2vec)

注:个人觉得本节和下一节写得过于简洁,对于初学者来说可能比较难懂。所以强烈推荐读一读博客Word2Vec-知其然知其所以然

自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是用来表示词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入(word embedding)。近年来,词嵌入已逐渐成为自然语言处理的基础知识。

10.1.1 为何不采用one-hot向量

我们在6.4节(循环神经网络的从零开始实现)中使用one-hot向量表示词(字符为词)。回忆一下,假设词典中不同词的数量(词典大小)为

10.1 词嵌入(word2vec) - 图1 ,每个词可以和从0到 10.1 词嵌入(word2vec) - 图2 的连续整数一一对应。这些与词对应的整数叫作词的索引。 假设一个词的索引为 10.1 词嵌入(word2vec) - 图3 ,为了得到该词的one-hot向量表示,我们创建一个全0的长为 10.1 词嵌入(word2vec) - 图4 的向量,并将其第 10.1 词嵌入(word2vec) - 图5 位设成1。这样一来,每个词就表示成了一个长度为 10.1 词嵌入(word2vec) - 图6 的向量,可以直接被神经网络使用。

虽然one-hot词向量构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one-hot词向量无法准确表达不同词之间的相似度,如我们常常使用的余弦相似度。对于向量

10.1 词嵌入(word2vec) - 图7 ,它们的余弦相似度是它们之间夹角的余弦值

10.1 词嵌入(word2vec) - 图8

由于任何两个不同词的one-hot向量的余弦相似度都为0,多个不同词之间的相似度难以通过one-hot向量准确地体现出来。

word2vec工具的提出正是为了解决上面这个问题 [1]。它将每个词表示成一个定长的向量,并使得这些向量能较好地表达不同词之间的相似和类比关系。word2vec工具包含了两个模型,即跳字模型(skip-gram)[2] 和连续词袋模型(continuous bag of words,CBOW)[3]。接下来让我们分别介绍这两个模型以及它们的训练方法。

10.1.2 跳字模型

跳字模型假设基于某个词来生成它在文本序列周围的词。举个例子,假设文本序列是“the”“man”“loves”“his”“son”。以“loves”作为中心词,设背景窗口大小为2。如图10.1所示,跳字模型所关心的是,给定中心词“loves”,生成与它距离不超过2个词的背景词“the”“man”“his”“son”的条件概率,即

10.1 词嵌入(word2vec) - 图9

假设给定中心词的情况下,背景词的生成是相互独立的,那么上式可以改写成

10.1 词嵌入(word2vec) - 图10

10.1 词嵌入(word2vec) - 图11

图10.1 跳字模型关心给定中心词生成背景词的条件概率

在跳字模型中,每个词被表示成两个

10.1 词嵌入(word2vec) - 图12 维向量,用来计算条件概率。假设这个词在词典中索引为 10.1 词嵌入(word2vec) - 图13 ,当它为中心词时向量表示为 10.1 词嵌入(word2vec) - 图14 ,而为背景词时向量表示为 10.1 词嵌入(word2vec) - 图15 。设中心词 10.1 词嵌入(word2vec) - 图16 在词典中索引为 10.1 词嵌入(word2vec) - 图17 ,背景词 10.1 词嵌入(word2vec) - 图18 在词典中索引为 10.1 词嵌入(word2vec) - 图19 ,给定中心词生成背景词的条件概率可以通过对向量内积做softmax运算而得到:

10.1 词嵌入(word2vec) - 图20

其中词典索引集

10.1 词嵌入(word2vec) - 图21 。假设给定一个长度为 10.1 词嵌入(word2vec) - 图22 的文本序列,设时间步 10.1 词嵌入(word2vec) - 图23 的词为 10.1 词嵌入(word2vec) - 图24 。假设给定中心词的情况下背景词的生成相互独立,当背景窗口大小为 10.1 词嵌入(word2vec) - 图25 时,跳字模型的似然函数即给定任一中心词生成所有背景词的概率

\prod{t=1}^{T} \prod{-m \leq j \leq m,\ j \neq 0} P(w^{(t+j)} \mid w^{(t)}),

这里小于1和大于

10.1 词嵌入(word2vec) - 图26 的时间步可以忽略。

10.1.2.1 训练跳字模型

跳字模型的参数是每个词所对应的中心词向量和背景词向量。训练中我们通过最大化似然函数来学习模型参数,即最大似然估计。这等价于最小化以下损失函数:

- \sum{t=1}^{T} \sum{-m \leq j \leq m,\ j \neq 0} \text{log}, P(w^{(t+j)} \mid w^{(t)}).

如果使用随机梯度下降,那么在每一次迭代里我们随机采样一个较短的子序列来计算有关该子序列的损失,然后计算梯度来更新模型参数。梯度计算的关键是条件概率的对数有关中心词向量和背景词向量的梯度。根据定义,首先看到

10.1 词嵌入(word2vec) - 图27

通过微分,我们可以得到上式中

10.1 词嵌入(word2vec) - 图28 的梯度

10.1 词嵌入(word2vec) - 图29

它的计算需要词典中所有词以

10.1 词嵌入(word2vec) - 图30 为中心词的条件概率。有关其他词向量的梯度同理可得。

训练结束后,对于词典中的任一索引为

10.1 词嵌入(word2vec) - 图31 的词,我们均得到该词作为中心词和背景词的两组词向量 10.1 词嵌入(word2vec) - 图3210.1 词嵌入(word2vec) - 图33 。在自然语言处理应用中,一般使用跳字模型的中心词向量作为词的表征向量。

10.1.3 连续词袋模型

连续词袋模型与跳字模型类似。与跳字模型最大的不同在于,连续词袋模型假设基于某中心词在文本序列前后的背景词来生成该中心词。在同样的文本序列“the”“man”“loves”“his”“son”里,以“loves”作为中心词,且背景窗口大小为2时,连续词袋模型关心的是,给定背景词“the”“man”“his”“son”生成中心词“loves”的条件概率(如图10.2所示),也就是

10.1 词嵌入(word2vec) - 图34

10.1 词嵌入(word2vec) - 图35

图10.2 连续词袋模型关心给定背景词生成中心词的条件概率

因为连续词袋模型的背景词有多个,我们将这些背景词向量取平均,然后使用和跳字模型一样的方法来计算条件概率。设

10.1 词嵌入(word2vec) - 图3610.1 词嵌入(word2vec) - 图37 分别表示词典中索引为 10.1 词嵌入(word2vec) - 图38 的词作为背景词和中心词的向量(注意符号的含义与跳字模型中的相反)。设中心词 10.1 词嵌入(word2vec) - 图39 在词典中索引为 10.1 词嵌入(word2vec) - 图40 ,背景词 10.1 词嵌入(word2vec) - 图41 在词典中索引为 10.1 词嵌入(word2vec) - 图42 ,那么给定背景词生成中心词的条件概率

10.1 词嵌入(word2vec) - 图43

为了让符号更加简单,我们记

10.1 词嵌入(word2vec) - 图44 ,且 10.1 词嵌入(word2vec) - 图45 ,那么上式可以简写成

10.1 词嵌入(word2vec) - 图46

给定一个长度为

10.1 词嵌入(word2vec) - 图47 的文本序列,设时间步 10.1 词嵌入(word2vec) - 图48 的词为 10.1 词嵌入(word2vec) - 图49 ,背景窗口大小为 10.1 词嵌入(word2vec) - 图50 。连续词袋模型的似然函数是由背景词生成任一中心词的概率

10.1 词嵌入(word2vec) - 图51

10.1.3.1 训练连续词袋模型

训练连续词袋模型同训练跳字模型基本一致。连续词袋模型的最大似然估计等价于最小化损失函数

10.1 词嵌入(word2vec) - 图52

注意到

10.1 词嵌入(word2vec) - 图53

通过微分,我们可以计算出上式中条件概率的对数有关任一背景词向量

10.1 词嵌入(word2vec) - 图5410.1 词嵌入(word2vec) - 图55 )的梯度

10.1 词嵌入(word2vec) - 图56

有关其他词向量的梯度同理可得。同跳字模型不一样的一点在于,我们一般使用连续词袋模型的背景词向量作为词的表征向量。

小结

  • 词向量是用来表示词的向量。把词映射为实数域向量的技术也叫词嵌入。
  • word2vec包含跳字模型和连续词袋模型。跳字模型假设基于中心词来生成背景词。连续词袋模型假设基于背景词来生成中心词。

参考文献

[1] word2vec工具。https://code.google.com/archive/p/word2vec/

[2] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119).

[3] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.


注:本节与原书完全相同,原书传送门