五、DNGR

  1. 虽然 DeepWalk 可以有效的学习无权图的顶点representation ,但是它存在两个缺点:

    • 获得vertex-context 的采样过程效率太低,且无法对带权图进行采样。

    • SGNS 等价于对 PPMI 矩阵进行矩阵分解,目前广泛使用的 SVD 本质是一种降维工具。

      事实上 SVD 是一种线性降维,无法捕获原始高维空间和representation 低维空间之间的非线性关系。Levy 也证明了:从 SVD 方法中学到的representation 不一定优于 PPMI 矩阵本身作为 representation(参考 word representation 章节)。

    针对这两个问题,论文 《Deep Neural Networks for Learning Graph Representations》 提出了 DNGR 模型,该模型主要做了两点改进:

    • 采用基于随机游走模型 random surfing model 来直接构建Graph 的结构信息,抛弃了基于随机游走random walk策略生成线性序列的方式。
    • 引入stacked denoising autoencoder:SDAE 堆叠式降噪自编码器来分解 PPMI 矩阵,从而进行非线性降维,从而捕获顶点之间的潜在复杂的非线性关系。

5.1 模型

  1. 给定带权图 五、DNGR - 图1,其中 五、DNGR - 图2 为所有顶点集合,五、DNGR - 图3 为所有边的集合。五、DNGR - 图4 表示顶点 五、DNGR - 图5五、DNGR - 图6 之间边的权重,如果顶点 五、DNGR - 图7五、DNGR - 图8 之间不存在边则 五、DNGR - 图9

  2. GraRep 章节所示,可以证明 SGNS 等价于 PPMI 矩阵分解。

    五、DNGR - 图10

    其中:

    • 五、DNGR - 图11 为所有观测到的 vertext-context 组合,五、DNGR - 图12 为它的数量
    • 五、DNGR - 图13五、DNGR - 图14vertex 五、DNGR - 图15 的数量,五、DNGR - 图16五、DNGR - 图17contex 五、DNGR - 图18 的数量,五、DNGR - 图19五、DNGR - 图20vertex-contex 五、DNGR - 图21 的数量
    • 五、DNGR - 图22 为负采样过程中负样本数量

    word representation 章节SGNS vs 矩阵分解 部分所示,可以对 PPMI 矩阵分解来获得每个顶点的 representation

    因此这里的关键是:

    • 如何生成 PPMI 矩阵
    • 如何分解 PPMI 矩阵
  3. DNGR 模型主要包含三个部分:

    • 随机游走模型:该部分主要用于捕获图结构信息,并生成概率共现矩阵。
    • PPMI 矩阵:根据概率共现矩阵计算 PPMI 矩阵。
    • 堆叠式降噪自编码器:该部分主要用于执行非线性降维来获得顶点的低维 representation

    五、DNGR - 图23

  4. 随机游走模型基于 PangeRank 模型。

    假设顶点 五、DNGR - 图24 经过一步到达顶点 五、DNGR - 图25 的概率为 五、DNGR - 图26 ,定义转移矩阵为:

    五、DNGR - 图27

    考虑random surfing model:每个顶点以 五、DNGR - 图28 的概率随机游走,但以 五、DNGR - 图29 的概率返回源点并重启随机游走。

    考虑顶点 五、DNGR - 图30 为源点:定义行向量 五、DNGR - 图31,其中第 五、DNGR - 图32 项表示顶点 五、DNGR - 图33 经过 五、DNGR - 图34 步转移之后到达顶点 五、DNGR - 图35 的概率。则有递归公式:

    • 五、DNGR - 图36 是一个one-hot 向量,其第 五、DNGR - 图37 项为1、其它项为 0
    • 五、DNGR - 图38
  5. 堆叠式降噪自编码器用于对 PPMI 矩阵进行非线性降维。

    • 降噪自编码器:与常规自编码器不同,降噪自编码器在训练之前通过随机重置部分输入为零从而破坏输入数据,目标是最小化重建误差:

      五、DNGR - 图39

      其中 五、DNGR - 图40 为平方误差; 五、DNGR - 图41五、DNGR - 图42 的破坏形式; 五、DNGR - 图43 为编码函数,五、DNGR - 图44 为对应参数;五、DNGR - 图45 为解码函数,五、DNGR - 图46 为对应参数; 五、DNGR - 图47sigmoid 函数,用于建模非线性关系。

      降噪自编码器能够有效降低噪音并提高鲁棒性。

      如上图中:五、DNGR - 图48 被破坏从而以红色突出显示。

    • 堆叠式:采用逐层训练的多层降噪自编码器来学习不同 level 上的 representation。作者认为:不同层学到的representation 代表了不同level 的抽象,网络层越高抽象层次越高。

      如上图中:五、DNGR - 图49 对应于原始输入,五、DNGR - 图50 对应于第一层 representation五、DNGR - 图51 对应于第二层 representation

5.2 实验

  1. 数据集:

    • 语言网络数据集20-Newsgroup :包含2万篇新闻组文档,并按照20个不同的组分类。每篇文档由文档内单词的 tf-idf 组成的向量表示,并根据余弦相似度计算得到文档的相似度。根据文档的这些相似度构建语言网络,该网络是一个全连接的带权图,用于聚类效果的评估。

      为验证模型的鲁棒性,论文分别从3/6/9 个不同的新闻组构建了三个更小规模的语言网络(NG 代表 Newsgroups ):

      • 3-NG:由comp.graphics, comp.graphics and talk.politics.guns 这三个新闻组的文档构成。
      • 6-NG:由 alt.atheism, comp.sys.mac.hardware, rec.motorcycles, rec.sport.hockey, soc.religion.christian and talk.religion.misc 这六个新闻组的文档构成。
      • 9-NG:由 talk.politics.mideast, talk.politics.misc, comp.os.ms- windows.misc, sci.crypt, sci.med, sci.space, sci.electronics, misc.forsale, and comp.sys.ibm.pc.hardware 这九个新闻组的文档构成。

      这些小网络分别使用所有文档 all data,以及每个主题随机抽取200 篇文档两种配置。

    • Wine 数据集:包含意大利同一地区种植的三种不同品种的葡萄酒化学分析的13种成分的数量(对应13各特征及其对应取值),数据包含 178个样本。

      论文将样本作为顶点、采用不同样本之间的余弦相似度作为边来构建Graph

    • 维基百科数据集:包含 20104 月的快照作为训练集,包含 2000 万条文章和 9.9 亿个 token

      由于 SVD 算法复杂性论文选择 1 万个最常见的单词构建词典。

  2. 基准模型:

    • DeepWalk:使用截断的随机游走将图结构转化为线性结构,然后使用层次 softmaxSkipGram 模型处理序列。
    • SGNS:使用带负采样的 SkipGram模型。
    • PPMI:直接基于单词的共现来构建 PPMI 矩阵,并用顶点的 PPMI 信息构建顶点的稀疏、高维 representation
    • SVD:构建 PPMI矩阵,并通过 SVD 降维来获取顶点的低维 representation
  3. 模型参数:

    • 随机游走序列长度 五、DNGR - 图52,每个顶点开始的序列数量为 五、DNGR - 图53

    • 对于 DeepWalk,SGNS ,负采样个数 五、DNGR - 图54,上下文窗口大小为 五、DNGR - 图55

    • 对于 DNGR

      • 使用 dropout 缓解过拟合,dropout 比例通过调参来择优。

      • 所有神经元采用 sigmoid 激活函数。

      • 堆叠式降噪自编码器的层数针对不同数据集不同。

        五、DNGR - 图56

  4. 论文在 20-NewsGroup 上执行聚类任务,该任务通过 K-means 对每个算法生成的顶点 representation 向量进行聚类,并以归一化互信息 normalized mutual information: NMI 作为衡量指标。

    每种算法随机执行10 次并报告平均结果。为了验证不同维度的影响,下面还给出了 DeepWalk,SGNS 在维度为 128、512 时的结果。

    结论:

    • DeepWalkSGNS 中,增加维度使得效果先提升后下降。

    • DNGR 明显优于其它基准算法。

      • 对比 DNGRPPMI 可知,对于高维稀疏矩阵降维并提取有效信息可以提升效果。
      • 对比 SVDPPMI可知,SVD 并不一定总是优于 PPMI
      • 对比 DNGRSVD 可知,DNGR 是一种更有效的降维方法。

    五、DNGR - 图57

  5. 论文在 Wine 数据集上执行可视化任务,该任务采用 t-SNEDNGR,SVD,DeepWalk,SGNS 输出的顶点representation 映射到二维空间来可视化。在二维空间中,相同类型的葡萄酒以相同颜色来展示。

    结论:在所有可视化结果中,DNGR 效果最好。

    五、DNGR - 图58

  6. 论文在维基百科数据集上执行单词相似度任务,该任务直接从训练语料库中计算 word-context 组合因此不需要随机游走模型来生产 PPMI 矩阵。

    论文采用 Spearman’s rank correlation coefficient 来评估算法的结果。

    为了获得最佳结果,论文将 SGNS,DNGR,SVD 负采样的样本数分别设置为 5,1,1

    结论:

    • SVD,SGNS,DNGR 都比 PPMI 效果更好,这表明降维在该任务中的重要性。
    • DNGR 效果最好,超越了 SVDSGNS ,这表明学习representation 时捕获非线性关系的重要性。

    五、DNGR - 图59

  7. 论文在通过评估 20-NewsGroup 的逐层 NMI 值,验证了堆叠式降噪自编码器深层架构的重要性。

    五、DNGR - 图60