一、RNN计算图

1.1 展开图

  1. 考虑动态系统的经典形式:一、RNN计算图 - 图1 。其中: 一、RNN计算图 - 图2 称作系统的状态,一、RNN计算图 - 图3 为参数。

    对于有限的时间步 一、RNN计算图 - 图4 ,应用 一、RNN计算图 - 图5 次定义可以展开这个图:

    一、RNN计算图 - 图6

    利用有向无环图来表述:

    一、RNN计算图 - 图7

    假设 一、RNN计算图 - 图8一、RNN计算图 - 图9 时刻系统的外部驱动信号,则动态系统的状态修改为:一、RNN计算图 - 图10

    一、RNN计算图 - 图11

  2. 当训练RNN根据过去预测未来时,网络通常要将 一、RNN计算图 - 图12 作为过去序列信息的一个有损的representation

    • 这个representation一般是有损的,因为它使用一个固定长度的向量 一、RNN计算图 - 图13 来表达任意长的序列 一、RNN计算图 - 图14
    • 根据不同的训练准则,representation 可能会有选择地保留过去序列的某些部分。如 attention 机制。
  3. 网络的初始状态 一、RNN计算图 - 图15 的设置有两种方式:

    • 固定为全零。这种方式比较简单实用。

      这种情况下,模型的反向梯度计算不需要考虑 一、RNN计算图 - 图16 ,因为 一、RNN计算图 - 图17 全零导致对应参数的梯度贡献也为 0 。

    • 使用上一个样本的最后一个状态,即: 一、RNN计算图 - 图18

      这种场景通常是样本之间存在连续的关系(如:样本分别代表一篇小说中的每个句子),并且样本之间没有发生混洗的情况。此时,后一个样本的初始状态和前一个样本的最后状态可以认为保持连续性。

    另外注意:模型更新过程中

  4. 展开图的两个主要优点:

    • 无论输入序列的长度 一、RNN计算图 - 图19 如何,学得的模型始终具有相同的输入大小。因为模型在每个时间步上,其模型的输入 一、RNN计算图 - 图20 都是相同大小的。
    • 每个时间步上都使用相同的转移函数 一、RNN计算图 - 图21 ,因此需要学得的参数 一、RNN计算图 - 图22 也就在每个时间步上共享。

    这些优点直接导致了:

    • 使得学习在所有时间步、所有序列长度上操作的单个函数 一、RNN计算图 - 图23 成为可能。
    • 允许单个函数 一、RNN计算图 - 图24 泛化到没有见过的序列长度。
    • 学习模型所需的训练样本远少于非参数共享的模型(如前馈神经网络)。

1.2 网络模式

  1. 基于图展开和参数共享的思想,可以设计不同模式的循环神经网络。根据输入序列的长度,RNN 网络模式可以划分为:输入序列长度为0、输入序列长度为1 、输入序列长度为 一、RNN计算图 - 图25

  2. 设样本集合为 一、RNN计算图 - 图26,其中每个样本为:

    • 对于输入序列长度为1的样本, 一、RNN计算图 - 图27
    • 对于输入序列长度大于1的样本,一、RNN计算图 - 图28 ,其中 一、RNN计算图 - 图29 为第 一、RNN计算图 - 图30 个样本的序列长度。

    设样本对应的真实标记集合为 一、RNN计算图 - 图31 ,其中每个样本的标记为:

    • 对于输出序列长度为1的样本, 一、RNN计算图 - 图32 。对应的网络输出为:一、RNN计算图 - 图33

    • 对于输出序列长度大于1的样本, 一、RNN计算图 - 图34,其中 一、RNN计算图 - 图35 为第 一、RNN计算图 - 图36 个样本的序列长度。

      对应的网络输出为:一、RNN计算图 - 图37

    设真实标记 一、RNN计算图 - 图38 为真实类别标签,网络的输出 一、RNN计算图 - 图39 为预测为各类别的概率分布(经过 softmax 归一化的概率)。则该样本的损失函数为:

    一、RNN计算图 - 图40

    其中 一、RNN计算图 - 图41 为第 一、RNN计算图 - 图42 个时间步的损失函数。通常采用负的对数似然作为损失函数,则有:

    一、RNN计算图 - 图43

    其中 一、RNN计算图 - 图44 为类别的数量,一、RNN计算图 - 图45一、RNN计算图 - 图46 的第 一、RNN计算图 - 图47 个分量, 一、RNN计算图 - 图48 为示性函数:

    一、RNN计算图 - 图49

    如果将真实类别 一、RNN计算图 - 图50 标记扩充为概率分布 一、RNN计算图 - 图51 ,其中真实的类别 一、RNN计算图 - 图52 位置上其分量为 1,而其它位置上的分量为 0。则 一、RNN计算图 - 图53 就是真实分布 一、RNN计算图 - 图54 和预测分布 一、RNN计算图 - 图55 的交叉熵:

    一、RNN计算图 - 图56

    数据集的经验损失函数为:

    一、RNN计算图 - 图57

    .

1.2.1 零长度输入序列

  1. 输入序列长度为0:此时网络没有外部输入,网络将当前时刻的输出作为下一个时刻的输入(需要提供一个初始的输出作为种子)。

    如文本生成算法:首先给定 一、RNN计算图 - 图58 作为种子,然后通过 一、RNN计算图 - 图59 时刻为止的单词序列来预测 一、RNN计算图 - 图60 时刻的单词;如果遇到某个输出为停止符,或者句子长度达到给定阈值则停止生成。

    在这个任务中,任何早期输出的单词都会对它后面的单词产生影响。

    一、RNN计算图 - 图61

  2. 在零长度输入序列的RNN 网络中,过去的输出序列 一、RNN计算图 - 图62 通过影响 一、RNN计算图 - 图63 来影响当前的输出 一、RNN计算图 - 图64 ,从而解耦 一、RNN计算图 - 图65一、RNN计算图 - 图66

  3. 该模型的数学表示为:

    一、RNN计算图 - 图67

    其中 一、RNN计算图 - 图68 表示模型第 一、RNN计算图 - 图69 步输出 一、RNN计算图 - 图70 的第 一、RNN计算图 - 图71 个分量。

    单个样本的损失为:

    一、RNN计算图 - 图72

    更新方程:

    一、RNN计算图 - 图73

    其中输出到隐状态的权重为 一、RNN计算图 - 图74,隐状态到输出的权重为 一、RNN计算图 - 图75 ,隐状态到隐状态的权重为 一、RNN计算图 - 图76一、RNN计算图 - 图77 为输入偏置向量和输出偏置向量。

1.2.2 单长度输入序列

  1. 输入序列长度为1 :模型包含单个 一、RNN计算图 - 图78 作为输入。此时有三种输入方式:输入 一、RNN计算图 - 图79 作为每个时间步的输入、输入 一、RNN计算图 - 图80 作为初始状态 一、RNN计算图 - 图81、以及这两种方式的结合。

    • 输入 一、RNN计算图 - 图82 作为每个时间步的输入:

      • 模型的数学表示:一、RNN计算图 - 图83

      • 单个样本的损失:一、RNN计算图 - 图84

      • 更新方程:

        一、RNN计算图 - 图85

        其中输入到隐状态的权重为 一、RNN计算图 - 图86,输出到隐状态的权重为 一、RNN计算图 - 图87,隐状态到输出的权重为 一、RNN计算图 - 图88 ,隐状态到隐状态的权重为 一、RNN计算图 - 图89一、RNN计算图 - 图90 为输入偏置向量和输出偏置向量。

    • 输入 一、RNN计算图 - 图91 作为初始状态 一、RNN计算图 - 图92

      • 模型的数学表示:一、RNN计算图 - 图93

      • 单个样本的损失:一、RNN计算图 - 图94

      • 更新方程:

        一、RNN计算图 - 图95

        .

    一、RNN计算图 - 图96

  2. 在图注任务中,单个图像作为模型输入,模型生成描述图像的单词序列。图像就是输入 一、RNN计算图 - 图97,它为每个时间步提供了一个输入。通过图像和 一、RNN计算图 - 图98 时刻为止的单词序列来预测 一、RNN计算图 - 图99 时刻的单词。

    输出 一、RNN计算图 - 图100 有两个作用:用作 一、RNN计算图 - 图101 时刻的输入来预测 一、RNN计算图 - 图102 ;用于 一、RNN计算图 - 图103 时刻计算损失函数 一、RNN计算图 - 图104

  3. 当输入 一、RNN计算图 - 图105 作为初始状态 一、RNN计算图 - 图106 时,每个时间步也没有额外的输入。它与零输入RNN 网络的区别在于:

    零输入RNN 的初始输出 一、RNN计算图 - 图107 是需要给定的,而这里的初始状态 一、RNN计算图 - 图108 是给定的。

1.2.3 多长度输入序列

  1. 多长度输入序列的RNN 包含了多输出&隐-隐连接RNN多输出&输出-隐连接RNN单输出&隐-隐连接RNN 等网络类型。

  2. 多输出&隐-隐连接循环网络:每个时间步都有输出,并且隐单元之间有循环连接。

    • 该网络将一个输入序列映射到相同长度的输出序列。

    • 模型的数学表示:一、RNN计算图 - 图109

    • 单个样本的损失:一、RNN计算图 - 图110

    • 更新方程:

      一、RNN计算图 - 图111

      其中输入到隐状态的权重为 一、RNN计算图 - 图112,隐状态到输出的权重为 一、RNN计算图 - 图113 ,隐状态到隐状态的权重为 一、RNN计算图 - 图114一、RNN计算图 - 图115 为输入偏置向量和输出偏置向量。

    一、RNN计算图 - 图116

  3. 多输出&输出-隐连接循环网络:每个时间步都有输出,只有当前时刻的输出和下个时刻的隐单元之间有循环连接。

    • 该网络将一个输入序列映射到相同长度的输出序列。

    • 模型的数学表示:一、RNN计算图 - 图117

    • 单个样本的损失:一、RNN计算图 - 图118

    • 更新方程:

      一、RNN计算图 - 图119

      其中输入到隐状态的权重为 一、RNN计算图 - 图120,隐状态到输出的权重为 一、RNN计算图 - 图121 ,输出到隐状态的权重为 一、RNN计算图 - 图122一、RNN计算图 - 图123 为输入偏置向量和输出偏置向量。

    一、RNN计算图 - 图124

  4. 单输出&隐-隐连接 循环网络:隐单元之间存在循环连接,但是读取整个序列之后产生单个输出。

    • 单输出&隐-隐连接RNN将一个输入序列映射到单个输出。

    • 模型的数学表示:一、RNN计算图 - 图125

    • 单个样本的损失:一、RNN计算图 - 图126

    • 更新方程:

      一、RNN计算图 - 图127

      其中输入到隐状态的权重为 一、RNN计算图 - 图128,隐状态到输出的权重为 一、RNN计算图 - 图129 ,隐状态到隐状态的权重为 一、RNN计算图 - 图130一、RNN计算图 - 图131 为输入偏置向量和输出偏置向量。

    一、RNN计算图 - 图132

  5. 多输出&输出-隐连接循环网络比较于多输出&隐-隐连接循环网络,该网络的表达能力更小。

    • 多输出&隐-隐连接循环网络可以选择将其想要的关于过去的任何信息放入隐状态 一、RNN计算图 - 图133 中,并且通过 一、RNN计算图 - 图134 传播到未来。
    • 多输出&输出-隐连接循环网络中只有输出 一、RNN计算图 - 图135 会被传播信息到未来。通常 一、RNN计算图 - 图136 的维度远小于 一、RNN计算图 - 图137 ,并且缺乏过去的重要信息。
  6. 多输出&输出-隐连接循环网络虽然表达能力不强,但是更容易训练:通过使用前一个时间步的真实标记 一、RNN计算图 - 图138 来代替输出 一、RNN计算图 - 图139 ,使得每个时间步可以与其他时间步分离训练,从而允许训练期间更多的并行化。

1.3 输出序列长度

  1. 对于输入序列长度为零或者为1RNN模型,必须有某种办法来确定输出序列的长度。有三种方法来确定输出序列的长度:

    • 当输出是单词时,可以添加一个特殊的标记符。当输出遇到该标记符时,输出序列终止。

      此时需要改造训练集,对训练数据的每个输出序列末尾手工添加这个标记符。

    • 在模型中引入一个额外的二元输出单元,该输出单元用于指示:当前时间步是继续生成输出序列,还是停止生成。

      • 这种办法更普遍,适用于任何RNN
      • 该二元输出单元通常使用sigmoid单元,被训练为最大化正确地预测到每个序列结束的对数似然。
    • 在模型中引入一个额外的输出单元,该输出单元预测输出序列的长度 一、RNN计算图 - 图140 本身。

      • 这种方法需要在每个时间步的循环更新中增加一个额外输入,从而通知循环:是否已经到达输出序列的末尾。
      • 其原理是基于条件概率: 一、RNN计算图 - 图141