dynamic_lstm

  • paddle.fluid.layers.dynamic_lstm(input, size, h_0=None, c_0=None, param_attr=None, bias_attr=None, use_peepholes=True, is_reverse=False, gate_activation='sigmoid', cell_activation='tanh', candidate_activation='tanh', dtype='float32', name=None)[源代码]

该OP实现了 LSTM,即 Long-Short Term Memory(长短期记忆)运算 - Hochreiter, S., & Schmidhuber, J. (1997)

注解

  • 该OP仅支持 LoDTensor 作为输入,如果您需要处理的是Tensor,请使用 lstm
  • 在实现的时候为了提升效率,用户必须将LSTM的输入先进行线性映射,将维度为 [T, hidden_size] 的输入映射为 [T, 4 × hidden_size] 输入,然后再传给该OP。

该OP的默认实现方式为 diagonal/peephole 连接,参见 Gers, F. A., & Schmidhuber, J. (2000)。 如果需要禁用 peephole 连接方法,将 use_peepholes 设为 False 即可。

该OP对于序列中每一个时间步的计算公式如下:

dynamic_lstm - 图1

dynamic_lstm - 图2

dynamic_lstm - 图3

dynamic_lstm - 图4

dynamic_lstm - 图5

dynamic_lstm - 图6

  • 公式中的概念信息如下:
    • dynamic_lstm - 图7 表示时间步 dynamic_lstm - 图8 的输入
    • dynamic_lstm - 图9 表示时间步 dynamic_lstm - 图10 的 hidden 状态
    • dynamic_lstm - 图11 分别表示前一个时间步的 hidden 和 cell 状态
    • dynamic_lstm - 图12 表示候选的 cell 状态
    • dynamic_lstm - 图13dynamic_lstm - 图14dynamic_lstm - 图15 分别为 input gate,forget gate,output gate
    • dynamic_lstm - 图16 表示 weight (例如, dynamic_lstm - 图17 是在计算 input gate dynamic_lstm - 图18 时,对输入 dynamic_lstm - 图19 做线性变换的 weight)
    • dynamic_lstm - 图20 表示 bias (例如, dynamic_lstm - 图21 是 input gate 的 bias)
    • dynamic_lstm - 图22 表示 gate 的非线性激活函数,默认为 sigmoid
    • dynamic_lstm - 图23 分别表示 cell 输入和 cell 输出的非线性激活函数,默认为 tanh
    • dynamic_lstm - 图24 表示矩阵的 Hadamard product,即对两个维度相同的矩阵,将相同位置的元素相乘,得到另一个维度相同的矩阵
  • 参数:
    • input ( Variable ) 维度为 dynamic_lstm - 图25 的多维 LoDTensor(必须在传入该OP前对维度为 dynamic_lstm - 图26 的输入经过线性变换得到),其中 T 为 batch 中所有样本的长度之和,hidden_size 为隐层大小,数据类型为 float32 或者 float64。
    • size (int) – 必须为 4*hidden_size。
    • h_0 ( Variable ,可选) 维度为 dynamic_lstm - 图27 的多维 Tensor,其中 hidden_size 为隐层大小,数据类型为 float32 或者 float64。如果为 None,该OP会自动设置为全0的向量。默认值为None。
    • c_0 ( Variable ,可选) 维度为 dynamic_lstm - 图28 的多维 Tensor,其中 hidden_size 为隐层大小,数据类型为 float32 或者 float64。如果为 None,该OP会自动设置为全0的向量; dynamic_lstm - 图29 如果要设置为None,必须同时为None。默认值为None。
    • param_attr (ParamAttr,可选) – 指定权重参数属性的对象。如果为None,表示使用默认的权重参数属性。具体用法请参见 ParamAttr 。如果用户需要设置此属性,维度必须等于 dynamic_lstm - 图30 。默认值为None。
    • bias_attr (ParamAttr,可选) – 指定偏置参数属性的对象。如果为None,表示使用默认的偏置参数属性。具体用法请参见 ParamAttr 。如果用户需要设置此属性,如果 use_peepholes=true,维度需为 dynamic_lstm - 图31 , use_peepholes=true,维度需为 dynamic_lstm - 图32 。默认值为None。
    • use_peepholes (bool,可选) – 是否使用 peephole 连接。默认值为True。
    • is_reverse (bool,可选) – 是否将输入的数据根据根据样本长度进行逆序,同时会将输出进行逆序,用户拿到结果之后,不需要再逆序。默认值为False。
    • gate_activation (str,可选) – 应用于input gate,forget gate, output gate 的激活函数。默认值为sigmoid。
    • cell_activation (str,可选) – 用于cell输入的激活函数。默认值为tanh。
    • candidate_activation (str,可选) – 用于cell输出的激活函数。默认值为tanh。
    • dtype (str,可选) – 数据类型为 float32 或者 float64。默认值为 float32。
    • name (str,可选) – 具体用法请参见 Name ,默认值为None。

返回:经过lstm运算输出的 hidden 和 cell 的状态的tuple,包括

  • hidden:LSTM hidden的输出结果,维度为 dynamic_lstm - 图33 的LoDTensor,且LoD保持与输入一致,数据类型与input一致。
  • cell:LSTM cell的输出结果,维度为 dynamic_lstm - 图34 的LoDTensor,且LoD保持与输入一致,数据类型与input一致。

返回类型: tuple( Variable , Variable

代码示例

  1. import paddle.fluid as fluid
  2. emb_dim = 256
  3. vocab_size = 10000
  4. hidden_dim = 512
  5.  
  6. data = fluid.layers.data(name='x', shape=[1], dtype='int32', lod_level=1)
  7. emb = fluid.layers.embedding(input=data, size=[vocab_size, emb_dim], is_sparse=True)
  8.  
  9. forward_proj = fluid.layers.fc(input=emb, size=hidden_dim * 4, bias_attr=False)
  10. forward, cell = fluid.layers.dynamic_lstm(input=forward_proj, size=hidden_dim * 4, use_peepholes=False)
  11. forward.shape # (-1, 512)
  12. cell.shape # (-1, 512)