NCE

  • class paddle.fluid.dygraph.NCE(name_scope, num_total_classes, param_attr=None, bias_attr=None, num_neg_samples=None, sampler='uniform', custom_dist=None, seed=0, is_sparse=False)[源代码]

该接口用于构建 NCE 类的一个可调用对象,具体用法参照 代码示例 。其中实现了 NCE 损失函数的功能,其默认使用均匀分布进行抽样,计算并返回噪音对比估计( noise-contrastive estimation training loss)。更多详情请参考:Noise-contrastive estimation: A new estimation principle for unnormalized statistical models

  • 参数:
    • name_scope (str) – 该类的名称。
    • num_total_classes (int) - 所有样本中的类别的总数。
    • sample_weight (Variable, 可选) - 维度为[batch_size, 1],存储每个样本的权重。每个样本的默认权重为1.0。默认值:None。
    • param_attr (ParamAttr, 可选) - 指定权重参数属性的对象。默认值为None,表示使用默认的权重参数属性。具体用法请参见 ParamAttr
    • bias_attr (ParamAttr, 可选) - 指定偏置参数属性的对象。默认值为None,表示使用默认的偏置参数属性。具体用法请参见 ParamAttr
    • num_neg_samples (int, 可选) - 负样本的数量。默认值:10。
    • sampler (str, 可选) – 指明采样器的类型,用于从负类别中进行采样。可以是 uniformlog_uniformcustom_dist 。 默认值: uniform
    • custom_dist (float[], 可选) – float[] 类型的数据,并且它的长度为 num_total_classes 。如果采样器类别为 custom_dist ,则使用此参数。custom_dist[i]是第i个类别被取样的概率。默认值:None
    • seed (int, 可选) – 采样器使用的随机种子。默认值:0。
    • is_sparse (bool, 可选) – 指明是否使用稀疏更新,如果为True, NCE - 图1NCE - 图2 会变为 SelectedRows。默认值:False。

返回:无

代码示例

  1. import numpy as np
  2. import paddle.fluid as fluid
  3.  
  4. window_size = 5
  5. dict_size = 20
  6. label_word = int(window_size // 2) + 1
  7. inp_word = np.array([[[1]], [[2]], [[3]], [[4]], [[5]]]).astype('int64')
  8. nid_freq_arr = np.random.dirichlet(np.ones(20) * 1000).astype('float32')
  9.  
  10. with fluid.dygraph.guard():
  11. words = []
  12. for i in range(window_size):
  13. words.append(fluid.dygraph.base.to_variable(inp_word[i]))
  14.  
  15. emb = fluid.Embedding(
  16. 'embedding',
  17. size=[dict_size, 32],
  18. param_attr='emb.w',
  19. is_sparse=False)
  20.  
  21. embs3 = []
  22. for i in range(window_size):
  23. if i == label_word:
  24. continue
  25.  
  26. emb_rlt = emb(words[i])
  27. embs3.append(emb_rlt)
  28.  
  29. embs3 = fluid.layers.concat(input=embs3, axis=1)
  30. nce = fluid.NCE('nce',
  31. num_total_classes=dict_size,
  32. num_neg_samples=2,
  33. sampler="custom_dist",
  34. custom_dist=nid_freq_arr.tolist(),
  35. seed=1,
  36. param_attr='nce.w',
  37. bias_attr='nce.b')
  38.  
  39. nce_loss3 = nce(embs3, words[label_word])

属性

  • weight

本层的可学习参数,类型为 Parameter

  • bias

本层的可学习偏置,类型为 Parameter