Imikolov

class paddle.text.datasets. Imikolov [源代码]

该类是对imikolov测试数据集的实现。

参数

  • data_file(str)- 保存数据的路径,如果参数:attr:download设置为True,

可设置为None。默认为None。 - data_type(str)- ‘NGRAM’或’SEQ’。默认为’NGRAM’。 - window_size(int) - ‘NGRAM’数据滑动窗口的大小。默认为-1。 - mode(str)- ‘train’ ‘test’ mode. Default ‘train’. - min_word_freq(int)- 构建词典的最小词频。默认为50。 - download(bool)- 如果:attr:data_file未设置,是否自动下载数据集。默认为True。

返回值

Dataset,imikolov数据集实例。

代码示例

  1. import paddle
  2. from paddle.text.datasets import Imikolov
  3. class SimpleNet(paddle.nn.Layer):
  4. def __init__(self):
  5. super(SimpleNet, self).__init__()
  6. def forward(self, src, trg):
  7. return paddle.sum(src), paddle.sum(trg)
  8. imikolov = Imikolov(mode='train', data_type='SEQ', window_size=2)
  9. for i in range(10):
  10. src, trg = imikolov[i]
  11. src = paddle.to_tensor(src)
  12. trg = paddle.to_tensor(trg)
  13. model = SimpleNet()
  14. src, trg = model(src, trg)
  15. print(src.numpy().shape, trg.numpy().shape)