QueueDataset

流式处理数据。

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
  • local_shuffle()

局域shuffle数据

QueueDataset中不支持局域shuffle,可能抛出NotImplementedError

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
  3. dataset.local_shuffle()
  • global_shuffle(fleet=None)

全局shuffle数据

QueueDataset中不支持全局shuffle,可能抛出NotImplementedError

代码示例:

  1. import paddle.fluid as fluid
  2. from paddle.fluid.incubate.fleet.parameter_server.pslib import fleet
  3. dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
  4. dataset.global_shuffle(fleet)
  • desc()

DataFeedDesc 返回一个缓存信息。

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset()
  3. print(dataset.desc())

返回:一个字符串信息

  • set_batch_size(batch_size)

设置batch size。在训练期间生效。

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset()
  3. dataset.set_batch_size(128)
  • 参数:
    • batch_size (int) - batch size
  • set_fea_eval(record_candidate_size, fea_eval)
  • 参数:
    • record_candidate_size (int) - 打乱一个特征的候选实例大小
    • fea_eval (bool) - 是否设置特征验证模式来打乱特征,默认为True。

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset(“InMemoryDataset”)
  3. dataset.set_fea_eval(1000000, True)
  • set_filelist(filelist)

在当前的worker中设置文件列表。

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset()
  3. dataset.set_filelist(["a.txt", "b.txt"])
  • 参数:
    • filelist (list) - 文件列表
  • set_hdfs_config(fs_name, fs_ugi)

设置hdfs配置:fs名称与ugi。

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset()
  3. dataset.set_hdfs_config("my_fs_name", "my_fs_ugi")
  • 参数:
    • fs_name (str) - fs名称
    • fs_ugi (str) - fs ugi
  • set_pipe_command(pipe_coommand)

在当前的 dataset 中设置pipe命令。pipe命令只能使用UNIX的pipe命令

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset()
  3. dataset.set_pipe_command("python my_script.py")
  • 参数:
    • pipe_command (str) - pipe命令
  • set_thread(thread_num)

设置进程数量,等于readers的数量。

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset()
  3. dataset.set_thread(12)
  • 参数:
    • thread_num (int) - 进程数量
  • set_use_var(var_list)

设置将要使用的 Variable

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset()
  3. dataset.set_use_var([data, label])
  • 参数:
    • var_list (list) - variable 列表
  • slots_shuffle(slots)

该方法是在特征层次上的一个打乱方法,经常被用在有着较大缩放率实例的稀疏矩阵上,为了比较metric,比如auc,在一个或者多个有着baseline的特征上做特征打乱来验证特征level的重要性。

  • 参数:
    • slots (list[string]) - 要打乱特征的集合

代码示例:

  1. import paddle.fluid as fluid
  2. dataset = fluid.DatasetFactory().create_dataset(“InMemoryDataset”)
  3. dataset.set_merge_by_lineid()
  4. #支持slot 0
  5. dataset.slots_shuffle([‘0’])