imdb

IMDB数据集。

此模块将从 http://ai.stanford.edu/%7Eamaas/data/sentiment/aclImdb_v1.tar.gz 下载数据集。这个数据集包含了25000条训练用电影评论数据,25000条测试用评论数据,且这些评论带有明显情感倾向。此外,该模块还提供了用于构建词典的API。

方法

paddle.dataset.imdb.build_dict(pattern, cutoff)

从语料库构建一个单词字典,词典的键是word,值是这些单词从0开始的ID。

paddle.dataset.imdb.train(word_idx)

IMDB训练数据集的creator。

它返回一个reader creator, reader中的每个样本的是一个从0开始的ID序列,标签范围是[0,1]。

参数

  • word_idx (dict) – 词典

返回

训练数据集的reader creator

返回类型 callable

paddle.dataset.imdb.test(word_idx)

IMDB测试数据集的creator。

它返回一个reader creator, reader中的每个样本的是一个从0开始的ID序列,标签范围是[0,1]。

参数

  • word_idx (dict) – 词典

返回

训练数据集的reader creator

返回类型 callable

paddle.dataset.imdb.convert(path)

将数据集转换为recordio格式。