imdb
IMDB数据集。
此模块将从 http://ai.stanford.edu/%7Eamaas/data/sentiment/aclImdb_v1.tar.gz 下载数据集。这个数据集包含了25000条训练用电影评论数据,25000条测试用评论数据,且这些评论带有明显情感倾向。此外,该模块还提供了用于构建词典的API。
paddle.dataset.imdb.
build_dict
(pattern, cutoff)[源代码]
从语料库构建一个单词字典,词典的键是word,值是这些单词从0开始的ID。
paddle.dataset.imdb.
train
(word_idx)[源代码]
IMDB训练数据集的creator。
它返回一个reader creator, reader中的每个样本的是一个从0开始的ID序列,标签范围是[0,1]。
- 参数:
- word_idx (dict) – 词典
返回: 训练数据集的reader creator
返回类型:callable
paddle.dataset.imdb.
test
(word_idx)[源代码]
IMDB测试数据集的creator。
它返回一个reader creator, reader中的每个样本的是一个从0开始的ID序列,标签范围是[0,1]。
- 参数:
- word_idx (dict) – 词典
返回: 训练数据集的reader creator
返回类型:callable
paddle.dataset.imdb.
convert
(path)
将数据集转换为recordio格式。