imdb

来源:百度浏览 774 扫码分享 2020-05-04 12:13:23

imdb

imdb

IMDB数据集。

此模块将从 http://ai.stanford.edu/%7Eamaas/data/sentiment/aclImdb_v1.tar.gz 下载数据集。这个数据集包含了25000条训练用电影评论数据，25000条测试用评论数据，且这些评论带有明显情感倾向。此外，该模块还提供了用于构建词典的API。

paddle.dataset.imdb.build_dict(pattern, cutoff)[源代码]

从语料库构建一个单词字典，词典的键是word，值是这些单词从0开始的ID。

paddle.dataset.imdb.train(word_idx)[源代码]

IMDB训练数据集的creator。

它返回一个reader creator, reader中的每个样本的是一个从0开始的ID序列，标签范围是[0，1]。

参数：
- word_idx (dict) – 词典

返回：训练数据集的reader creator

返回类型：callable

paddle.dataset.imdb.test(word_idx)[源代码]

IMDB测试数据集的creator。

它返回一个reader creator, reader中的每个样本的是一个从0开始的ID序列，标签范围是[0，1]。

参数：
- word_idx (dict) – 词典

返回：训练数据集的reader creator

返回类型：callable

paddle.dataset.imdb.convert(path)

将数据集转换为recordio格式。

当前内容版权归百度或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问百度 .

本文档使用 BookStack 构建

展开/收起文章目录