text_to_word_sequence
keras.preprocessing.text.text_to_word_sequence(text,
filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
lower=True,
split=" ")
将一个句子划分为词的列表。
返回: 词的列表(字符串)。
参数:
- text: 字符串。
- filters: 需要过滤掉的字符列表(或连接)。
默认:!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n
,
包含基本标点符号、制表符、换行符。 - lower: 布尔值。是否将文本转换为小写。
- split: 字符串。词的分隔符。
one_hot
keras.preprocessing.text.one_hot(text,
n,
filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
lower=True,
split=" ")
One-hot 将文本编码为大小为 n 的词汇表中的词索引列表。
这是使用 hash
作为散列函数的 hashing_trick
函数的封装器。
返回: 整数列表 [1, n]。每个整数编码一个词(唯一性无法保证)。
参数:
- text: 字符串。
- n: 整数。词汇表大小。
- filters: 需要过滤掉的字符列表(或连接)。
默认:!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n
,
包含基本标点符号、制表符、换行符。 - lower: 布尔值。是否将文本转换为小写。
- split: 字符串。词的分隔符。
hashing_trick
keras.preprocessing.text.hashing_trick(text,
n,
hash_function=None,
filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
lower=True,
split=' ')
将文本转换为固定大小散列空间中的索引序列。
返回: 词索引的列表(唯一性无法保证)。
参数:
- text: 字符串。
- n: 散列空间的维度。
- hash_function:默认为 Python
hash
函数,
可以是 ‘md5’ 或任何接受输入字符串并返回 int 的函数。
注意hash
是一个不稳定的散列函数,
因而它在不同的运行环境下是不一致的,
而md5
是一个稳定的散列函数。 - filters: 需要过滤掉的字符列表(或连接)。
默认:!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n
,
包含基本标点符号、制表符、换行符。 - lower: 布尔值。是否将文本转换为小写。
- split: 字符串。词的分隔符。
Tokenizer
keras.preprocessing.text.Tokenizer(num_words=None,
filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
lower=True,
split=" ",
char_level=False)
将文本向量化的类,或/且 将文本转化为序列(词索引的列表,其中在数据集中的第 i 个首次出现的单词索引为 i,从 1 开始)。
参数: 与上面的
text_to_word_sequence
相同。- num_words: None 或 整型。 要使用的最大词数 (如果设置,标记化过程将会局限在数据集中最常出现的词中)。
- char_level: 如果 True,每一个字符都被作为一个标记。
方法:
fit_on_texts(texts):
- 参数:
- texts: 需要训练的文本列表。
- 参数:
texts_to_sequences(texts)
- 参数:
- texts: 需要转换为序列的文本列表。
- 返回: 序列的列表(每个文本输入一个序列)。
- 参数:
texts_to_sequences_generator(texts): 以上方法的生成器版本。
- 返回: 每一次文本输入返回一个序列。
texts_to_matrix(texts):
- 返回: numpy array of shape
(len(texts), num_words)
. - 参数:
- texts: 需要向量化的文本列表。
- mode: “binary”, “count”, “tfidf”, “freq” 之一 (默认: “binary”)。
- 返回: numpy array of shape
fit_on_sequences(sequences):
- 参数:
- sequences: 需要训练的文本列表。
- 参数:
sequences_to_matrix(sequences):
- 返回: 尺寸为
(len(sequences), num_words)
的 numpy 数组。 - 参数:
- sequences: 需要向量化的序列列表。
- mode: “binary”, “count”, “tfidf”, “freq” 之一 (默认: “binary”)。
- 返回: 尺寸为
属性:
- word_counts: 在训练时将词(字符串)映射到其出现次数的字典。只在调用
fit_on_text
后才被设置。 - word_docs: 在训练时将词(字符串)映射到其出现的文档/文本数的字典。只在调用
fit_on_text
后才被设置。 - word_index: 将词(字符串)映射到索引(整型)的字典。只在调用
fit_on_text
后才被设置。 - document_count: 整型。标志器训练的文档(文本/序列)数量。只在调用
fit_on_text
或fit_on_sequences
后才被设置。
- word_counts: 在训练时将词(字符串)映射到其出现次数的字典。只在调用