来源:ApacheCN
浏览 752
扫码
分享
2019-05-28 23:13:19
6 小结
- 文本语料库是一个大型结构化文本的集合。NLTK 包含了许多语料库,如布朗语料库
nltk.corpus.brown
。 - 有些文本语料库是分类的,例如通过文体或者主题分类;有时候语料库的分类会相互重叠。
- 条件频率分布是一个频率分布的集合,每个分布都有一个不同的条件。它们可以用于通过给定内容或者文体对词的频率计数。
- 行数较多的 Python 程序应该使用文本编辑器来输入,保存为
.py
后缀的文件,并使用import
语句来访问。 - Python 函数允许你将一段特定的代码块与一个名字联系起来,然后重用这些代码想用多少次就用多少次。
- 一些被称为“方法”的函数与一个对象联系在起来,我们使用对象名称跟一个点然后跟方法名称来调用它,就像:
x.funct(y)
或者word.isalpha()
。 - 要想找到一些关于某个变量
v
的信息,可以在 Pyhon 交互式解释器中输入help(v)
来阅读这一类对象的帮助条目。 - WordNet 是一个面向语义的英语词典,由同义词的集合——或称为同义词集——组成,并且组织成一个网络。
- 默认情况下有些函数是不能使用的,必须使用 Python 的
import
语句来访问。