2 条件频率分布

我们在第3节介绍了频率分布。我们看到给定某个词汇或其他元素的列表mylistFreqDist(mylist)会计算列表中每个元素项目出现的次数。在这里,我们将推广这一想法。

当语料文本被分为几类,如文体、主题、作者等时,我们可以计算每个类别独立的频率分布。这将允许我们研究类别之间的系统性差异。在上一节中,我们是用 NLTK 的ConditionalFreqDist数据类型实现的。条件频率分布是频率分布的集合,每个频率分布有一个不同的“条件”。这个条件通常是文本的类别。2.1描绘了一个带两个条件的条件频率分布的片段,一个是新闻文本,一个是言情文本。

/projects/nlp-py-2e-zh/Images/b1aad2b60635723f14976fb5cb9ca372.jpg

图 2.1:计数文本集合中单词出现次数(条件频率分布)