2.3 通用词性标记集

已标注的语料库使用许多不同的标记集约定来标注词汇。为了帮助我们开始,我们将看一看一个简化的标记集(2.1中所示)。

表 2.1:

通用词性标记集

  1. >>> from nltk.corpus import brown
  2. >>> brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')
  3. >>> tag_fd = nltk.FreqDist(tag for (word, tag) in brown_news_tagged)
  4. >>> tag_fd.most_common()
  5. [('NOUN', 30640), ('VERB', 14399), ('ADP', 12355), ('.', 11928), ('DET', 11389),
  6. ('ADJ', 6706), ('ADV', 3349), ('CONJ', 2717), ('PRON', 2535), ('PRT', 2264),
  7. ('NUM', 2166), ('X', 106)]

注意

轮到你来:使用tag_fd.plot(cumulative=True)为上面显示的频率分布绘图。标注为上述列表中的前五个标记的词的百分比是多少?

我们可以使用这些标记做强大的搜索,结合一个图形化的词性索引工具nltk.app.concordance()。用它来寻找任一单词和词性标记的组合,如N N N N, hit/VD, hit/VN或者the ADJ man