2.3 通用词性标记集
已标注的语料库使用许多不同的标记集约定来标注词汇。为了帮助我们开始,我们将看一看一个简化的标记集(2.1中所示)。
表 2.1:
通用词性标记集
>>> from nltk.corpus import brown
>>> brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')
>>> tag_fd = nltk.FreqDist(tag for (word, tag) in brown_news_tagged)
>>> tag_fd.most_common()
[('NOUN', 30640), ('VERB', 14399), ('ADP', 12355), ('.', 11928), ('DET', 11389),
('ADJ', 6706), ('ADV', 3349), ('CONJ', 2717), ('PRON', 2535), ('PRT', 2264),
('NUM', 2166), ('X', 106)]
注意
轮到你来:使用tag_fd.plot(cumulative=True)
为上面显示的频率分布绘图。标注为上述列表中的前五个标记的词的百分比是多少?
我们可以使用这些标记做强大的搜索,结合一个图形化的词性索引工具nltk.app.concordance()
。用它来寻找任一单词和词性标记的组合,如N N N N
, hit/VD
, hit/VN
或者the ADJ man
。