4 词汇资源
词典或者词典资源是一个词和/或短语以及一些相关信息的集合,例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。例如:如果我们定义了一个文本my_text
,然后vocab = sorted(set(my_text))
建立my_text
的词汇,同时word_freq = FreqDist(my_text)
计数文本中每个词的频率。vocab
和word_freq
都是简单的词汇资源。同样,如我们在1中看到的,词汇索引为我们提供了有关词语用法的信息,可能在编写词典时有用。4.1中描述了词汇相关的标准术语。一个词项包括词目(也叫词条)以及其他附加信息,例如词性和词意定义。两个不同的词拼写相同被称为同音异义词。
图 4.1:词典术语:两个拼写相同的词条(同音异义词)的词汇项,包括词性和注释信息。
最简单的词典是除了一个词汇列表外什么也没有。复杂的词典资源包括在词汇项内和跨词汇项的复杂的结构。在本节,我们来看看 NLTK 中的一些词典资源。