2.6 词块的表示:标记与树
作为标注和分析之间的中间状态(8.,词块结构可以使用标记或树来表示。最广泛的文件表示使用 IOB 标记。在这个方案中,每个词符被三个特殊的词块标记之一标注,I
(内部),O
(外部)或B
(开始)。一个词符被标注为B
,如果它标志着一个词块的开始。块内的词符子序列被标注为I
。所有其他的词符被标注为O
。B
和I
标记后面跟着词块类型,如B-NP
, I-NP
。当然,没有必要指定出现在词块外的词符类型,所以这些都只标注为O
。这个方案的例子如2.5所示。
图 2.5:词块结构的标记表示形式
IOB 标记已成为文件中表示词块结构的标准方式,我们也将使用这种格式。下面是2.5中的信息如何出现在一个文件中的:
We PRP B-NP
saw VBD O
the DT B-NP
yellow JJ I-NP
dog NN I-NP
注意
NLTK 使用树作为词块的内部表示,并提供这些树与 IOB 格式互换的方法。