2.6 词块的表示:标记与树

作为标注和分析之间的中间状态(8.,词块结构可以使用标记或树来表示。最广泛的文件表示使用 IOB 标记。在这个方案中,每个词符被三个特殊的词块标记之一标注,I(内部),O(外部)或B(开始)。一个词符被标注为B,如果它标志着一个词块的开始。块内的词符子序列被标注为I。所有其他的词符被标注为OBI标记后面跟着词块类型,如B-NP, I-NP。当然,没有必要指定出现在词块外的词符类型,所以这些都只标注为O。这个方案的例子如2.5所示。

Images/chunk-tagrep.png

图 2.5:词块结构的标记表示形式

IOB 标记已成为文件中表示词块结构的标准方式,我们也将使用这种格式。下面是2.5中的信息如何出现在一个文件中的:

  1. We PRP B-NP
  2. saw VBD O
  3. the DT B-NP
  4. yellow JJ I-NP
  5. dog NN I-NP

注意

NLTK 使用树作为词块的内部表示,并提供这些树与 IOB 格式互换的方法。