8 深入阅读
本章的附加材料发布在http://nltk.org/
,包括网络上免费提供的资源的链接。关于使用 NLTK 词块划分的更多的例子,请看在http://nltk.org/howto
上的词块划分 HOWTO。
分块的普及很大一部分是由于 Abney 的开创性的工作,如(Church, Young, & Bloothooft, 1996)。http://www.vinartus.net/spa/97a.pdf
中描述了 Abney 的 Cass 词块划分器器。
根据 Ross 和 Tukey 在 1975 年的论文(Church, Young, & Bloothooft, 1996),单词词缝最初的意思是一个停用词序列。
IOB 格式(有时也称为 BIO 格式)由(Ramshaw & Marcus, 1995)开发用来NP
划分词块,并被由 Conference on Natural Language Learning 在 1999 年用于NP
加括号共享任务。CoNLL 2000 采用相同的格式标注了华尔街日报的文本作为一个NP
词块划分共享任务的一部分。
(Jurafsky & Martin, 2008)的 13.5 节包含有关词块划分的一个讨论。第 22 章讲述信息提取,包括命名实体识别。有关生物学和医学中的文本挖掘的信息,请参阅(Ananiadou & McNaught, 2006)。