7. 从文本提取信息 - 8 深入阅读 - 《Python 自然语言处理第二版》

8 深入阅读

8 深入阅读

本章的附加材料发布在http://nltk.org/，包括网络上免费提供的资源的链接。关于使用 NLTK 词块划分的更多的例子，请看在http://nltk.org/howto上的词块划分 HOWTO。

分块的普及很大一部分是由于 Abney 的开创性的工作，如(Church, Young, & Bloothooft, 1996)。http://www.vinartus.net/spa/97a.pdf中描述了 Abney 的 Cass 词块划分器器。

根据 Ross 和 Tukey 在 1975 年的论文(Church, Young, & Bloothooft, 1996)，单词词缝最初的意思是一个停用词序列。

IOB 格式（有时也称为 BIO 格式）由(Ramshaw & Marcus, 1995)开发用来NP划分词块，并被由 Conference on Natural Language Learning 在 1999 年用于NP加括号共享任务。CoNLL 2000 采用相同的格式标注了华尔街日报的文本作为一个NP词块划分共享任务的一部分。

(Jurafsky & Martin, 2008)的 13.5 节包含有关词块划分的一个讨论。第 22 章讲述信息提取，包括命名实体识别。有关生物学和医学中的文本挖掘的信息，请参阅(Ananiadou & McNaught, 2006)。