8 深入阅读

本章的附加材料发布在http://nltk.org/,包括网络上免费提供的资源的链接。

语言学语料库的首要来源是 语言数据联盟 欧洲语言资源局 ,两者都有广泛的在线目录。本书中提到的主要语料库的细节也有介绍:美国国家语料库(Reppen, Ide, & Suderman, 2005)、英国国家语料库({BNC}, 1999),Thesaurus Linguae Graecae({TLG}, 1999)、儿童语言数据交换系统 (CHILDES) (MacWhinney, 1995)和 TIMIT(S., Lamel, & William, 1986)

计算语言学协会定期组织研讨会发布论文集,它的两个特别兴趣组:SIGWAC 和 SIGANN;前者推动使用网络作为语料,发起去除 HTML 标记的 CLEANEVAL 任务;后者鼓励对语言注解的互操作性的努力。

(Buseman, Buseman, & Early, 1996)提供 Toolbox 数据格式的全部细节,最新的发布可以从http://www.sil.org/computing/toolbox/免费下载。构建一个 Toolbox 词典的过程指南参见http://www.sil.org/computing/ddp/。我们在 Toolbox 上努力的更多的例子记录在(Tamanji, Hirotani, & Hall, 1999)(Robinson, Aumann, & Bird, 2007)(Bird & Simons, 2003)调查了语言数据管理的几十个其他工具。也请参阅关于文化遗产数据的语言技术的 LaTeCH 研讨会的论文集。

有很多优秀的 XML 资源(如http://zvon.org/)和编写 Python 程序处理 XML 的资源。许多编辑器都有 XML 模式。XML 格式的词汇信息包括 OLIFhttp://www.olif.net/和 LIFThttp://code.google.com/p/lift-standard/

对于语言标注软件的调查,见http://www.ldc.upenn.edu/annotation/ 语言标注页 。对峙注解最初的提出是(Thompson & McKelvie, 1997)。语言标注的一个抽象的数据模型称为“标注图”在(Bird & Liberman, 2001)提出。语言描述的一个通用本体(GOLD)记录在http://www.linguistics-ontology.org/中。

有关规划和建设语料库的指导,请参阅(Meyer, 2002)(Farghaly, 2003) 。关于标注者之间一致性得分的方法的更多细节,见(Artstein & Poesio, 2008)(Pevzner & Hearst, 2002)

Rotokas 数据由 Stuart Robinson 提供,勉方言数据由 Greg Aumann 提供。

有关开放语言档案社区的更多信息,请访问http://www.language-archives.org/,或参见(Simons & Bird, 2003)