7 小结

  • 大多数语料库中基本数据类型是已标注的文本和词汇。文本有时间结构,而词汇有记录结构。
  • 语料库的生命周期,包括数据收集、标注、质量控制以及发布。发布后生命周期仍然继续,因为语料库会在研究过程中被修改和丰富。
  • 语料库开发包括捕捉语言使用的代表性的样本与使用任何一个来源或文体都有足够的材料之间的平衡;增加变量的维度通常由于资源的限制而不可行。
  • XML 提供了一种有用的语言数据的存储和交换格式,但解决普遍存在的数据建模问题没有捷径。
  • Toolbox 格式被广泛使用在语言记录项目中;我们可以编写程序来支持 Toolbox 文件的维护,将它们转换成 XML。
  • 开放语言档案社区(OLAC)提供了一个用于记录和发现语言资源的基础设施。