4.4 词汇工具:Shoebox 和 Toolbox

可能最流行的语言学家用来管理数据的工具是 Toolbox,以前叫做 Shoebox,因为它用满满的档案卡片占据了语言学家的旧鞋盒。Toolbox 可以免费从http://www.sil.org/computing/toolbox/下载。

一个 Toolbox 文件由一个大量条目的集合组成,其中每个条目由一个或多个字段组成。大多数字段都是可选的或重复的,这意味着这个词汇资源不能作为一个表格或电子表格来处理。

下面是一个罗托卡特语的词典。我们只看第一个条目,词 kaa 的意思是”to gag”:

  1. >>> from nltk.corpus import toolbox
  2. >>> toolbox.entries('rotokas.dic')
  3. [('kaa', [('ps', 'V'), ('pt', 'A'), ('ge', 'gag'), ('tkp', 'nek i pas'),
  4. ('dcsv', 'true'), ('vx', '1'), ('sc', '???'), ('dt', '29/Oct/2005'),
  5. ('ex', 'Apoka ira kaaroi aioa-ia reoreopaoro.'),
  6. ('xp', 'Kaikai i pas long nek bilong Apoka bikos em i kaikai na toktok.'),
  7. ('xe', 'Apoka is gagging from food while talking.')]), ...]

条目包括一系列的属性-值对,如('ps', 'V')表示词性是'V'(动词),('ge', 'gag')表示英文注释是’'gag'。最后的 3 个配对包含一个罗托卡特语例句和它的巴布亚皮钦语及英语翻译。

Toolbox 文件松散的结构使我们在现阶段很难更好的利用它。XML 提供了一种强有力的方式来处理这种语料库,我们将在11.回到这个的主题。

注意

罗托卡特语是巴布亚新几内亚的布干维尔岛上使用的一种语言。这个词典资源由 Stuart Robinson 贡献给 NLTK。罗托卡特语以仅有 12 个音素(彼此对立的声音)而闻名。详情请参考:http://en.wikipedia.org/wiki/Rotokas_language