157种语言的词向量

我们发布了之前训练的 157 种语言的词向量,这些词向量是用 fasttext 在 Common CrawlWikipedia 上训练得出的

这些词向量是由 CBOW 训练而成,而且所使用的 CBOW 模型考虑了位置权重,包含了 300个 维度,并且也考虑了长度为 5,包含十个负样本的大小为 5 的窗体的字符 N 元模型。

并且我们也发布了三种新的可供分析的数据集,分别是法语,印地语和波兰语。

格式

我们可以按照二进制和文本格式查看这些词向量

当使用二进制时,可以用如下命令查看在词汇表以外的单词向量

  1. $ ./fasttext print-word-vectors wiki.it.300.bin < oov_words.txt

其中 oov_words.txt 文件包含了词汇表之外的单词

在文本格式下,每一行包含一个单词,并且它的向量紧随其后

每个值都被空格分开,并且单词按照出现次数降序排列

只需要使用如下的代码,这些文本模型能在Python中轻松的下载:

  1. import io
  2. def load_vectors(fname):
  3. fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
  4. n, d = map(int, fin.readline().split())
  5. data = {}
  6. for line in fin:
  7. tokens = line.rstrip().split(' ')
  8. data[tokens[0]] = map(float, tokens[1:])
  9. return data

分词

我们使用 Stanford word segmenter 对汉语分词,使用 Mecab 对日语分词,使用 UETsegmenter 对越南语分词

对于使用拉丁文,西里尔文,希伯来文或希腊文的语言,我们用来自于 Europarl 的预处理工具进行分词

剩下的语言,我们用 ICU 进行分词

想要了解更多关于这些模型训练的信息,可以查看这篇文章 Learning Word Vectors for 157 Languages.

许可证明

这些词向量发布在 Creative Commons Attribution-Share-Alike License 3.0 上面

参考资料

如果你使用这些词向量,请引用下面这些文章:

E. Grave*, P. Bojanowski*, P. Gupta, A. Joulin, T. Mikolov, Learning Word Vectors for 157 Languages

  1. @inproceedings{grave2018learning,
  2. title={Learning Word Vectors for 157 Languages},
  3. author={Grave, Edouard and Bojanowski, Piotr and Gupta, Prakhar and Joulin, Armand and Mikolov, Tomas},
  4. booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018)},
  5. year={2018}
  6. }

评估数据集

在上面所描述的可供分析的评估数据集可以在下面的地址中得到:
法语, 印地语, 波兰语.

模型

这些词向量可以从如下地址下载

南非荷兰语: bin, text 阿尔巴尼亚语: bin, text 阿勒曼尼语: bin, text
阿姆哈拉语: bin, text 阿拉伯语: bin, text 阿拉贡语: bin, text
亚美尼亚语: bin, text 阿萨姆语: bin, text 阿斯图里亚斯语: bin, text
阿塞拜疆语: bin, text 巴什基尔语: bin, text 巴斯克语: bin, text
巴伐利亚语: bin, text 白俄罗斯语: bin, text 孟加拉语: bin, text
比哈里语: bin, text Bishnupriya Manipuri: bin, text 波斯尼亚语: bin, text
布列塔尼语: bin, text 保加利亚语: bin, text 缅甸语: bin, text
加泰罗尼亚语: bin, text 宿务语: bin, text Central Bicolano: bin, text
车臣语: bin, text 汉语: bin, text 楚瓦什语: bin, text
科西嘉语: bin, text 克罗地亚语: bin, text 捷克语: bin, text
丹麦语: bin, text 迪维希语: bin, text 荷兰语: bin, text
东旁遮普邦语: bin, text 埃及阿拉伯语: bin, text 艾米尼亚-Romagnol: bin, text
俄日亚文: bin, text 世界语: bin, text 爱沙尼亚语: bin, text
斐济印地语: bin, text 芬兰语: bin, text 法语: bin, text
加利西亚语: bin, text 格鲁吉亚语: bin, text 德语: bin, text
Goan Konkani: bin, text 希腊语: bin, text 古吉拉特语: bin, text
海地语: bin, text 希伯来语: bin, text 希尔马里语: bin, text
印地语: bin, text 匈牙利语: bin, text 冰岛语: bin, text
伊多语: bin, text 伊洛卡诺语: bin, text 印度尼西亚语: bin, text
国际语: bin, text 爱尔兰语: bin, text 意大利语: bin, text
日语: bin, text 爪哇语: bin, text 卡纳达语: bin, text
印尼爪哇语: bin, text 哈萨克语: bin, text 高棉语: bin, text
吉尔吉斯语: bin, text 朝鲜语: bin, text 库尔德语(Kurmanji): bin, text
库尔德语(Sorani): bin, text 拉丁语: bin, text 拉脱维亚语: bin, text
林堡语: bin, text 立陶宛语: bin, text 隆巴德语: bin, text
低撒克逊语: bin, text 卢森堡语: bin, text 马其顿语: bin, text
迈蒂利语: bin, text 马尔加什语: bin, text 马来语: bin, text
马拉亚姆语: bin, text 马其他语: bin, text 马恩岛语: bin, text
马拉语: bin, text Mazandarani: bin, text 东马里语: bin, text
米南加保语: bin, text 明格雷利亚语: bin, text 米兰德斯语: bin, text
蒙古语: bin, text 纳瓦特尔语: bin, text 那不勒斯语: bin, text
尼泊尔语: bin, text 尼瓦尔语: bin, text 北弗里斯兰语: bin, text
北索托语: bin, text 挪威语 (Bokmål): bin, text 挪威语 (Nynorsk): bin, text
奥克语: bin, text 奥里亚语: bin, text 南奥塞梯语: bin, text
普法尔茨德语: bin, text 普什图语: bin, text 波斯语: bin, text
皮埃蒙特语: bin, text 波兰语: bin, text 葡萄牙语: bin, text
克丘亚语: bin, text 罗马尼亚语: bin, text 罗曼什语: bin, text
俄语: bin, text 萨哈语: bin, text 梵文: bin, text
撒丁岛语: bin, text 苏格兰语: bin, text 苏格兰盖尔语: bin, text
塞尔维亚语: bin, text 塞尔维亚 - 克罗地亚语: bin, text 西西里语: bin, text
信德语: bin, text 僧伽罗语: bin, text 斯洛伐克语: bin, text
斯洛文尼亚语: bin, text 索马里语: bin, text 南阿塞拜疆: bin, text
西班牙语: bin, text 巽他语: bin, text 斯瓦希里语: bin, text
瑞典语: bin, text 他加禄语: bin, text 塔吉克语: bin, text
泰米尔语: bin, text 鞑靼语: bin, text 泰卢固语: bin, text
泰语: bin, text 藏语: bin, text 土耳其语: bin, text
土库曼语: bin, text 乌克兰语: bin, text 上索布族语: bin, text
乌尔都语: bin, text 维吾尔语: bin, text 乌兹别克语: bin, text
威尼斯语: bin, text 越南语: bin, text 沃拉普克语: bin, text
华隆语: bin, text 瓦莱语: bin, text 威尔士语: bin, text
西佛兰芒语: bin, text West 弗里斯兰语: bin, text 西旁遮普语: bin, text
意第绪语: bin, text 约鲁巴语: bin, text 扎扎其语: bin, text
泽兰蒂克语: bin, text