157种语言的词向量
我们发布了之前训练的 157 种语言的词向量,这些词向量是用 fasttext 在 Common Crawl 和 Wikipedia 上训练得出的
这些词向量是由 CBOW 训练而成,而且所使用的 CBOW 模型考虑了位置权重,包含了 300个 维度,并且也考虑了长度为 5,包含十个负样本的大小为 5 的窗体的字符 N 元模型。
并且我们也发布了三种新的可供分析的数据集,分别是法语,印地语和波兰语。
格式
我们可以按照二进制和文本格式查看这些词向量
当使用二进制时,可以用如下命令查看在词汇表以外的单词向量
$ ./fasttext print-word-vectors wiki.it.300.bin < oov_words.txt
其中 oov_words.txt 文件包含了词汇表之外的单词
在文本格式下,每一行包含一个单词,并且它的向量紧随其后
每个值都被空格分开,并且单词按照出现次数降序排列
只需要使用如下的代码,这些文本模型能在Python中轻松的下载:
import io
def load_vectors(fname):
fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
n, d = map(int, fin.readline().split())
data = {}
for line in fin:
tokens = line.rstrip().split(' ')
data[tokens[0]] = map(float, tokens[1:])
return data
分词
我们使用 Stanford word segmenter 对汉语分词,使用 Mecab 对日语分词,使用 UETsegmenter 对越南语分词
对于使用拉丁文,西里尔文,希伯来文或希腊文的语言,我们用来自于 Europarl 的预处理工具进行分词
剩下的语言,我们用 ICU 进行分词
想要了解更多关于这些模型训练的信息,可以查看这篇文章 Learning Word Vectors for 157 Languages.
许可证明
这些词向量发布在 Creative Commons Attribution-Share-Alike License 3.0 上面
参考资料
如果你使用这些词向量,请引用下面这些文章:
E. Grave*, P. Bojanowski*, P. Gupta, A. Joulin, T. Mikolov, Learning Word Vectors for 157 Languages
@inproceedings{grave2018learning,
title={Learning Word Vectors for 157 Languages},
author={Grave, Edouard and Bojanowski, Piotr and Gupta, Prakhar and Joulin, Armand and Mikolov, Tomas},
booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018)},
year={2018}
}
评估数据集
在上面所描述的可供分析的评估数据集可以在下面的地址中得到:
法语, 印地语, 波兰语.
模型
这些词向量可以从如下地址下载
南非荷兰语: bin, text | 阿尔巴尼亚语: bin, text | 阿勒曼尼语: bin, text |
阿姆哈拉语: bin, text | 阿拉伯语: bin, text | 阿拉贡语: bin, text |
亚美尼亚语: bin, text | 阿萨姆语: bin, text | 阿斯图里亚斯语: bin, text |
阿塞拜疆语: bin, text | 巴什基尔语: bin, text | 巴斯克语: bin, text |
巴伐利亚语: bin, text | 白俄罗斯语: bin, text | 孟加拉语: bin, text |
比哈里语: bin, text | Bishnupriya Manipuri: bin, text | 波斯尼亚语: bin, text |
布列塔尼语: bin, text | 保加利亚语: bin, text | 缅甸语: bin, text |
加泰罗尼亚语: bin, text | 宿务语: bin, text | Central Bicolano: bin, text |
车臣语: bin, text | 汉语: bin, text | 楚瓦什语: bin, text |
科西嘉语: bin, text | 克罗地亚语: bin, text | 捷克语: bin, text |
丹麦语: bin, text | 迪维希语: bin, text | 荷兰语: bin, text |
东旁遮普邦语: bin, text | 埃及阿拉伯语: bin, text | 艾米尼亚-Romagnol: bin, text |
俄日亚文: bin, text | 世界语: bin, text | 爱沙尼亚语: bin, text |
斐济印地语: bin, text | 芬兰语: bin, text | 法语: bin, text |
加利西亚语: bin, text | 格鲁吉亚语: bin, text | 德语: bin, text |
Goan Konkani: bin, text | 希腊语: bin, text | 古吉拉特语: bin, text |
海地语: bin, text | 希伯来语: bin, text | 希尔马里语: bin, text |
印地语: bin, text | 匈牙利语: bin, text | 冰岛语: bin, text |
伊多语: bin, text | 伊洛卡诺语: bin, text | 印度尼西亚语: bin, text |
国际语: bin, text | 爱尔兰语: bin, text | 意大利语: bin, text |
日语: bin, text | 爪哇语: bin, text | 卡纳达语: bin, text |
印尼爪哇语: bin, text | 哈萨克语: bin, text | 高棉语: bin, text |
吉尔吉斯语: bin, text | 朝鲜语: bin, text | 库尔德语(Kurmanji): bin, text |
库尔德语(Sorani): bin, text | 拉丁语: bin, text | 拉脱维亚语: bin, text |
林堡语: bin, text | 立陶宛语: bin, text | 隆巴德语: bin, text |
低撒克逊语: bin, text | 卢森堡语: bin, text | 马其顿语: bin, text |
迈蒂利语: bin, text | 马尔加什语: bin, text | 马来语: bin, text |
马拉亚姆语: bin, text | 马其他语: bin, text | 马恩岛语: bin, text |
马拉语: bin, text | Mazandarani: bin, text | 东马里语: bin, text |
米南加保语: bin, text | 明格雷利亚语: bin, text | 米兰德斯语: bin, text |
蒙古语: bin, text | 纳瓦特尔语: bin, text | 那不勒斯语: bin, text |
尼泊尔语: bin, text | 尼瓦尔语: bin, text | 北弗里斯兰语: bin, text |
北索托语: bin, text | 挪威语 (Bokmål): bin, text | 挪威语 (Nynorsk): bin, text |
奥克语: bin, text | 奥里亚语: bin, text | 南奥塞梯语: bin, text |
普法尔茨德语: bin, text | 普什图语: bin, text | 波斯语: bin, text |
皮埃蒙特语: bin, text | 波兰语: bin, text | 葡萄牙语: bin, text |
克丘亚语: bin, text | 罗马尼亚语: bin, text | 罗曼什语: bin, text |
俄语: bin, text | 萨哈语: bin, text | 梵文: bin, text |
撒丁岛语: bin, text | 苏格兰语: bin, text | 苏格兰盖尔语: bin, text |
塞尔维亚语: bin, text | 塞尔维亚 - 克罗地亚语: bin, text | 西西里语: bin, text |
信德语: bin, text | 僧伽罗语: bin, text | 斯洛伐克语: bin, text |
斯洛文尼亚语: bin, text | 索马里语: bin, text | 南阿塞拜疆: bin, text |
西班牙语: bin, text | 巽他语: bin, text | 斯瓦希里语: bin, text |
瑞典语: bin, text | 他加禄语: bin, text | 塔吉克语: bin, text |
泰米尔语: bin, text | 鞑靼语: bin, text | 泰卢固语: bin, text |
泰语: bin, text | 藏语: bin, text | 土耳其语: bin, text |
土库曼语: bin, text | 乌克兰语: bin, text | 上索布族语: bin, text |
乌尔都语: bin, text | 维吾尔语: bin, text | 乌兹别克语: bin, text |
威尼斯语: bin, text | 越南语: bin, text | 沃拉普克语: bin, text |
华隆语: bin, text | 瓦莱语: bin, text | 威尔士语: bin, text |
西佛兰芒语: bin, text | West 弗里斯兰语: bin, text | 西旁遮普语: bin, text |
意第绪语: bin, text | 约鲁巴语: bin, text | 扎扎其语: bin, text |
泽兰蒂克语: bin, text |