首页> 外文会议>International Conference on Language Resources and Evaluation >Multilingual Culture-Independent Word Analogy Datasets
【24h】

Multilingual Culture-Independent Word Analogy Datasets

机译:多语言文化无关的单词类比数据集

获取原文

摘要

In text processing, deep neural networks mostly use word embedding* as an input. Embeddings have to ensure that relations between words are reflected through distances in a high-dimensional numeric space. To compare the quality of different text embeddings, typically, we use benchmark datasets. We present a collection of such datasets for the word analogy task in nine languages: Croatian, English. Estonian, Finnish, Latvian. Lithuanian, Russian. Slovenian, and Swedish. We designed the monolingual analogy task to be much more culturally independent and also constructed cross-lingual analogy datasets for the involved languages. We present basic statistics of the created datasets and their initial evaluation using fastText embeddings.
机译:在文本处理中,深神经网络主要使用单词嵌入*作为输入。 嵌入式必须确保单词之间的关系反映通过高维数值空间的距离。 要比较不同文本嵌入的质量,通常,我们使用基准数据集。 我们为九种语言提供了一系列数据集,以九种语言:克罗地亚语,英语。 爱沙尼亚,芬兰,拉脱维亚。 立陶宛语,俄语。 斯洛文尼亚语和瑞典语。 我们设计了单晶类比任务,更加文化地独立,并为所涉及的语言构建交叉语言类比数据集。 我们使用FastText Embeddings呈现创建数据集的基本统计数据及其初始评估。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号