首页> 外文期刊>Terminology >Word embedding dataset from 'NINJAL Web Japanese Corpus'
【24h】

Word embedding dataset from 'NINJAL Web Japanese Corpus'

机译:来自“ NINJAL Web日语语料库”的词嵌入数据集

获取原文
获取原文并翻译 | 示例
           

摘要

In this paper, we present a word embedding dataset NWJC2Vec constructed using 'NINJAL Web Japanese Corpus (NWJC)'. NWJC is a Web-crawled text corpus that contains 25.8 billion tokens. We construct two types of the word embedding dataset: one is based on the surface form, and the other is based on the complete morpheme information provided by UniDic, which is a lexicon for the Japanese morphological analyser MeCab. We perform an evaluation of the dataset by comparing it with the 'Word List by Semantic Principles (Bunrui Goihyo)'.
机译:在本文中,我们介绍了使用“ NINJAL网络日语语料库(NWJC)”构建的词嵌入数据集NWJC2Vec。 NWJC是一个包含258亿个令牌的Web爬行文本语料库。我们构造了两种类型的词嵌入数据集:一种是基于表面形式,另一种是基于UniDic提供的完整词素信息,UniDic是日本形态分析程序MeCab的词典。我们将数据集与“语义原则单词列表(Bunrui Goihyo)”进行比较,从而对数据集进行评估。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号