首页> 外文会议>Analysis of Images, social networks and texts >Size vs. Structure in Training Corpora for Word Embedding Models: Araneum Russicum Maximum and Russian National Corpus

【24h】

Size vs. Structure in Training Corpora for Word Embedding Models: Araneum Russicum Maximum and Russian National Corpus

机译：单词嵌入模型的训练语料库的大小与结构：Araneum Russicum Maximum和俄罗斯国家语料库

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

In this paper, we present a distributional word embedding model trained on one of the largest available Russian corpora: Araneum Russicum Maximum (over 10 billion words crawled from the web). We compare this model to the model trained on the Russian National Corpus (RNC). The two corpora are much different in their size and compilation procedures. We test these differences by evaluating the trained models against the Russian part of the Multilingual SimLex999 semantic similarity dataset. We detect and describe numerous issues in this dataset and publish a new corrected version. Aside from the already known fact that the RNC is generally a better training corpus than web corpora, we enumerate and explain fine differences in how the models process semantic similarity task, what parts of the evaluation set are difficult for particular models and why. Additionally, the learning curves for both models are described, showing that the RNC is generally more robust as training material for this task.

机译：在本文中，我们介绍了一种分布的词嵌入模型，该模型在最大的可用俄语语料库之一上进行了训练：Araneum Russicum Maximum（超过100亿个词从网络上爬取）。我们将此模型与在俄罗斯国家语料库（RNC）上训练的模型进行比较。两种语料库的大小和编译过程都大不相同。我们通过针对多语言SimLex999语义相似性数据集的俄语部分评估经过训练的模型来测试这些差异。我们检测并描述了该数据集中的许多问题，并发布了一个新的更正版本。除了已经知道的事实，即RNC通常比Web语料库更好的训练语料，我们列举并解释了模型如何处理语义相似性任务，评估集的哪些部分对于特定模型来说是困难的以及原因为何方面的细微差异。此外，还描述了两种模型的学习曲线，表明RNC作为此任务的培训材料通常更健壮。

著录项

来源
《Analysis of Images, social networks and texts》|2017年|47-58|共12页
会议地点 Moscow(RU)
作者
Andrey Kutuzov; Maria Kunilovskaya;
展开▼
作者单位

University of Oslo, Oslo, Norway;

University of Tyumen, Tyumen, Russia;

展开▼
会议组织
原文格式 PDF
正文语种 eng
中图分类
关键词
Word embeddings; Web corpora; Semantic similarity;

机译：单词嵌入；网络语料库；语义相似度;
入库时间 2022-08-26 13:58:07

相似文献

外文文献
中文文献
专利

1. Co-word Maps and Topic Modeling: A Comparison Using Small and Medium-Sized Corpora (N< 1,000) [J] . Loet Leydesdorff, Adina Nerghes Journal of the American Society for Information Science and Technology . 2017,第4期

机译：共词地图和主题建模：使用中小型语料库（N <1,000）的比较
2. Synthesized speech for model training in cross-corpus recognition of human emotion [J] . Bjorn Schuller, Zixing Zhang, Felix Weninger, International journal of speech technology . 2012,第3期

机译：跨语音识别人类情感的模型训练中的合成语音
3. Projection Word Embedding Model With Hybrid Sampling Training for Classifying ICD-10-CM Codes: Longitudinal Observational Study [J] . Chin Lin, Yu-Sheng Lou, Dung-Jang Tsai, JMIR Medical Informatics . 2019,第3期

机译：ICD-10-CM代码分类的混合采样训练投影词嵌入模型：纵向观察研究
4. Size vs. Structure in Training Corpora for Word Embedding Models: Araneum Russicum Maximum and Russian National Corpus [C] . Andrey Kutuzov, Maria Kunilovskaya International Conference on Analysis of Images, Social Networks, and Texts . 2018

机译：培训语料库中的尺寸与结构用于嵌入模型：Araneum russicum最大和俄罗斯国家语料库
5. Optimizing Corpus Creation for Training Word Embedding in Low Resource Domains: A Case Study in Autism Spectrum Disorder (ASD) [O] . Yang Gu, Gondy Leroy, Sydney Pettygrove, 2018

机译：优化语料库创建以训练低资源域中的单词嵌入：自闭症谱系障碍（ASD）的案例研究
6. Size vs. Structure in Training Corpora for Word Embedding Models: Araneum Russicum Maximum and Russian National Corpus [O] . Kutuzov, Andrey, Kunilovskaya, Maria 2018

机译：Word嵌入模型训练语料库中的大小与结构： araneum Russicum最大和俄罗斯国家语料库

Size vs. Structure in Training Corpora for Word Embedding Models: Araneum Russicum Maximum and Russian National Corpus

摘要

著录项

相似文献

相关主题

期刊订阅