首页> 美国卫生研究院文献>Data in Brief >Enhancing African low-resource languages: Swahili data for language modelling
【2h】

Enhancing African low-resource languages: Swahili data for language modelling

机译:增强非洲低资源语言:语言建模的斯瓦希里语数据

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Language modelling using neural networks requires adequate data to guarantee quality word representation which is important for natural language processing (NLP) tasks. However, African languages, Swahili in particular, have been disadvantaged and most of them are classified as low resource languages because of inadequate data for NLP. In this article, we derive and contribute unannotated Swahili dataset, Swahili syllabic alphabet and Swahili word analogy dataset to address the need for language processing resources especially for low resource languages. Therefore, we derive the unannotated Swahili dataset by pre-processing raw Swahili data using a Python script, formulate the syllabic alphabet and develop the Swahili word analogy dataset based on an existing English dataset. We envisage that the datasets will not only support language models but also other NLP downstream tasks such as part-of-speech tagging, machine translation and sentiment analysis.
机译:使用神经网络的语言建模需要足够的数据来保证对自然语言处理(NLP)任务很重要的质量字表示。然而,非洲语言,特别是斯瓦希里语已经处于不利地位,大多数人被归类为低资源语言,因为NLP的数据不足。在本文中,我们派生和贡献未经讨论的斯瓦希里语数据集,斯瓦希里语音节字母和斯瓦希里语字样数据集,以满足对语言处理资源的需求,尤其是低资源语言。因此,我们通过使用Python脚本预处理Raw Swahili数据来推导未经处理的斯瓦希里语数据集,制定音节字母表,并根据现有的英语数据集开发斯瓦希里语单词类比数据集。我们设想数据集不仅可以支持语言模型,还可以支持其他NLP下游任务,如语音零件标记,机器转换和情感分析。

著录项

  • 期刊名称 Data in Brief
  • 作者单位
  • 年(卷),期 2020(-1),-1
  • 年度 2020
  • 页码 -1
  • 总页数 7
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

    机译:自然语言处理;深入学习;语言建模;未经发布的数据;单词类比;音节;神经网络;

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号