【24h】

Shamela: A Large-Scale Historical Arabic Corpus

机译:Shamela:一个大规模的历史阿拉伯语药物

获取原文

摘要

Arabic is a widely-spoken language with a rich and long history spanning more than fourteen centuries. Yet existing Arabic corpora largely focus on the modern period or lack sufficient di-achronic information. We develop a large-scale, historical corpus of Arabic of about 1 billion words from diverse periods of time. We clean this corpus, process it with a morphological analyzer, and enhance it by detecting parallel passages and automatically dating undated texts. We demonstrate its utility with selected case-studies in which we show its application to the digital humanities.
机译:阿拉伯语是一种广泛口语的语言,具有丰富而悠久的历史,跨越十四个世纪。然而,现有的阿拉伯数集团主要关注现代时期或缺乏足够的二逆转信息。我们开发了大约10亿个单词的大规模历史语料库,从各种时间段内到了大约10亿个单词。我们清洁此语料库,用形态分析仪处理它,通过检测并行通道并自动约会未定文本来增强它。我们展示了它的效用,其中包括所选案例研究,我们向数字人文学展示了其应用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号