首页> 外文会议>Workshop on Arabic Natural Language Processing >Automatic Romanization of Arabic Bibliographic Records
【24h】

Automatic Romanization of Arabic Bibliographic Records

机译:阿拉伯语书目记录自动罗马化

获取原文

摘要

International library standards require cataloguers to tediously input Romanization of their catalogue records for the benefit of library users without specific language expertise. In this paper, we present the first reported results on the task of automatic Romanization of undiacritized Arabic bibliographic entries. This complex task requires the modeling of Arabic phonology, morphology, and even semantics. We collected a 2.5M word corpus of parallel Arabic and Romanized bibliographic entries, and benchmarked a number of models that vary in terms of complexity and resource dependence. Our best system reaches 89.3% exact word Romanization on a blind test set. We make our data and code publicly available.
机译:国际图书馆标准要求同录人员迅速地输入他们目录记录的罗马化,以便在没有特定语言专业知识的情况下的图书馆用户的利益。 在本文中,我们展示了第一个报告的结果对自动romation的无知阿拉伯语书目参赛作品的任务。 这项复杂的任务需要阿拉伯语音学,形态甚至语义的建模。 我们收集了2.5亿字的并行阿拉伯语和罗马化的书目条目,并基准了许多在复杂性和资源依赖方面各种不同的模型。 我们最好的系统在盲试验集上达到89.3%的精确词。 我们使我们的数据和代码公开提供。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号