【24h】

Named Entity Recognition in Urdu: A Progress Report

机译:乌尔都语中的命名实体识别:进度报告

获取原文
获取原文并翻译 | 示例

摘要

We are interested in properly identifying named entities in Hindi and Urdu text for natural language processing purposes, including information extraction. We explore two approaches to processing Hindi and Urdu text and designing named entity recognition algorithms. In the first approach, using the Unicode character set, we consider processing Hindi in Devanagari script and Urdu in Arabic script instead of transcribing the languages to a Roman-based script. In the second approach, we consider transcribing the Hindi and Urdu text to a common script, the International Phonetic Alphabet (IPA). As part of the project, we built an Urdu corpus marked up with an Extensible Markup Language (XML). We consider both statistical-based and rule-based approaches to the named entity recognition algorithms.
机译:我们对正确识别印地语和乌尔都语文本中的命名实体感兴趣,以便进行自然语言处理,包括信息提取。我们探索了两种处理印地语和乌尔都语文本以及设计命名实体识别算法的方法。在第一种方法中,使用Unicode字符集,我们考虑在Devanagari脚本中处理印地语,在阿拉伯语脚本中处理Urdu,而不是将语言转录为基于罗马的脚本。在第二种方法中,我们考虑将印地语和乌尔都语文本转录为通用脚本国际音标(IPA)。作为该项目的一部分,我们构建了一个用可扩展标记语言(XML)标记的Urdu语料库。我们考虑基于统计和基于规则的方法来命名实体识别算法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号