首页> 外文会议>Advances in Natural Language Processing >Similarity of Names Across Scripts: Edit Distance Using Learned Costs of N-Grams
【24h】

Similarity of Names Across Scripts: Edit Distance Using Learned Costs of N-Grams

机译:跨脚本的名称相似性:使用N语法的学习成本来编辑距离

获取原文
获取原文并翻译 | 示例

摘要

Any cross-language processing application has to first tackle the problem of transliteration when facing a language using another script. The first solution consists of using existing transliteration tools, but these tools are not usually suitable for all purposes. For some specific script pairs they do not even exist. Our aim is to discriminate transliterations across different scripts in a unified way using a learning method that builds a transliteration model out of a set of transliterated proper names. We compare two strings using an algorithm that builds a Levenshtein edit distance using n-grams costs. The evaluations carried out show that our similarity measure is accurate.
机译:当使用另一种脚本面对一种语言时,任何跨语言处理应用程序都必须首先解决音译问题。第一个解决方案包括使用现有的音译工具,但是这些工具通常并不适合所有目的。对于某些特定的脚本对,它们甚至不存在。我们的目标是使用一种学习方法,以一种统一的方式来区分不同脚本之间的音译,该学习方法是根据一组音译专有名称构建音译模型的。我们使用一种算法比较两个字符串,该算法使用n克成本构建Levenshtein编辑距离。进行的评估表明,我们的相似性度量是准确的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号