首页> 外文OA文献 >Extraction of transliteration pairs from parallel corpora using a statistical transliteration model
【2h】

Extraction of transliteration pairs from parallel corpora using a statistical transliteration model

机译:使用统计音译模型从平行语料库中提取音译对

摘要

[[abstract]]This paper describes a framework for modeling the machine transliteration problem. The parameters of the proposed model are automatically acquired through statistical learning from a bilingual proper name list. Unlike previous approaches, the model does not involve the use of either a pronunciation dictionary for converting source words into phonetic symbols or manually assigned phonetic similarity scores between Source and target words. We also report how the model is applied to extract proper names and corresponding transliterations from parallel corpora. Experimental results show that the average rates of word and character precision are 93.8% and 97.8%, respectively.
机译:[[摘要]]本文介绍了用于对机器音译问题进行建模的框架。通过统计学习从双语专有名称列表中自动获取所提出模型的参数。与以前的方法不同,该模型不涉及使用发音词典将源单词转换为语音符号,也没有使用手动分配的源单词和目标单词之间的语音相似性得分。我们还报告了该模型如何应用于从并行语料库中提取专有名称和相应的音译。实验结果表明,平均单词率和字符精度分别为93.8%和97.8%。

著录项

  • 作者

    Chun-Jen Lee;

  • 作者单位
  • 年度 2012
  • 总页数
  • 原文格式 PDF
  • 正文语种 [[iso]]en
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号