首页> 外文期刊>Procedia Computer Science >Using Dictionary and Lemmatizer to Improve Low Resource English-Malay Statistical Machine Translation System
【24h】

Using Dictionary and Lemmatizer to Improve Low Resource English-Malay Statistical Machine Translation System

机译:使用字典和引词化器改进低资源英语-马来语统计机器翻译系统

获取原文
       

摘要

Statistical Machine Translation (SMT) is one of the most popular methods for machine translation. In this work, we carried out English-Malay SMT by acquiring an English-Malay parallel corpus in computer science domain. On the other hand, the training parallel corpus is from a general domain. Thus, there will be a lot of out of vocabulary during translation. We attempt to improve the English-Malay SMT in computer science domain using a dictionary and an English lemmatizer. Our study shows that a combination of approach using bilingual dictionary and English lemmatization improves the BLEU score for English to Malay translation from 12.90 to 15.41.
机译:统计机器翻译(SMT)是最受欢迎的机器翻译方法之一。在这项工作中,我们通过获取计算机科学领域的英语-马来语并行语料库来进行英语-马来语SMT。另一方面,训练并行语料库来自一般领域。因此,在翻译过程中词汇量会很多。我们尝试使用字典和英语lemmatizer改进计算机科学领域的英语-马来语SMT。我们的研究表明,使用双语词典和英语词义化方法的组合可将英语到马来语的BLEU分数从12.90提高到15.41。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号