基于转换表及上下文环境的汉语简繁文本双向翻译

摘要

现有的简繁转换技术在处理简繁一对多时效果不是很理想.为了解决这一问题,作者提出了基于转换表和上下文的汉语简繁文本双向翻译方法.作者之前的研究工作成果在教育部语信司所举行的简繁一对多转换评测中取得了95.6%的转换准确率.在此研究基础上,本文提出了使用规则加组合统计模型来解决这一问题,所组合的统计模型为SVM、最大熵和Bayes模型.同时作者还提出了一种提高文本分类准确度的新的特征选择方法ADMMR,该方法和ECE,卡方检验这两种特征选择方法具有相当的性能;同时还提出了最大熵模型的特征值使用tf-idf,而不使用0-1值.实验表明这一调整使准确度提高了约2%.此外,作者使用ADMMR、ECE和卡方检验作为文本的特征选择方法,使用tf-idf来量化每一个特征,经过实验表明组合模型在处理一简对多繁问题时具有更高的转换准确率和更稳定的性能.实验表明规则加组合模型的方法能够达到98.5%的准确率,较好地解决了简繁转换中的一对多转换的问题.

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号