首页> 中文学位 >基于转换表及上下文环境的汉语简繁文本双向翻译
【6h】

基于转换表及上下文环境的汉语简繁文本双向翻译

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景

1.2研究目的

1.3研究内容

1.4研究成果

1.5本文结构

第二章 相关研究

2.1研究背景

2.2简繁转换问题

2.3相关研究

2.4本章小结

第三章 简繁转换流程及模型

3.1简繁汉字转换流程

3.2简繁汉字转换模型

3.3分类模型

3.5本章小结

第四章 特征选择算法

4.1信息增益法(Information Gain)

4.2期望交叉熵(Expected Cross Entropy)

4.3互信息(Mutual Information)

4.4 χ2检验法

4.5文本证据权(The Weight of Evidence forText)

4.6ADMMR优势值 (Absolute Difference of Max-Min Ratios)

4.7本章小结

第五章 数据准备

5.1机器学习平行语料抽取

5.2简繁词库数据抽取

5.3本章小结

第六章 实验结果

6.1 ADMMR特征选择实验

6.2最大熵模型之tf-idf

6.3 SVM、MaxEnt以及Bayes组合模型

6.4规则加组合统计模型实验

6.5本章小结

第七章 总 结

参考文献

致谢

附录A 攻读学位期间所发表的学术论文目录

展开▼

摘要

当前国际上使用的汉字包括简体字和繁体字两种形式,大陆和新加坡使用简体字,台湾、香港、澳门和部分海外华人使用繁体字。随着华人圈的交流日渐频繁,这种汉字的差异给交流带来了不少障碍。现有的简繁转换技术在处理简繁一对多转换方面效果不好,为了解决这一问题,作者提出了基于转换表和上下文的汉语简繁文本双向翻译方法。作者之前的研究工作在简繁评测中取得了95.6%的转换准确率,在此基础上将更深入研究一对多简体字转繁体字的转换消歧问题。
  一对多问题可以看成是一个分类问题,本文提出在简繁转换的一对多问题上使用规则加组合统计模型来解决,所组合的统计模型为SVM(支持向量机)、最大熵模型和贝叶斯模型。为了优化分类效果,作者提出了一种新的文本特征选择方法ADMMR,该方法的特征选择效果和期望交叉熵,卡方检验这两种特征选择方法相当,且经实验表明能够很好地表示文本,在使用同样分类模型的前提下ADMMR比信息增益方法的分类性能要好4%以上;同时提出最大熵模型的特征值使用tf-idf,而不使用0-1值,经过实验表明特征值使用tf-idf可以比使用0-1值的分类性能好2%;作者提出使用ADMMR、期望交叉熵和卡方检验作为文本的特征选择方法,使用tf-idf来量化每一个特征,再用SVM和最大熵模型学习训练数据,这样将得到六个分类模型,再使用贝叶斯模型学习训练数据得到第七个分类模型;前六个模型进行投票选择,获得票数最多的那个类别作为分类结果,如果得票最多的类有2个或2个以上则使用贝叶斯模型辅助判别。实验结果表明组合模型比单独使用SVM、最大熵模型或贝叶斯模型的分类效果都要好,且更稳定。
  简繁转换问题则采用规则加组合模型的方法:规则是根据词库来将一对多简体字根据词组转换到对应的繁体字;而对于不能成词的3%一对多简体字则采用组合模型;实验表明规则加组合模型的方法能够达到98.5%的准确率,较好地解决了简繁转换中的一对多转换问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号