首页> 中文学位 >基于机器翻译模型的汉语近音错别字校对方法研究
【6h】

基于机器翻译模型的汉语近音错别字校对方法研究

代理获取

目录

摘要

第1章 绪论

1.1 研究目的和意义

1.2 国内外相关研究

1.2.1 错别字校对研究现状

1.2.2 机器翻译研究现状

1.2.3 神经网络研究现状

1.3 本文主要研究内容

1.4 本文的组织安排

第2章 基于汉字-拼音-汉字转换的近音错别字语料库构造

2.1 引言

2.2 人工近音错别字语料库构造系统框架

2.3 基于模糊拼音的错字候选集构造

2.3.1 音素资源库构造

2.3.2 拼音-汉字语料库构造

2.3.3 错字候选集构造

2.4 语言模型解码

2.4.1 N元语言模型

2.4.2 训练语言模型

2.4.3 错字候选解码

2.5 神经网络最大熵过滤

2.5.1 神经网络最大熵模型

2.5.2 正字-错字对过滤问题

2.5.3 神经网络最大熵特征选取

2.6 实验数据

2.6.1 模糊拼音策略

2.6.2 N元语言模型策略

2.6.3 神经网络最大熵过滤策略

2.7 本章小结

第3章 基于统计机器翻译的近音错别字校对

3.1 引言

3.2 基于统计机器翻译的近音错字校对系统框架

3.3 词对齐处理

3.4 错别字校对的语言模型

3.5 错别字校对的翻译模型

3.6 实验结果与分析

3.6.1 实验数据和评价指标

3.6.2 不同构造近音错别字语料库策略对近音错别字校对的影响

3.6.3 统计机器翻译模型本身对近音错别字校对的影响

3.6.4 实验对比

3.7 本章小结

第4章 基于神经网络的机器翻译近音错别字校对

4.1 引言

4.2 基于神经网络的机器翻译近音错别字校对系统框架

4.3 神经网络模型

4.3.1 循环神经网络模型

4.3.2 长短时记忆网络模型

4.4 基于神经网络的机器翻译模型校对近音错别字

4.4.1 基于神经网络机器翻译模型策略

4.4.2 统计机器翻译框架结合神经网络语言模型的策略

4.5 实验结果与分析

4.5.1 实验数据和评价指标

4.5.2 神经网络机器翻译模型的近音错别字校对参数优化

4.5.3 统计机器翻译框架结合神经网络语言模型的参数优化

4.5.4 不同校对方法的对比实验

4.6 本章小结

结论

参考文献

致谢

攻读硕士学位期间发表的学术论文及参加的科研项目

声明

展开▼

摘要

伴随人们使用网络的频繁,海量的用户生成文本由此产生,而用户生成文本不同于正规的新闻文本,其可能产生大量的如错别字等非标准的表达形式。处理非标准文本不仅可以使行文流畅便于阅读,同时也可以为后续文本处理工作打下良好的理论基础和应用基础。现如今大多数人都采用拼音输入法进行拼写,从而带来大量的近音错别字,因此本文将对汉语近音错别字进行深入探究。
  本文分别采用统计机器翻译和神经网络的机器翻译两种方法对近音错别字展开研究,具体地,本文将从以下三个方面进行研究:
  (1)基于汉字-拼音-汉字转换的近音错别字语料库构造:用户生成文本中有大量的音近错别字,但是欲将错别字全部提取出来,不仅花费大量的时间,而且需要大量的人力,因此本文采用自动构造近音错别字语料库的方式以解决此问题。本文主要采用模拟正字输入成错字的过程进行错字的正字构造,通过正字-拼音-模糊拼音-错字的方式,并加入神经网络最大熵模型过滤的方法实现近音错别字语料库的构造。
  (2)基于统计机器翻译模型的近音错别字校对:本文将错字转为正字看成是从错字翻译成正字的翻译问题,本文利用前文构造的近音错别字语料库作为统计机器翻译的平行语料,进而生成语言模型和翻译模型,以达到对近音错别字进行校对的目的。实验结果表明统计机器翻译模型用于近音错别字校对问题的有效性以及融入模糊拼音和神经网络最大熵模型构造出来的语料库对于统计机器翻译校对近音错别字的效果更好。
  (3)基于神经网络的机器翻译近音错别字校对:本文采用两种策略分别进行汉语近音错别字的校对,第一种是利用LSTM模型的神经网络机器翻译对近音错别字进行校对,第二种是利用统计机器翻译模型得到错字句的n-best正字句候选,然后分别通过RNN模型以及RNN结合N-gram模型进行择优处理,得到错字句最合适的正字句。实验说明单纯使用神经网络机器翻译不能直接应用于处理汉语近音错别校对问题,而利用RNN与N-gram模型相结合选取N-best候选句中的最佳正字句,得到的实验效果更好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号