基于机器翻译模型的汉语近音错别字校对方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随人们使用网络的频繁，海量的用户生成文本由此产生，而用户生成文本不同于正规的新闻文本，其可能产生大量的如错别字等非标准的表达形式。处理非标准文本不仅可以使行文流畅便于阅读，同时也可以为后续文本处理工作打下良好的理论基础和应用基础。现如今大多数人都采用拼音输入法进行拼写，从而带来大量的近音错别字，因此本文将对汉语近音错别字进行深入探究。
　　本文分别采用统计机器翻译和神经网络的机器翻译两种方法对近音错别字展开研究，具体地，本文将从以下三个方面进行研究:
　　(1)基于汉字-拼音-汉字转换的近音错别字语料库构造:用户生成文本中有大量的音近错别字，但是欲将错别字全部提取出来，不仅花费大量的时间，而且需要大量的人力，因此本文采用自动构造近音错别字语料库的方式以解决此问题。本文主要采用模拟正字输入成错字的过程进行错字的正字构造，通过正字-拼音-模糊拼音-错字的方式，并加入神经网络最大熵模型过滤的方法实现近音错别字语料库的构造。
　　(2)基于统计机器翻译模型的近音错别字校对:本文将错字转为正字看成是从错字翻译成正字的翻译问题，本文利用前文构造的近音错别字语料库作为统计机器翻译的平行语料，进而生成语言模型和翻译模型，以达到对近音错别字进行校对的目的。实验结果表明统计机器翻译模型用于近音错别字校对问题的有效性以及融入模糊拼音和神经网络最大熵模型构造出来的语料库对于统计机器翻译校对近音错别字的效果更好。
　　(3)基于神经网络的机器翻译近音错别字校对:本文采用两种策略分别进行汉语近音错别字的校对，第一种是利用LSTM模型的神经网络机器翻译对近音错别字进行校对，第二种是利用统计机器翻译模型得到错字句的n-best正字句候选，然后分别通过RNN模型以及RNN结合N-gram模型进行择优处理，得到错字句最合适的正字句。实验说明单纯使用神经网络机器翻译不能直接应用于处理汉语近音错别校对问题，而利用RNN与N-gram模型相结合选取N-best候选句中的最佳正字句，得到的实验效果更好。

著录项

作者
薛鑫;
展开▼
作者单位

黑龙江大学;

展开▼
授予单位黑龙江大学;
学科计算机科学与技术
授予学位硕士
导师姓名付国宏;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类翻译机;
关键词
近音错别字校对; 统计机器翻译; 循环神经网络; 最大熵;

相似文献

中文文献
外文文献
专利

1. 基于语言模型的机器翻译评价方法及其性能评价方法研究 [J] . 高俊涛 ,林煜熙 ,姚建民 . 中国科技信息 . 2008,第020期
2. 一种基于相似度的汉语语言模型平滑技术及其在音字转换中的应用 [J] . 肖镜辉 ,王晓龙 ,刘秉权 . 高技术通讯 . 2006,第002期
3. 一种基于马尔可夫模型的汉语语音识别后处理中的音字转换方法 [J] . 梅勇 ,徐秉铮 . 中文信息学报 . 1997,第004期
4. 基于近红外漫反射检测的红枣定性分析模型中的预处理方法研究 [J] . 张翠侠 ,马钺 . 应用化工 . 2016,第009期
5. 基于BERT预训练模型的古汉语自动分词方法研究 [J] . 高毅 . 电子设计工程 . 2021,第022期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于序列标注模型的汉语错别字校对方法研究 [A] . 韩子嘉 . 2020

基于机器翻译模型的汉语近音错别字校对方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅