首页> 中文学位 >音字转换系统关键技术研究与实现
【6h】

音字转换系统关键技术研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景与意义

1.2 相关技术简介及研究现状

1.3 应用前景

1.4 本文的主要工作和创新

1.5 本论文的结构安排

第二章 音字转换系统关键技术研究

2.1 语言模型

2.2拼音串切分

2.3 解码算法

2.4 本章小结

第三章 音字转换系统的实现

3.1 训练语言模型

3.2 解码算法实现

3.3 音字转换系统的实现

3.4 本章小结

第四章 系统性能测试

4.1 系统转换正确率的测试

4.2 系统学习功能的测试

4.3 本章小结

第五章 全文总结与展望

5.1 全文总结

5.2 后续工作展望

致谢

参考文献

展开▼

摘要

音字转换是指由计算机自动地将拼音串转换为汉字串。音字转换技术是中文信息处理领域一个重要的研究方向,在语音识别、中文拼音输入中都有广泛地应用,是一个极具挑战性的问题。
  音字转换系统的关键技术包括语言模型、拼音串的切分和解码算法。本文重点分析了语言模型训练过程中出现的零概率问题,研究并实现了三种数据平滑的方法,并对三种算法的性能作了测试,实验表明使用这三种平滑方法训练的语言模型信息熵在5-7之间,效果相当。为了解决汉语长距相依的问题,本文对中文高频词串(CFS)提取算法作了改进,以期解决CFS的层次不足和剔除语意不明 CFS的问题。使用本文的改进算法和基于字符串切分度的CFS提取算法分别训练语言模型,并应用到音字转换的实验中,实验表明前者转换的正确率优于后者。针对jieba分词工具没有考虑到词与词之间的上下文关系,对jieba分词工具进行了修改,增强了分词的效果。基于规则的拼音串切分方法不能很好的处理切分歧义的问题,为此引入了知识库,在此基础上修改了切分方法,并将切分的正确率提高了0.9%。
  本文设计和实现了音字转换系统,在普通的音字转换系统的基础上增加了学习模块,使系统能够学习用户的输入习惯,提高了用户的体验。在使用Viterbi算法解码的情况下,转换的正确率达到了90.3%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号