首页> 中文学位 >问答系统中文输入纠错技术研究
【6h】

问答系统中文输入纠错技术研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 引言

1.1.1 研究背景和意义

1.1.2 英文输入纠错研究现状

1.1.3 中文输入纠错研究现状

1.2 本文的主要内容

1.3 章节安排

第二章 问答系统及其技术介绍

2.1 问答系统的原理介绍

2.2 问答系统的关键技术

2.2.1 中文分词

2.2.2 词性标注

2.2.3 关键词提取与扩展

2.2.4 相似度计算

2.3 本章小结

第三章 统计语言模型的分析与建立

3.1 n元语法

3.2 模型的建立

3.2.1 数据准备

3.2.2 语言模型的存储方式

3.2.3 语言模型压缩处理

3.3 数据平滑

3.3.1 问题的提出

3.3.2 平滑方法

3.3.3 平滑算法的选择

3.4 本章小结

第四章 基于N-gram统计语言模型的中文纠错技术

4.1 系统设计思想

4.2 本文研究在系统中的关键技术

4.2.1 二元接续关系查错

4.2.2 汉字转拼音纠错算法

4.2.3 映射表map的引入

4.2.4 语言模型解码算法

4.3 系统框架与流程

4.4 系统测试与结果分析

4.4.1 测试环境和测试语料

4.4.2 系统纠错实验结果

4.5 本章小结

第五章 总结与展望

参考文献

致谢

学位论文评阅及答辩情况表

展开▼

摘要

在迅速发展的Web时代,问答系统在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对问答系统的要求也越来越高,其功能也在不断丰富和完善当中,除了推理功能等,输入自动检查纠错功能也是一项非常重要的附加技术。
   对于中文问答系统来说,输入自动检查纠错功能是指,用户在输入关键词进行搜索之后,如果问答系统没有计算出与用户问句相同的句子,而经过对用户句子进行纠错之后,能够得到与用户问句相似的句子,则用户将会在问答系统页面看到系统提供的推测到的相似问句。
   针对以上问题,根据中文语言的特点,对中文语料库建立了N-gram统计语言模型,并且对其进行了详细的分析,确定了语言模型所必需的参数,以及对其进行了优化处理,使其更加接近真实情况下的语言。研究中引入了拼音纠错和映射表相结合的纠错方法,并首次提出使用语言模型解码算法对纠错检查结果再次计算比较,最终得出优化的纠错结果。
   以上所提出的理论模型,本文进行了实验验证,在统计语言模型的基础上,采用三种不同的纠错方法进行实验对比,一是只有拼音纠错,二是拼音纠错与映射表结合,三是拼音纠错与映射表结合并利用语言模型解码算法优化。最后对实验结果进行了分析,验证得出利用最后一种方法即第三种方法能够取得较好的效果,并且上下文语境信息越多,纠错的召回率和准确率也就越高。
   最后,对本论文所做的工作进行总结,指出了下一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号