首页> 中文学位 >基于统计模型的搜索引擎查询纠错系统
【6h】

基于统计模型的搜索引擎查询纠错系统

代理获取

目录

声明

1 绪论

1.1 背景与意义

1.2 研究现状分析

1.3 本文主要工作

1.4 全文组织结构

2 相关技术概述

2.1 搜索引擎技术

2.2 自然语言处理技术与搜索引擎

2.3 查询纠错技术

2.4 中文分词技术

2.5 Thrift框架

2.6 Lucene开源搜索引擎工具

2.7 本章小结

3 统计模型的建立与应用

3.1 候选概率计算

3.2 数据平滑

3.3 候选词的确定

3.4 本章小结

4 查询纠错方法的设计与分析

4.1 纠错数据获取与处理

4.2 查询纠错方法总体分析

4.3 查询预处理

4.4 纠错判断阶段

4.5 查询纠错方法详细设计

4.6 本章小结

5 效果分析及系统实现

5.1 纠错效果分析

5.2 系统设计与实现

5.3 本章小结

结论

参考文献

致谢

展开▼

摘要

搜索引擎是人们日常生活中最常用的工具之一,用户使用搜索引擎进行检索的过程当中,难免会输入不明确或者错误的查询词。分析搜索引擎用户查询日志可以发现用户输入的查询错误类型多样,出错查询占总查询的比例超过10%。查询纠错是对用户输入查询进行处理,给出用户想要的正确查询词,进而检索出正确的相关结果。因此好的查询纠错方法可以有效提升用户体验,提高搜索引擎自身的容错性和易用性。
  为了处理搜索引擎常见的各类查询错误,有效提高纠错的准确率,本文首先研究了基于隐马尔科夫模型和N-gram模型的纠错方法,详细说明了对N-gram语言模型进行建立和训练的过程,在N-gram语言统计模型中加入大量由日志数据得到的词频以及字频信息。区别于使用简单的语言模型,本文拼音纠错模块通过将候选集合过滤问题转化为隐马尔科夫模型求隐藏状态序列的问题,利用维特比算法求出最优候选,再与原查询和其他查询结果对比确定最终纠错结果。其次利用大量搜索引擎网络日志中提取的查询数据作为方法的纠错数据集、模型训练集以及实验测试集,日志数据容易更新和维护,对于不同领域的搜索引擎查询纠错,采用日志作为训练数据集的方法也更容易移植。最后,本文分析用户查询日志,总结查询出错类型,并且充分分析了传统的字典集匹配法和编辑距离纠错方法的特点,结合统计模型纠错,按照合适的方式将设计的各个模块组合,形成一套完整的搜索引擎查询纠错方法,并实现了对应的查询纠错系统。
  实验验证了本文实现的查询纠错系统具有良好的纠错效果,设计的纠错方法能够处理搜索引擎下常见类型的查询错误并且具有较高的准确率和召回率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号