基于统计模型的搜索引擎查询纠错系统

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

搜索引擎是人们日常生活中最常用的工具之一，用户使用搜索引擎进行检索的过程当中，难免会输入不明确或者错误的查询词。分析搜索引擎用户查询日志可以发现用户输入的查询错误类型多样，出错查询占总查询的比例超过10%。查询纠错是对用户输入查询进行处理，给出用户想要的正确查询词，进而检索出正确的相关结果。因此好的查询纠错方法可以有效提升用户体验，提高搜索引擎自身的容错性和易用性。
　　为了处理搜索引擎常见的各类查询错误，有效提高纠错的准确率，本文首先研究了基于隐马尔科夫模型和N-gram模型的纠错方法，详细说明了对N-gram语言模型进行建立和训练的过程，在N-gram语言统计模型中加入大量由日志数据得到的词频以及字频信息。区别于使用简单的语言模型，本文拼音纠错模块通过将候选集合过滤问题转化为隐马尔科夫模型求隐藏状态序列的问题，利用维特比算法求出最优候选，再与原查询和其他查询结果对比确定最终纠错结果。其次利用大量搜索引擎网络日志中提取的查询数据作为方法的纠错数据集、模型训练集以及实验测试集，日志数据容易更新和维护，对于不同领域的搜索引擎查询纠错，采用日志作为训练数据集的方法也更容易移植。最后，本文分析用户查询日志，总结查询出错类型，并且充分分析了传统的字典集匹配法和编辑距离纠错方法的特点，结合统计模型纠错，按照合适的方式将设计的各个模块组合，形成一套完整的搜索引擎查询纠错方法，并实现了对应的查询纠错系统。
　　实验验证了本文实现的查询纠错系统具有良好的纠错效果，设计的纠错方法能够处理搜索引擎下常见类型的查询错误并且具有较高的准确率和召回率。

著录项

作者
沈健;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科软件工程
授予学位硕士
导师姓名李凤岐;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
搜索引擎; 查询纠错; 网络日志; 统计模型; 用户体验;

相似文献

中文文献
外文文献
专利

1. 基于N-gram统计模型的搜索引擎中文纠错 [J] . 陈智鹏 ,吕玉琴 ,刘华生 . 中国电子科学研究院学报 . 2009,第003期
2. 基于统计模型的传感器网络查询系统的研究与设计 [J] . 王翠 ,王汝传 ,黄海平 . 南京邮电大学学报（自然科学版） . 2007,第001期
3. 基于 Lucene的搜索引擎技术在综合查询系统中的应用 [J] . 王子光 ,王子明 . 软件导刊 . 2017,第001期
4. 基于搜索引擎的慢查询优化系统 [J] . 陈伦跃 ,殷峰 . 现代计算机（专业版） . 2017,第008期
5. 基于搜索引擎的慢查询优化系统 [J] . 陈伦跃1 ,殷峰2 . 现代计算机：上半月版 . 2017,第003期
6. 一种基于用户日志分析的元搜索引擎查询推荐机制 [C] . LI Qing-Shan ,李青山 ,WANG Lu . 第十四届全国软件与应用学术会议 . 2015
7. 基于关键字查询的数据库搜索引擎系统的设计与实现 [A] . 王沛 . 2012

基于统计模型的搜索引擎查询纠错系统

目录

摘要

著录项

相似文献

相关主题

期刊订阅