首页> 中文学位 >基于自动文摘与用户反馈的个性化搜索引擎系统的研究与设计
【6h】

基于自动文摘与用户反馈的个性化搜索引擎系统的研究与设计

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1选题研究背景及意义

1.2个性化搜索引擎的国内外现状分析

1.3论文主要工作和组织结构

第二章 相关理论与技术

2.1粗糙集理论

2.2自然语言处理技术

2.3搜索引擎技术

第三章 个性化搜索引擎系统研究与设计

3.1个性化搜索引擎系统的总体设计

3.2个性化搜索引擎系统各模块技术及算法说明

第四章 个性化搜索引擎系统改进与评价

4.1特征项约简改进算法

4.2倒排索引存储改进

4.3相似度计算分析

4.4排序算法分析

4.5系统的检索效果评价

第五章 总结与展望

5.1总结

5.2展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

在信息爆炸的今天,搜索引擎已经成为了一种从大量的数据信息中发现、推理知识的有效工具。但是,传统的搜索引擎系统存在着对于不同用户的同样查询会返回相同结果的弊端,而且用户也越来越迫切地希望系统能返回更高准确率的结果。所以,本文将自动文摘和用户反馈技术引入到传统的搜索引擎系统中,以此提高系统的精确率。
  本文通过分析传统搜索引擎MG(Managing Gigabytes)系统模型,研究并设计了一个相对完整的个性化搜索引擎系统。根据需求分析,本文把系统分为了文档处理模块、聚类模块、用户查询处理模块、用户分类模块、系统反馈模块、相似度计算模块、排序模块、结果显示模块以及系统评估模块。系统首先对用户进行聚类分析,提取用户的兴趣模型;然后根据用户反馈信息,在计算查询向量与文档向量的相似度时,调整个性化参数,使查询结果更加精确。同时还对文档的特征项约简算法进行了改进,首先对文档进行自动文摘处理,其次分析文档摘要提取特征项集,然后对特征项按照对文档类别的贡献度进行排序,最后在保证精确率的前提下以牺牲完备性来换取特征项的快速收敛。系统还结合了最小完美哈希函数与大内存存储技术,降低了倒排文档字典的存储空间并且提升了倒排文档索引的读取速度。最后通过建立最小堆数据结构对海量文档的排序进行了空间上的优化。
  通过理论分析和实验论证,相比MG搜索引擎系统而言,特征项约简算法改进后,时间效率有了一定地提高;倒排文档索引字典的存储空间节省了将近一半;文档排序算法改进后,降低了排序的空间复杂度;相似度计算算法改进后,对于个人的兴趣而言,使查询的个性化精确率有了一定地提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号