首页> 中文学位 >基于分类技术的个性化检索系统的研究与设计
【6h】

基于分类技术的个性化检索系统的研究与设计

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究的背景、目的及意义

1.2 个性化搜索引擎的国内外现状

1.2.1 现代搜索引擎发展历史及趋势

1.2.2 个性化搜索技术研究现状

1.3 研究内容

1.4 论文组织结构

第2章 个性化检索系统模型

2.1 个性化信息需求

2.2 搜索引擎个性化技术

2.3 个性化检索系统模型

第3章 基于分类的个性化排序算法

3.1 文本分类技术

3.2 文本分类过程

3.3 文本的表示模型

3.3.1 布尔模型

3.3.2 概率论模型

3.3.3 向量空间模型

3.4 基于Lucene排序和文本分类的个性化排序算法

3.4.1 Lucene排序算法

3.4.2 基于用户行为特征改进Lucene排序算法

3.4.3 基于Lucene排序和文本分类的个性化排序算法

第4章 基于Lucene个性化检索系统的实现

4.1 设计目标

4.2 开发环境

4.3 系统实现

4.3.1 系统架构

4.3.2 存储结构

4.3.3 文本分类过程

4.3.4 个性化评分过程

4.3.5 查询缓存

4.4 系统测试

4.4.1 实验说明

4.4.2 实验过程及结果分析

第5章 总结与展望

5.1 论文小结

5.2 工作展望

致谢

参考文献

展开▼

摘要

随着Internet和网络信息技术的迅猛发展,网络资源呈指数急剧增长,传统的通用搜索引擎的查询结果只依赖于查询关键词,而实际上,即便相同的查询词,不同的用户查询目的可能不同,所希望的返回结果也会因人而异。针对这种情况,人们迫切需要一种针对个人特点提供更加精确查询结果的搜索工具,本文提出了以用户为中心的基于分类的个性化搜索引擎。
   本文在对个性化信息检索相关技术进行了较为全面深入的分析基础上,分别研究个性化搜索引擎的常用技术,和搜索引擎中理解用户搜索目的的主要技术。并根据用户的浏览及查询日志建立了检索系统的模型。对文本的自动分类进行了介绍,给出几种常见的文本表示模型,以及利用WEKA和LibSVM对文本进行自动分类。
   基于文本分类,提出一种排序算法,在检索结果中,显示尽量多的类别,让尽量多的不同类别的用户都能找到相应主题类别的信息。同时,根据用户行为特征,即用户对各个主题类别的点击率和各个主题类别网页的平均访问时间,通过修改lucene的评分域,从而改变lucene自有对文档的排序评分。通过实验证明,经过考虑用户的行为特征,在具有不同兴趣的用户查询相同词语时,可以检索出不同的结果页面。
   由于用户搜索的关键词有很大一部分是重复的,按照2/8定律,20%的搜索词占到了总搜索次数的80%。当用户提交由一组关键词组成的查询的时候,系统就判断这个查询对应的记录是否在Cache中存在,如果不存在,把查询语句递交给检索器,检索器返回结果的综合的文档号序列存到一个文件中,在Cache中保存所存储的序列在文件中的偏移值。如果已经存在,就从Cache中获得这个存储记录的偏移。
   然后是系统原型的设计与实现,首先给出了系统的完整架构,然后分检索模块、结果排名模块、查询cache模块等几个主要模块做详细说明,分析了系统中几个主要的数据结构。最后对系统进行了测试分析,验证了可行性。
   最后,总结了本文的工作,并展望下一步的工作计划。同时指出本系统的一些缺陷,提出系统在整体架构上的改进方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号