首页> 中文学位 >基于Nutch和Lucene个性化搜索引擎研究和实现
【6h】

基于Nutch和Lucene个性化搜索引擎研究和实现

代理获取

摘要

随着互联网在用户群中的普及,用户所能接触到的数据成爆炸式增长,用户在海量的数据中搜索自己所需数据和内容也就越来越困难,这不仅会导致过多的损耗大把时间并且也消耗不小的身体精力,这对用户检索结果的效果和质量会造成极大的影响。而目前一般的搜索引擎系统在面对这情况时,信息的过滤能力也有限,因为传统的系统只会根据用户输入的查询关键词来搜索相关信息以及过滤无关信息,并不会过多的考虑用户的兴趣趋向,所以准确信息依然需要用户自行进行筛选来得到。个性化搜索引擎系统的研究可以根据用户的浏览记录分析用户的兴趣,并根据用户的兴趣来调整搜索结果的排序,将用户从繁琐的信息筛选中解救出来。于是,高效的智能化个性化搜索引擎系统的研究变成了一个必不可少的研究项目。
  目前,具有个性化的搜索引擎系统平台很少,其主要原因是由于针对网页特征词向量的提取面临语义和语境的困难,难以找到一个方法可以提取一组词来代表网页内容的中心思想,或者提取结果和其它网页相比很难有所区别,所以不能有效实行;用户兴趣模型的建立方法需在大量数据分析的基础上进行,不仅需要依靠不断积累数据来实时更新调整且需要谨慎选择一个合理并有效的分析建模算法才能保证用户兴趣模型的预测质量。这些都是个性化搜索引擎系统平台在个性化搜索研究过程中面临的一些可能和挑战。因此,本文结合个性化研究现状,研究开发一个基于Nutch+Lucene的个性化系统,具有其现实意义。
  本文的主要内容将会建立在数据爆炸式增长以及大数据分析技术逐渐成熟的环境下,以分析传统搜索引擎对互联网的贡献和对大数据环境力不从心现状的基础上,指出现今存在为数不多的个性化搜索引擎的发展以及存在的不足,并根据这些不足之地提出本文的改进思想内容,调整网页内容的特征词向量提取技术,用户兴趣模型的建立和搜索结果的个性化排序算法来优化系统的个性化服务的功能。主要工作如下:
  首先,回顾了目前网页内容特征词向量提取算法和技术的研究情况,根据TF-IDF算法在特征提取过程中的应用情况,提出一种结合位置权重的网页内容特征提取和度量算法,这种算法的提取结果更符合实际情况,更能代表整篇网页的中心思想。该提取算法先将网页内容根据所在位置分成TITLE,META,CONTENT三个部分,然后再分别进行分词并统计各个位置上出现的词及其出现频率,分配这三个位置的权值,并根据权值调整了三个位置上各个词的频次。最后应用TF-IDF算法来计算各个词的权重,且根据词的权重进行从大到小的排序并提取前n个特征词,得到最终的网页特征词向量。
  其次,针对目前关于用户兴趣模型建立较为困难和复杂的问题,研究并设计一个功能强大的个性化搜索引擎,实现搜索引擎系统的个性化功能。对系统用户兴趣模型建立的过程,利用提取互联网页的特征词向量进行网页分类,并根据用户的浏览历史分析和计算用户对各个类别网页的倾向程度,最后使用由类别及其所占兴趣程度构成的向量来记录和表示用户的兴趣模型,并用这个模型来预测用户的兴趣趋向和行为模型,以此来成为提供个性化服务的依托。
  再者,在系统基础搜索结果的基础上,拟合用户独一无二的兴趣模型,根据模型预测的兴趣趋向和行为模式来动态调整传统的搜索结果来实现系统个性化服务的功能。使用户可以在第一时间检索到自己的目标网页信息,脱离繁重的浏览和筛选信息的工作。
  最后,在文章的末尾对本文提出的个性化搜索引擎研究和设计的思想以及实现方法做出了总结,不仅包括这个系统的改进和优势,而且包括了系统的多处不足之处,希望在今后的研究当中可以对这些地方进行改进和调整。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号