首页> 中文学位 >基于改进向量空间模型的Web信息检索技术研究
【6h】

基于改进向量空间模型的Web信息检索技术研究

代理获取

摘要

互联网技术的迅速发展,使Web已经成为世界范围内信息共享和信息传播的最主要渠道之一,其网上的文本数量也成指数级增长。如何能够快速和精确地在浩瀚的信息海洋中检索到用户所需的信息已成为当今重要的研究课题。 文本信息检索是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。在进行信息检索时,与用户需求匹配的信息经常不在检索结果内,而大量用户不需求的信息,却占用检索结果的相当大的一部份。因此,改进文本信息检索的检索性能,提高检索质量也成为了亟待解决的问题。 本论文的主要研究目的,针对可能影响检索效力的一个容易被忽略的因素---标题位置特征项,针对这一目的在传统向量空间模型的基础上提出一种改进向量空间模型。改进的向量空间模型对特征项的权重问题进行了研究,提出了结合特征项出现位置的权重计算方法。该法可以提高查询式与文档的匹配度,进而提高检索系统的查准率。论文提出了多层向量空间模型的概念,新模型可较好地解决传统向量空间模型维数过大的问题和不能区分关键词位置语义的问题,应有助与针对提高检索系统的查询速度和精度问题的研究。论文还提出了改进的查询条件与文档的相似度计算方法,在相似度的计算式中加入了可调参数η,根据特征项位置表达文档主题的能力不同,设定不同的η值。论文提出了一种可调节的过滤阈值(相关门槛值)设定方法,使用户可根据需要选择过滤精确等级来调节兴趣网页的输出质量。 本文在传统向量空间模型基础上提出的改进向量空间模型算法,通过初步实验表明该算法具有较高的查全率和查准率, 并可改善Web信息检索系统输出结果的排序能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号