首页> 中文学位 >基于层次搜索的信息过滤和检索方法研究
【6h】

基于层次搜索的信息过滤和检索方法研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

原创性声明及本论文使用授权说明

第一章绪论

第二章相关理论概述

第三章层次搜索技术

第四章中文样本实例

第五章商业领域的应用实例

第六章总结与展望

参考文献

作者在攻读硕士学位期间公开发表的论文

作者在攻读硕士学位期间所作的项目

致 谢

附录

展开▼

摘要

众所周知,在信息检索领域有两种基本的语言现象一直困扰着传统的词汇匹配方法,即同义和多义现象。同义现象影响查全率,多义现象影响查准率。针对这个问题,人们提出了潜在语义索引(LatentSemanticIndexing,即LSI)方法。它是一种概念检索方法,通过对索引项文档矩阵X进行奇异值分解(SingularValueDecomposition,即SVD),降维表示后的矩阵Xk表达了索引项与文档之间的潜在语义关系,剔除了因具体用词变化不定而带来的词汇噪声信息,从而大大提高查全率和查准率。大量的试验数据表明运用潜在语义索引进行信息检索的效果优于关键词匹配检索。 但是,针对大型词汇——文本矩阵的奇异值分解(SVD)需要巨大的成本,这将成为这一技术应用到可扩展的信息检索领域的一大障碍。 本文引进图论中的广度优先遍历(即层次搜索)方法,首先对原始词汇——文本矩阵进行预处理,以期减少LSI中奇异值分解的成本。根据每次的查询提问式,层次搜索技术可以从原始的词汇——文本矩阵中分解出一个更小的子集。随后,再对此子集进行潜在语义索引计算。由于使用了层次搜索过滤,计算结果的查全率、查准率都会有所提高。如果想进一步缩小子集的规模,我们还可以使用剪枝技术,即删除特定查询的子矩阵中仅与一个文本关联的词汇,从而进一步减少计算成本。对大多数文本集而言,剪枝平均会减少65%的非零词汇数,但同时,查准率也会相应下降5%。[2] 本文的创新之处是:将离散数学中的图论观点引入信息过滤领域,并与潜在语义索引技术组合,既节省了大量的计算成本,又达到很好的信息检索效果。同时,本文还对图论中的简单层次搜索技术进行探索,提出了加权层次搜索技术,加上剪枝处理,以达到更佳的检索效果。最后,本文通过一个中文样本实例验证了前面提出的理论,该算法不失为情报科学领域值得进一步开发和利用的技术方法,有一定的理论价值和广阔的应用前景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号