首页> 中文学位 >基于机器学习的查询优化研究
【6h】

基于机器学习的查询优化研究

代理获取

摘要

揭示用户的检索需求是文本检索中重要的研究课题。当前有诸多问题函待解决,例如有些查询“词不达义”,致使相关文档因为和查询词不匹配所以无法被检索出来;有时,多个查询词之间需要“分清主次”,这样就需要系统给各个查询词赋予权重,以示区别;再比如“相关反馈”探讨如何利用直接或间接的反馈信息来优化查询。
   本文以优化用户的查询为目标,以机器学习算法的研究为核心展开研究工作。针对上述的问题从三个方面展开研究,(1)基于监督学习的查询扩展方法;(2)基于线性分类器的查询词权重估计方法(3)基于受限化聚类的相关反馈。
   首先,针对查询词和相关文档不匹配的问题,本文提出了基于监督学习的查询扩展方法,即训练有监督模型来挑选扩展词的方法。这种方法的优点在于综合了扩展词的各种特征,因而能更准确地识别出扩展词的好坏。由于用于扩展词挑选的训练数据难于获得,作者进而提出了利用检索结果评价集自动生成训练数据的方法,并对训练数据进行了细致的分析,从而指导模型的训练过程。该方法在多组标准评测数据上获得了良好的性能,提升幅度高于传统的查询扩展方法。
   其次,针对信息检索中查询的权重设置问题,本文从机器学习的角度提出一套概率分类的框架,把查询的权重估计任务转化为有监督学习模型中的参数估计任务,并且采用生成式和判别式两种模型去估计查询词的权重。在TREC标准测试集合上的实验结果表明无论是生成式模型或者是判别式模型,都能使检索系统的性能获得显著的提升。
   最后,本文对用户提供的显式反馈信息进行研究,引入受限化聚类的算法,把用户的显式反馈信息作为文档聚类的限制条件,使系统获得更多高质量的伪相关文档,从而产生一个更好的查询。作者不仅在传统的标准评测数据上进行模拟实验,同时也在获得用户真实反馈的情况下,在大规模的数据集(ClueWeb09)上进行实验,这些实验的结果都一致地展示了受限化聚类算法在相关反馈中的重要作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号