基于机器学习的查询优化研究

代理获取

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

揭示用户的检索需求是文本检索中重要的研究课题。当前有诸多问题函待解决，例如有些查询“词不达义”，致使相关文档因为和查询词不匹配所以无法被检索出来；有时，多个查询词之间需要“分清主次”，这样就需要系统给各个查询词赋予权重，以示区别；再比如“相关反馈”探讨如何利用直接或间接的反馈信息来优化查询。
　　本文以优化用户的查询为目标，以机器学习算法的研究为核心展开研究工作。针对上述的问题从三个方面展开研究，(1)基于监督学习的查询扩展方法；(2)基于线性分类器的查询词权重估计方法(3)基于受限化聚类的相关反馈。
　　首先，针对查询词和相关文档不匹配的问题，本文提出了基于监督学习的查询扩展方法，即训练有监督模型来挑选扩展词的方法。这种方法的优点在于综合了扩展词的各种特征，因而能更准确地识别出扩展词的好坏。由于用于扩展词挑选的训练数据难于获得，作者进而提出了利用检索结果评价集自动生成训练数据的方法，并对训练数据进行了细致的分析，从而指导模型的训练过程。该方法在多组标准评测数据上获得了良好的性能，提升幅度高于传统的查询扩展方法。
　　其次，针对信息检索中查询的权重设置问题，本文从机器学习的角度提出一套概率分类的框架，把查询的权重估计任务转化为有监督学习模型中的参数估计任务，并且采用生成式和判别式两种模型去估计查询词的权重。在TREC标准测试集合上的实验结果表明无论是生成式模型或者是判别式模型，都能使检索系统的性能获得显著的提升。
　　最后，本文对用户提供的显式反馈信息进行研究，引入受限化聚类的算法，把用户的显式反馈信息作为文档聚类的限制条件，使系统获得更多高质量的伪相关文档，从而产生一个更好的查询。作者不仅在传统的标准评测数据上进行模拟实验，同时也在获得用户真实反馈的情况下，在大规模的数据集(ClueWeb09)上进行实验，这些实验的结果都一致地展示了受限化聚类算法在相关反馈中的重要作用。

著录项

作者
王秉卿;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科计算机应用技术
授予学位博士
导师姓名黄萱菁;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
机器学习; 查询优化; 线性分类器; 受限化聚类;

相似文献

中文文献
外文文献
专利

1. 基于机器学习的采摘机器人动作执行效率优化研究 [J] . 杨玉霞 . 农机化研究 . 2022,第6期
2. 基于机器学习的压裂优化研究 [J] . 崔博宇 ,董易凡 ,杨圣方 . 石油工业技术监督 . 2021,第002期
3. 基于机器学习方法的西安市数值模拟优化研究 [J] . 李娟 ,尉鹏 ,戴学之 . 环境科学研究 . 2021,第004期
4. 基于机器学习与群智能算法的精车大螺距螺杆切削优化研究 [J] . 李哲 ,丛玮琦 ,付祥夫 . 制造技术与机床 . 2021,第009期
5. 基于机器学习的燃煤电站制粉及燃烧优化研究进展 [J] . 潘广强 . 能源与节能 . 2021,第012期
6. 基于机器学习方法的模糊测试优化研究 [C] . 赵磊 ,王赋 ,贾琼 . 全国抗恶劣环境计算机第二十八届学术年会 . 2018
7. 数据库中查询重写及基于遗传算法的多连接查询优化研究 [A] . 郭丽英 . 2008

基于机器学习的查询优化研究

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅