首页> 中文学位 >信息检索中top-k问题的并行算法及优化研究
【6h】

信息检索中top-k问题的并行算法及优化研究

代理获取

目录

文摘

英文文摘

论文说明:表格、插图

声明

第1 章绪论

第2 章基本概念与相关工作综述

第3 章分布式存储平台上top-k 查询并行算法

第4 章Top-k 查询算法的数据访问优化

第5 章层次存储结构上top-k 查询优化问题

第6 章多核平台上top-k 查询的计算性能优化

第7 章总结和展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

随着互联网络的发展,以文本形式存储在网络上的信息呈现爆炸式增长。
   大量积累的动态信息阻碍了人类对它的有效利用。作为大规模文本集合上信息检索工具的搜索引擎在诞生之初就成为解决网络信息访问的重要工具,并在其后的发展中占据着人类信息生活越来越重要的位置。针对某一查询,搜索引擎可能命中数以亿记的查询结果,而用户关心的往往只是符合其查询要求的最优的数十个结果。如何从搜索引擎命中的大量结果中,快速、准确地找出最符合查询需求的结果集合,构成搜索引擎设计的一个关键问题——top-k 查询问题。
   Top-k 查询针对分散在不同信息源中的对象,根据聚合函数找出其中分数最优的k个对象。其在信息检索领域具有广泛的应用,并且是影响搜索引擎性能的关键组件。为了提升top-k 查询的数据处理能力,加速top-k 查询的计算过程,本文以分布式存储系统和共享式存储系统为目标平台,研究top-k 查询并行算法设计和性能优化的关键技术。主要的研究工作分为三个部分:一是研究分布式存储平台上的top-k 查询并行算法,以解决海量数据的查询问题;二是研究基于任务并行的top-k 查询处理,优化查询算法的数据访问开销;三是研究多核处理器平台上top-k 查询的计算性能优化,以提高查询的速度满足用户的实时性要求。本文对于并行查询算法和性能优化技术的研究,可以充分利用现有并行计算机的处理能力,解决top-k 查询中海量数据处理和实时性相关问题,具有重要的学术价值和应用价值。本文的主要研究成果,贡献和创新点可以概括为以下几点:
   1.提出处理海量数据的top-k 查询并行算法由于top-k 查询处理的数据规模日益扩大,单计算机的存储系统难以满足应用需求。本文提出一种数据划分方法,将大规模数据划分到分布式并行机的存储系统上,并针对这种数据划分设计了基于消息传递的top-k 查询并行算法,而后通过缩短通信消息长度、减少通信次数等手段进一步优化了该并行算法。
   2.提出减小数据访问开销的top-k 查询并行算法Top-k 查询是一种I/O 密集型计算问题,数据访问的开销占了总开销的很大比重。本文研究了常用top-k 查询算法对数据源的访问方式,提出一种多策略的并行算法减小查询的数据访问开销。通过算法分析,得出了并行算法数据访问开销优于原有算法的必要数值条件,并且给出了并行算法访问开销的一个上界。
   3.优化多核平台上top-k 查询的计算性能随着研究的深入,top-k 查询算法被设计得越来越复杂,大部分算法都通过引入额外计算来加快算法终止从而减少数据访问上的开销。在实际的查询程序中,计算部分的时间开销在总开销中所占的比重越来越大。本文在多核处理器平台上研究了禁止随机访问No Random Access(NRA)程序的性能优化问题。通过调整数据结构和使用OpenMP多线程并行,有效的优化了程序的数据级并行和线程级并行,加快了查询程序在多核处理器平台上的运行速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号