首页> 中文学位 >基于Spark的RDF数据toP-k查询计算研究
【6h】

基于Spark的RDF数据toP-k查询计算研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题研究的背景和意义

1.2 研究现状

1.3 本文的主要工作

1.4 本文的结构安排

第2章 基础理论与相关知识

2.1 RDF与SPARQL相关知识

2.1.1 RDF

2.1.2 SPARQL

2.2 并行化编程模型及优化技术

2.2.1 并行化编程模型-MapReduce简介

2.2.2 MapReduce编程理念和原理

2.3 分布式实验平台概述

2.3.1 Hbase概述

2.3.2 Spark概述

2.4 本章小结

第3章 系统构架

3.1 系统总体构架

3.2 HBase存储模块

3.2.1 RDF存储模型概述

3.2.2 HBase下的RDF存储分析

3.2.3 HBase下的RDF存储模型的定义

3.3 查询模块

3.3.1 SPARQL查询解析

3.3.2 SPARQL top-k查询

3.3.3 查询计划

3.4 本章小结

第4章 基于Spark的Top-k查询算法

4.1 Top-k查询问题概述

4.1.1 查询模式的划分

4.1.2 排名函数特点的划分

4.1.3 数据访问方式的划分

4.2 top-k查询算法概述

4.3 Spark下的Top-k查询方案

4.3.1 STA算法

4.3.2 SSJA算法

4.4 Spark下查询方案的实现

4.5 本章小结

第5章 实验方案结果与分析

5.1 实验环境

5.2 实验数据集

5.3 实验结果与分析

第6章 总结与展望

6.1 工作总结

6.2 工作展望

致谢

参考文献

附录1 攻读硕士学位期间发表的论文

展开▼

摘要

近年来,语义Web发展迅猛,RDF数据也得了广泛的支持与研究。随着RDF数据的规模越来越大,传统的集中式环境下针对RDF数据的查询研究越来越无法适应数据查询领域的需求,特别是针对RDF数据的top-k查询。随着分布式领域的逐步发展,具有海量存储能力以及并行计算能力的分布式系统逐渐成为解决这类问题的研究热点。而Spark分布式系统恰恰是其中的佼佼者。
  本文基于Spark分布式计算系统以及HBase分布式存储系统,对应用于大规模RDF数据存储以及top-k查询算法进行了设计与研究。本文分析了传统RDF数据存储模式的优缺点,设计并实现了适用于top-k查询的基于HBase存储特点的RDF存储索引结构。基于这种存储模式并借鉴于传统top-k查询处理技术的特点,提出了一种分布式系统下的top-k查询方案STA查询算法,致力于减少算法运行过程中RDF数据的连接操作。在此基础上并根据Spark分布式系统数据的处理特点,本文改进STA算法提出了一种新的查询方案SSJA查询算法,致力于减少对中间数据的排序相关的操作。此外,本文还搭建了HBase分布式存储环境以及Spark分布式计算环境,实现了上述两种实验方案并进行了测试。实验结果证明,SSJA算法在性能以及适用性上都优于STA算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号