首页> 中文学位 >基于HBase的大规模RDF数据存储与检索技术的研究与实现
【6h】

基于HBase的大规模RDF数据存储与检索技术的研究与实现

代理获取

目录

声明

插图索引

表格索引

符号对照表

缩略语对照表

第一章 绪论

1.1研究背景与意义

1.2国内外研究现状

1.3论文工作内容

1.4论文组织结构

1.5本章小结

第二章 相关理论与技术

2.1语义网概述

2.2 RDF与RDFS

2.3本体

2.4 SPARQL

2.5 NoSQL

2.6 HBase

2.7本章小结

第三章 RDF数据存储与检索方法概述

3.1现有存储方法分析

3.2大规模RDF数据存储与检索技术整体框架

3.3框架主要模块介绍

3.4本章小结

第四章 基于MMH编码的RDF数据存储模型

4.1 MMH编码模型设计

4.2本体数据存储方案

4.3 RDF数据存储方案

4.4本章小结

第五章 RDF数据存储与查询方法的实现

5.1 RDF数据加载模块

5.2 SPARQL查询整体思路

5.3 三元组匹配算法

5.4 基于HBase的SPARQL查询方法

5.5本章小节

第六章 实验结果与分析

6.1实验配置

6.2实验过程与分析

6.3本章小结

第七章 总结与展望

7.1论文总结

7.2论文展望

参考文献

致谢

作者简介

附录A

展开▼

摘要

随着语义网技术的快速发展和信息抽取技术的不断进步,对应生成RDF数据的速度也变得越来越快,常见的RDF数据集中包含的三元组条数已达到亿级的数量单位。面对如此规模的RDF数据,如何高效存储和检索这些数据成为亟待解决的问题。如果继续采用传统的方式集中管理大规模RDF数据集则不可避免地会出现局限性的问题,而现存的很多分布式管理方案为了提高查询效率又浪费了过多的存储空间,并且存在不能满足推理查询的问题。所以如何高效存储和检索大规模RDF数据是值得研究的方向。
  针对当前存储和检索RDF数据存在的各种不足,本论文首先设计并实现了一种基于HBase的RDF数据与本体数据进行编码后存储的方案;然后设计并实现了SPARQL解析器和针对本论文存储模型的查询算法;最后通过详细的实验过程验证了本论文所提出方案的有效性和正确性。具体包含的研究内容如下:
  (1)提出了对RDF数据进行MMH编码的方案。经分析发现在RDF数据集中有很多字符串是重复出现的,所以在对比几种Hash算法之后选择了Murmur Hash算法对RDF数据中字符串进行编码,编码之后能够有效减少存储空间。
  (2)设计并实现了基于HBase的RDF数据存储方案。首先解析出本体文件中类和属性之间的关系并将其存储到HBase对应的表中,目的是为了保存RDF数据之间隐含的关系,保证存储数据的完整性;结合RDF数据自身存储与查询的特点,在设计过程中充分结合HBase的特点设计出用两张表存储RDF数据的方案,在保证RDF数据查询效率的基础上,尽量减少存储空间。
  (3)设计并实现了SPARQL解析器和针对本论文存储模型的查询算法。实现了SPARQL解析器对查询语句进行预处理的操作,完成推理过程保障结果数据的完整性;设计与实现了RDF三元组查询时八种不同形式的TriplePattern查询算法和基于贪心策略的BGP推理查询算法,贪心选择执行代价最小的中间结果集优先合并来缩减Spark连接操作时间,提高查询效率。
  (4)实验验证本论文所提出的存储和查询方案的有效性与正确性,并与其他方案进行对比实验分析。针对本论文所提出的RDF数据存储和查询方案,利用六种不同规模的LUBM数据集和八种不同的SPARQL查询语句详细测试数据存储空间、加载时间和查询时间。并且与其他管理RDF数据的方案进行对比实验,最终得出本论文所提方案有效且正确的结论。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号