首页> 中文学位 >基于HBase的RDF数据存储与查询系统设计与实现
【6h】

基于HBase的RDF数据存储与查询系统设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景

1.2 研究目的及意义

1.3 国内外相关领域研究现状

1.4 本文组织结构

2 相关技术研究

2.1 OWL本体

2.2 SPARQL查询语言

2.3 Jena简介

2.4 RDF存储概述

2.5 RDF查询概述

2.6 本章小结

3 基于RDF数据存储和查询系统设计

3.1 系统需求分析

3.2 系统架构设计

3.3 RDF数据列数据库设计

3.4 索引优化机制

3.5 本章小结

4 RDF数据导入HBase方案实现

4.1 RDF数据预处理

4.2 RDF数据导入HBase

4.3 RDF数据导入HBase实验

4.4 本章小结

5 基于SPARQL的RDF查询算法实现

5.1 SPARQL查询预处理

5.2 基于SPARQL查询算法

5.3 SPARQL BGP查询实例

5.4 查询算法MapReduce并行实现

5.5 本章小结

6 总结与展望

6.1 论文总结

6.2 工作展望

致谢

参考文献

展开▼

摘要

近几年语义网得到了快速的发展,从而导致了语义网的资源描述框架(RDF)也被越来越多的应用,从而加剧了RDF数据的增长,那么用户需要有效的管理大量的RDF数据就成为一个难题。目前来说,管理RDF数据的系统基本都是基于传统关系型数据库,但如果 RDF数据量太大并且不断的增长,那么传统方式已经不能很好的管理海量RDF数据。针对这种现象,研究者正在研究使用分布式数据库来解决大量RDF数据的存储和查询。提出一种基于分布式数据库HBase存储海量RDF数据,并结合SPARQL查询语言对存储在HBase的RDF数据的查询算法进行了研究。
  根据用户对大数据的存储以及查询需求,结合HBase处理RDF数据的特点,设计出系统的总体框架。系统的框架设计是基于分布式应用的,客户端提交有关RDF数据请求,数据层对该数据进行格式处理,存储层用来存储处理后的RDF数据。结合RDF三元组的结构特点,以及HBase表模式设计原则,设计并实现了表SP_O、表SO_P以及表PO_S三张表,每张表的行键分别是三元组中两两结合的复合键形式并且每张表至少包含一个列族。为了对海量数据能快速导入到HBase数据库中,设计和实现了两种将RDF数据加载到HBase表方案。先使用交互式导入少量RDF数据到HBase表中,再通过MapReduce并行计算方法,结合BulkLoad工具将RDF数据加载到HBase数据库中。最后,基于所设计的列数据表,结合SPARQL查询语言,对存储于HBase的RDF查询算法进行了设计和实现,采用基于Jena ARQ查询算法的设计和实现。
  通过采用LUBM数据的实验,验证了RDF数据存储和查询的可行性和效率,HBase表模式批量导入RDF数据的效率得到提高,通过RDF数据存储和查询实例,验证了查询能达到用户的需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号