基于HBase的大规模RDF数据存储与检索技术的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着语义网技术的快速发展和信息抽取技术的不断进步，对应生成RDF数据的速度也变得越来越快，常见的RDF数据集中包含的三元组条数已达到亿级的数量单位。面对如此规模的RDF数据，如何高效存储和检索这些数据成为亟待解决的问题。如果继续采用传统的方式集中管理大规模RDF数据集则不可避免地会出现局限性的问题，而现存的很多分布式管理方案为了提高查询效率又浪费了过多的存储空间，并且存在不能满足推理查询的问题。所以如何高效存储和检索大规模RDF数据是值得研究的方向。
　　针对当前存储和检索RDF数据存在的各种不足，本论文首先设计并实现了一种基于HBase的RDF数据与本体数据进行编码后存储的方案；然后设计并实现了SPARQL解析器和针对本论文存储模型的查询算法；最后通过详细的实验过程验证了本论文所提出方案的有效性和正确性。具体包含的研究内容如下：
　　(1)提出了对RDF数据进行MMH编码的方案。经分析发现在RDF数据集中有很多字符串是重复出现的，所以在对比几种Hash算法之后选择了Murmur Hash算法对RDF数据中字符串进行编码，编码之后能够有效减少存储空间。
　　(2)设计并实现了基于HBase的RDF数据存储方案。首先解析出本体文件中类和属性之间的关系并将其存储到HBase对应的表中，目的是为了保存RDF数据之间隐含的关系，保证存储数据的完整性；结合RDF数据自身存储与查询的特点，在设计过程中充分结合HBase的特点设计出用两张表存储RDF数据的方案，在保证RDF数据查询效率的基础上，尽量减少存储空间。
　　(3)设计并实现了SPARQL解析器和针对本论文存储模型的查询算法。实现了SPARQL解析器对查询语句进行预处理的操作，完成推理过程保障结果数据的完整性；设计与实现了RDF三元组查询时八种不同形式的TriplePattern查询算法和基于贪心策略的BGP推理查询算法，贪心选择执行代价最小的中间结果集优先合并来缩减Spark连接操作时间，提高查询效率。
　　(4)实验验证本论文所提出的存储和查询方案的有效性与正确性，并与其他方案进行对比实验分析。针对本论文所提出的RDF数据存储和查询方案，利用六种不同规模的LUBM数据集和八种不同的SPARQL查询语句详细测试数据存储空间、加载时间和查询时间。并且与其他管理RDF数据的方案进行对比实验，最终得出本论文所提方案有效且正确的结论。

著录项

作者
张珂;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名陈平;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
RDF数据; 数据存储; 数据检索; HBase技术; SPARQL解析器; 字符串编码; 推理查询;

相似文献

中文文献
外文文献
专利

1. 一种基于HBase的RDF数据存储改进方法 [J] . 朱道恒 ,秦学 ,刘君凤 . 软件 . 2019,第012期
2. 基于HBase的RDF数据存储方案研究与设计 [J] . 王媛媛 ,吕晓丹 ,胡琪 . 信息网络安全 . 2016,第003期
3. 云平台中基于HBase的RDF数据存储模型研究 [J] . 王静蕾 ,赵明慧 . 中州大学学报 . 2014,第006期
4. 一种基于HBase的RDF数据存储模型 [J] . 朱敏 ,程佳 ,柏文阳 . 计算机研究与发展 . 2013,第0z1期
5. 基于HBase的大规模无线传感网络数据存储系统 [J] . 陈庆奎 ,周利珍 . 计算机应用 . 2012,第007期
6. 一种基于HBase的RDF数据存储模型 [C] . Zhu Min ,朱敏 ,Cheng Jia . 第30届中国数据库学术会议 . 2013
7. 基于HBase的RDF数据存储与查询系统设计与实现 [A] . 李安宁 . 2015

基于HBase的大规模RDF数据存储与检索技术的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅