RDF语义数据存储编码与查询优化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着语义网研究的深入以及信息抽取技术的进步，近年来RDF语义数据增长迅速，更多复杂的语义数据需要处理与应用。常见的RDF数据集都有上亿的三元组，如何高效地对海量RDF语义数据进行存储与查询，已经成为学术界研究的热点。RDF具有庞大的数据量，现有的RDF存储系统采用的编码方式已经可以大幅度压缩数据，不过大多编码方法不支持数据的增量更新操作。现有的RDF存储系统多采用完备的三元组存储方式，具有较高的查全率，不过在查询效率上还有待提高。作为未来发展的一个重要领域，RDF语义数据的处理还有很多值得研究的方面。本文主要研究的是RDF数据的编码和存储技术。通过分析国内外研究现状，对现有的系统进行大量研究和实验，针对RDF语义数据的编码方式和存储方式提出了改进方法，并运用该方法做了实验与分析。
　　本研究主要内容包括：⑴结合RDF语义数据的特点，设计实现了基于哈希的HBRA编码方案。HBRA编码方案采用Hash Lookup算法实现了文本到ID的映射，支持数据的初始化批量加载，也可以实现较快的增量更新操作，满足了RDF数据不断增加的特性。通过在内存中建立冲突处理表、使用Bloom filter查找算法和建立分块索引等策略，提升了编码时数据查找、判重和更新的效率。⑵通过研究RDF的查询处理技术，提出了基于三元组的二级索引存储方法，设计了二级索引的存储结构，实现了相应的存储过程。采用的二级索引结构不仅可以减少RDF数据的存储空间，还可以减少RDF语义数据查询时的比较次数。通过研究查询引擎的总体结构以及查询引擎的查询机理，结合二级索引存储的特点，设计了对应的RDF语义数据查询的处理过程。⑶根据提出的RDF语义数据编码方案和查询策略，对 RDF-3X系统做了改进，并做了相关实验。在编码方面，对数据编码方案进行了功能测试、冲突处理测试。在查询性能方面，选取9个SPARQL查询语句，采用YAGO数据集对几个存储系统做了实验，得到查询的查全率和时间效率。实验表明，使用新的编码方案和存储技术在不影响查全率的基础上，在简单查询和并列查询方面的查询效率有一定的提升。

著录项

作者
王亚君;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名陈平;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
RDF数据; 数据挖掘; 语义分析; 程序语言;

相似文献

中文文献
外文文献
专利

1. 海量RDF数据存储查询研究 [J] . 肖佳 ,肖诗斌 ,王洪俊 . 北京信息科技大学学报（自然科学版） . 2017,第003期
2. 基于Hadoop的RDF数据存储及查询优化 [J] . 徐德智 ,刘扬 ,Sarfraz Ahmed . 计算机应用研究 . 2017,第002期
3. Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统 [J] . 顾荣 ,仇红剑 ,杨文家 . 计算机学报 . 2017,第010期
4. 基于 NoSQL 的 RDF 数据存储与查询技术综述 [J] . 王林彬 ,黎建辉 ,沈志宏 . 计算机应用研究 . 2015,第005期
5. 大数据中RDF语义数据存储优化探讨 [J] . 何向武 . 计算机应用与软件 . 2015,第004期
6. 一种多索引的RDF数据存储与查询方案 [C] . Song Jinyu ,宋金玉 ,Wang Xing . 第29届中国数据库学术会议 . 2012
7. 异构数据的语义查询技术——基于RDF语义推理技术研究 [A] . 邓秀慧 . 2008

RDF语义数据存储编码与查询优化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅