首页> 中文学位 >分布式系统上的元数据管理系统查询模块的实现
【6h】

分布式系统上的元数据管理系统查询模块的实现

代理获取

目录

摘要

第一章 绪论

1.1.项目背景和意义

1.2.国内外研究和应用现状

1.3.项目动机和主要工作

1.4.论文结构

第二章 相关知识

2.1 元数据概念

2.2 XML相关知识

2.2.1 XML介绍

2.2.2 DTD

2.2.3 小枝模式

2.2.4 XML解析模型

2.2.5 XML查询语言

2.2.6 XML文档编码

2.3 ANTLR简介

2.3.1 元语言词汇表

2.3.2 语法部分

2.4 HBase简介

2.4.1 API接口

2.4.2 逻辑视图

2.4.3 物理存储

第三章 整体twig查询算法

3.1 twig模式

3.2 twig模式匹配

3.3 TwigStack算法

3.4 TJFast算法

3.5 适合分布式存储的算法

第四章 系统架构和实现

4.1 系统架构

4.2 系统设计

4.3 XML文件的解析、编码和存储

4.4 查询语句解析和查询处理

4.4.1 查询语句转化为小枝

4.4.2 查询处理

4.4.3 查询结果的连接和复杂法分析

4.4.4 XPath查询结果

4.4.5 扩展为实体查询

4.4.6 结果封装

4.4.7 数据维护

4.4.8 系统性能优化

第五章 系统UI演示

第六章 实验结果和分析

6.1 试验环境

6.2 试验数据

6.3 试验结果(运行时间)

6.4 试验分析

6.5 合并算法的实现和效率

结论和展望

参考文献

攻读硕士期间发表的论文

致谢

声明

展开▼

摘要

元数据指的是描述数据的数据,主要是描述数据属性的信息,用来支持如存储位置、历史数据、资源查找、文件纪录等信息。元数据的表达可以是任意形式,在元数据发展初期人们常使用自定义的记录语言(例如MARC)或数据库记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML和XML,其中以XML最有潜力。本文所描述的元数据管理系统HMS采用了XML格式来描述元数据。
  随着数据库和网络的发展,XML已经成了万维网数据表示和数据交换的标准,主要用途包括数据交换,Web服务,内容管理和Web集成。XML标准是由W3C的XML工作组定义的。XML有着半结构化特性,这使得它的查询也不同于关系型数据库中的SQL查询,而是有着自己的多种查询标准和方法,其中以XQuery和XPath最具代表性。XML是自描述的,这也是XML适合描述元数据的一个重要特点。
  从系统和数据管理角度出发,集中式的元数据管理会存在系统性能瓶颈、单点失效、数据容错性差和难以扩展等缺点。而随着理论研究的深入和相关工程应用的发展,涌现出很多高可用的分布式平台。HMS是一种架构在HBase/Hadoop平台上的元数据管理系统,旨在分布式系统上提供一种元数据管理服务,并保证有效性和高可用性。本系统提供元数据管理所需要的CRUD操作的支持,并且提供实体查询的扩展支持。
  本文将主要说明元数据管理系统HMS的架构、存储和查询模块的实现。
  (1)从整体架构上看,HMS底层存储采用了NoSQL数据库HBase,在持久存储的上层使用Thrift接口访问下层的HBase。在上层的程序中包括元数据解析模块,查询语句的解析模块和查询处理模块,UI部分提供了Web展示界面。
  (2)存储模块主要完成元数据在HBase数据库中的存储,其中包含XML文件的解析,XML元素的编码和HBase Rowkey的选择和表结构的设计。
  (3)查询处理模块主要包含两部分,一部分是查询语句的解析,确定查询语句的语法范围,将一个查询语句字符串解析成一个小枝模式并在该小枝模式上标定查询的结果结点。另一部分是查询算法的实现,主要思想是是采用的TJFast算法。并且阐述了查询结果的连接合并步骤的必要性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号