基于Hadoop的XML关键字查询算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

可扩展标记语言(eXtensible Markup Language, XML)，是基于标准广义标记语言，用于定义语义标记的一套规则。它已经在数据挖掘、数据库系统等诸多应用领域发挥了重要的作用。XML正在成为数据管理与存储的重要技术。为了能从海量XML数据中提取用户所需要的信息，许多XML数据查询方法应运而生，使得XML数据查询成为相关领域的一个研究热点。
　　云计算是一种可以实现程序并行化的编程模型，简单来说就是可以将大规模数据分布存储在由大量机器组成的集群中，同时集群本身可以由大量成本较低的计算机组成，而不用购置高配置的机器，这很大程度上是一种资源的节约。Hadoop作为一种主流的云计算平台被人们广泛关注，其自身方便而简洁的特点，使得用户编写代码能够得心应手。它的这种明显的优势使得大规模XML关键字查询所面临的问题得到解决。
　　本文针对XML关键字查询相关算法进行了深入研究，并用Hadoop作为计算平台，提出将查询算法并行化的方案，主要研究工作如下：
　　(1)针对目前XML关键字查询算法存在的问题，本文根据Dewey编码分布特点提出了一种智能分组方案，在查询开始之前对 Dewey码集合中的元素进行分组。该分组方案在基于索引搜索算法的基础上设计，并提出了智能分组索引查询算法(Intelligent Indexed Lookup Eager, IILE)。对比实验的结果表明，提出的智能分组索引查询算法获得了较高的执行效率。
　　(2)考虑到目前海量数据在单机上的运行时间过长的问题和大规模数据的处理要求，以及Hadoop环境对数据的分块机制，本文进一步分析了IILE算法的特点，提出了一个基于SLCA分解规律与合并规律的属性，该属性有利于将算法进行分布式计算，并在此基础上提出了一种XML关键字并行化查询方案。该方案基于MapReduce编程模型设计和实现。实验结果表明，对于大规模的 XML关键字查询，提出的并行化方案在Hadoop平台下具有较高的执行效率。

著录项

作者
李泉霖;
展开▼
作者单位

辽宁师范大学;

展开▼
授予单位辽宁师范大学;
学科计算机科学与技术
授予学位硕士
导师姓名张永;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
云计算; 可扩展标记语言; 关键字; 查询算法; 智能分组;

相似文献

中文文献
外文文献
专利

1. 一种基于区间预留编码的XML关键字查询算法 [J] . 魏东平 ,罗丹 . 计算机与现代化 . 2019,第010期
2. 基于路径内容索引相关关键节点的XML关键字查询算法 [J] . 姚全珠 ,王丹 ,蒋鹏飞 . 计算机应用 . 2016,第0z1期
3. 基于智能分组策略的XML关键字查询算法 [J] . 张永 ,李泉霖 ,刘博 . 计算机科学 . 2016,第010期
4. 基于扩展倒排索引的不确定XML关键字查询算法 [J] . 牛大伟 ,苏龙超 ,韩雨童 . 计算机应用与软件 . 2015,第004期
5. 基于语义的XML关键字查询 [J] . 贾颖 . 大众科技 . 2015,第008期
6. XKComp:基于XML数据的关键字查询算法比较系统 [C] . Zhou Junfeng ,周军锋 ,Wu Guoqing . 第29届中国数据库学术会议 . 2012
7. 基于ELCA语义的XML关键字查询算法研究 [A] . 王丹 . 2015

基于Hadoop的XML关键字查询算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅