首页> 中文学位 >基于海量数据的实时查询处理
【6h】

基于海量数据的实时查询处理

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 研究意义

1.3 论文研究内容

1.4 论文结构

第二章 数据处理背景知识

2.1 数据库的查询发展历程

2.2 数据流管理系统

2.2.1 基于窗口的处理

2.2.2 DSMS架构

2.2.3 语言扩展

2.3 海量数据处理技术介绍

2.3.1 Hadoop

2.3.2 HDFS

2.3.3 MapReduce

2.3.4 ZooKeeper

2.3.5 Pig

2.4 本章小结

第三章 海量数据处理解决方案

3.1 流技术的发展

3.2 流技术的要求

3.3 S4框架介绍

3.3.1 设计

3.3.2 处理单元

3.3.3 通信层

3.3.4 适配器

3.3.5 编程模型

3.4 改进后的S4系统—S4_S

3.4.1 S4_S架构

3.4.2 S4_S数据流

3.4.3 S4_S语言模型

3.5 本章小结

第四章 S4_S系统性能评估

4.1 网络服务监控器

4.2 预测新浪微博话题

4.3 评估S4_S系统

4.3.1 实验准备与测量方法

4.3.2 性能分析

4.3.3 性能评估总结

4.4 比较S4与S4_S

4.5 本章小结

第五章 总结及展望

5.1 总结

5.2 未来研究方向

致谢

参考文献

攻读硕士学位期间发表的论文

展开▼

摘要

过去几年间,互联网存储的信息量增长了成千上万倍,数据环境千变万化,数据量爆炸式增长,用户需求的个性化,交互的增加和实时性,导致传统的数据库和数据处理系统已经无法处理。传统的数据库系统侧重于数据的一致性和可用性,性能、可扩展性上都比较差,无法满足可扩展性和实时性的要求。谷歌和雅虎等公司,采用NOSQL数据库(如HDFS数据库),利用平常的计算机组成族群,开发了一些可扩展的、灵活的、容错性强的海量数据框架(如Hadoop)来处理日常海量业务数据。
   数据流和数据框架组合在一起,形成数据流管理系统,在不存储信息的情况下,能够实时、持续不断的处理海量数据,目前很多公司已经具备自己的数据流管理系统,如yahoo S4系统、facebook puma、twitter strom、阿里iprocess等等。一个成功的数据流系统必须能够根据数据流达到情况而弹性的分配节点任务量,而且具备安全检查机制,当系统崩溃后可以从安全检查点进行恢复,最后一个特性是数据流系统的可用性,用户可以方便的使用该平台。
   雅虎S4系统作为一个海量数据流处理系统,受到各个公司的热捧,然而这个系统依然存在不足。本论文在S4系统的基础上,探讨通过引进查询特征和处理数据节点的机制来进行java库的开发,增加S4系统的可用性,论文中将改进后的系统称为S4_S。S4_S代替原来系统的代码扩展机制,用户通过书写连续的声明语句就可以创建新的流应用。在论文后面会证明改进系统处理数据的能力,以及用网络服务监控器和预测新浪微博话题两个应用程序证明运用此系统如何方便快捷的新建复杂的流应用。论文最后用一个处理文本数据的实验例子来分析了S4_S系统的可扩展性、资源使用情况与容错性,实验结果证明系统的可扩展性满足要求,而容错性不符合预期。结合实验的结果与S4本身系统的比较,给出论文的下一步研究方向即如何让S4_S系统更加简单更加稳定,并且可智能的积极响应系统不断变化的环境。

著录项

  • 作者

    曹芳芳;

  • 作者单位

    武汉理工大学;

  • 授予单位 武汉理工大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 王舜燕;
  • 年度 2013
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据库; 数据处理; 实时查询; 数据流管理;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号