首页> 中文学位 >云环境下流数据关键字的实时查询处理技术研究
【6h】

云环境下流数据关键字的实时查询处理技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

注 释 表

缩 略 词

第一章 绪论

1.1 云环境下流数据查询处理技术的发展

1.2 本文的选题依据和意义

1.3 本文的主要工作

1.4 本文的组织结构

第二章 云环境下流数据关键字实时查询处理技术相关工作

2.1 云环境下流数据实时查询处理技术概述

2.2 流数据Top-K关键字查询技术

2.3 流数据突发关键字查询技术

2.4 本章小结

第三章 基于动态Summary的Top-K关键字查询方法

3.1 问题描述

3.2 Top-K关键字查询定义

3.3 分布式Top-K关键字查询算法

3.4 实验与性能评估

3.5 本章小结

第四章 基于数值差异模型的突发关键字查询方法

4.1 问题描述

4.2 形式化描述

4.3 分布式突发关键字查询算法

4.4 实验与性能评估

4.5 本章小结

第五章 云环境下RTQPT系统设计与实现

5.1 RTQPT系统的设计

5.2 RTQPT系统的实现

5.3 本章小结

第六章 结束语

6.1 本文的主要工作和贡献

6.2 本文的不足和未来的研究方向

参考文献

致谢

在学期间的研究成果及发表的学术论文

展开▼

摘要

随着互联网技术的飞速发展,新闻、博客、社交应用的兴起,流数据关键字的实时查询处理技术被广泛应用于搜索引擎、社交网络等各个领域。现有的查询处理技术大多假设关键字集合已知,然而在大数据背景下,关键字集合的大小通常是未知的。同时传统集中式的查询处理方法未考虑数据划分、合并方法等问题,从而导致算法应用到分布式环境后精度和性能下降。
  本文针对流数据中常见的几类关键字查询问题,提出新的实时处理技术及相应的查询算法,主要研究工作如下:
  (1)现有流数据Top-K关键字查询算法使用固定的存储空间,在关键字集合已知的条件下,查找出流数据中出现频数最高的k个关键字。但在许多应用场景中,关键字集合通常是未知的。针对这个问题,在Spark Streaming框架下提出一种基于动态Summary的Top-K关键字查询算法TSTop-K(Time Supported Top-K Term Query),算法通过数据划分,并结合更新策略的优化、合并方法的设计,使得算法在使用少量存储空间和关键字集合未知的条件下具有较高的精度。
  (2)现存的突发关键字查询方法存储统计所有的关键字,并未考虑热点关键字。在数据呈爆炸式增长的背景下,获取热点关键字的突发时间更具有价值。针对这个问题,提出一种基于数值差异模型的分布式突发关键字查询算法DBT(Distributed Bursty Term Query),算法采用动态的更新策略,设置检查点的方法提取热点关键字,然后根据突发值估计方法计算关键字的突发程度,找出关键字刚开始突发的时间,并在线性的时间内返回所有查询关键字综合突发值最高的时间范围。
  (3)以流式处理框架Spark Streaming为基础,设计实现了一个关键字实时查询处理系统RTQPT(Real-TimeQuery Processing System of Terms),实现本文提出的Top-K关键字查询和突发关键字查询,能够根据监测到的关键字,高效的处理、存储和查询,具有一定的扩展性。对设计的关键字实时查询处理系统的设计思想、系统架构、各个模块的设计及实现做了详细的介绍。

著录项

  • 作者

    郑诗敏;

  • 作者单位

    南京航空航天大学;

  • 授予单位 南京航空航天大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 秦小麟;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    流数据; 关键字; 实时处理; 查询算法; 云计算;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号