云环境下流数据关键字的实时查询处理技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的飞速发展，新闻、博客、社交应用的兴起，流数据关键字的实时查询处理技术被广泛应用于搜索引擎、社交网络等各个领域。现有的查询处理技术大多假设关键字集合已知，然而在大数据背景下，关键字集合的大小通常是未知的。同时传统集中式的查询处理方法未考虑数据划分、合并方法等问题，从而导致算法应用到分布式环境后精度和性能下降。
　　本文针对流数据中常见的几类关键字查询问题，提出新的实时处理技术及相应的查询算法，主要研究工作如下：
　　(1)现有流数据Top-K关键字查询算法使用固定的存储空间，在关键字集合已知的条件下，查找出流数据中出现频数最高的k个关键字。但在许多应用场景中，关键字集合通常是未知的。针对这个问题，在Spark Streaming框架下提出一种基于动态Summary的Top-K关键字查询算法TSTop-K(Time Supported Top-K Term Query)，算法通过数据划分，并结合更新策略的优化、合并方法的设计，使得算法在使用少量存储空间和关键字集合未知的条件下具有较高的精度。
　　(2)现存的突发关键字查询方法存储统计所有的关键字，并未考虑热点关键字。在数据呈爆炸式增长的背景下，获取热点关键字的突发时间更具有价值。针对这个问题，提出一种基于数值差异模型的分布式突发关键字查询算法DBT(Distributed Bursty Term Query)，算法采用动态的更新策略，设置检查点的方法提取热点关键字，然后根据突发值估计方法计算关键字的突发程度，找出关键字刚开始突发的时间，并在线性的时间内返回所有查询关键字综合突发值最高的时间范围。
　　(3)以流式处理框架Spark Streaming为基础，设计实现了一个关键字实时查询处理系统RTQPT(Real-TimeQuery Processing System of Terms)，实现本文提出的Top-K关键字查询和突发关键字查询，能够根据监测到的关键字，高效的处理、存储和查询，具有一定的扩展性。对设计的关键字实时查询处理系统的设计思想、系统架构、各个模块的设计及实现做了详细的介绍。

著录项

作者
郑诗敏;
展开▼
作者单位

南京航空航天大学;

展开▼
授予单位南京航空航天大学;
学科计算机技术
授予学位硕士
导师姓名秦小麟;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
流数据; 关键字; 实时处理; 查询算法; 云计算;

相似文献

中文文献
外文文献
专利

1. XML数据流上Top-K关键字查询处理 [J] . 黎玲利 ,王宏志 ,高宏 . 软件学报 . 2012,第006期
2. XML数据流上基于关键字的多查询处理 [J] . 周军锋 ,孟小峰 ,张新 . 计算机研究与发展 . 2007,第0z3期
3. 基于关系数据库的实时XML数据查询处理 [J] . 张晶 ,张云生 . 计算机应用 . 2006,第007期
4. On-Demand数据广播环境下实时有序查询处理 [J] . 王洪亚 ,刘晓强 ,何浩源 . 计算机科学 . 2010,第005期
5. 数据广播环境下实时查询处理 [J] . 何浩源 ,王洪亚 ,刘晓强 . 计算机工程 . 2008,第014期
6. XML数据流上的TOP-K关键字查询处理 [C] . . 第二十五届中国数据库学术会议(NDBC2008) . 2008
7. 云环境下匿名的加密数据关键字查询技术研究 [A] . 王俊 . 2013

云环境下流数据关键字的实时查询处理技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅