首页> 中文学位 >基于模糊查询的大数据分析处理系统的研究与实现
【6h】

基于模糊查询的大数据分析处理系统的研究与实现

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 课题背景与研究意义

1.2 模糊查询和大数据分析处理研究情况

1.3 本文工作与贡献

1.4 论文结构

1.5 本章小结

第2章 在线聚集相关技术

2.1 在线聚集的基本描述

2.1.1 在线聚集基本原则

2.1.2 在线聚集的基本过程

2.2 统计分析模型

2.2.1 置信区间类型

2.2.2 置信区间的计算

2.3 多表聚集

2.4 本章小结

第3章 基于模糊查询的大数据分析处理系统架构

3.1 随机混淆模块

3.2 用户查询模块

3.3 样本管理模块

3.4 查询引擎模块

3.5 统计估计模块

3.6 本章小结

第4章 样本和中间结果管理

4.1 树节点介绍

4.2 分裂方式

4.3 节点分裂

4.3.1 按离散型维度分裂

4.3.2 按连续型维度分裂

4.4 节点合并

4.5 层次转换

4.6 样本存储

4.7 本章小结

第5章 查询引擎和统计估计量

5.1 查询引擎

5.1.1 在样本管理树的查询过程

5.1.2 在数据源中查询

5.2 统计估计量

5.2.1 叶子节点的统计估计量

5.2.2 统计估计量的合并

5.3 本章小结

第6章 实验结果及分析

6.1 实验配置

6.1.1 运行环境

6.1.2 实验数据

6.1.3 实验设置

6.1.4 用户界面

6.2 实验结果与分析

6.2.1 数据集大小对实验结果的影响

6.2.2 置信度和误差界限对查询时间的影响

6.2.3 聚合结果的准确性

6.3 本章小结

第7章 总结与展望

7.1 本文主要工作与贡献

7.2 未来研究工作展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

随着大数据分析技术的日渐成熟,大数据所蕴含的巨大价值已经越来越被重视。由于数据量巨大,对大数据进行分析一般是很耗费时间的。然而,在很多情况下,用户并不需要精确的查询结果,数据大概的轮廓就可以满足大部分的分析需求。
  本文研究并实现了一种基于模糊查询的大数据分析处理系统。该系统为用户定义了一套查询接口,这些接口支持用户进行各种聚集查询(Group By)。系统将会为用户查询返回一个模糊结果。本系统可以在秒级内返回上百G数据的模糊查询结果。
  利用在线聚集技术可以快速生成数据轮廓的特点,本文将在线聚集技术应用到了系统中。同时,系统中相邻查询得到的结果集是有交叠的,如果能够将系统已经处理的查询所采集到的样本和计算出的中间结果保存起来,就可以加速系统处理后面查询的速度。基于此,本文对在线聚集技术做了优化。
  首先,本文对数据集进行随机化处理,生成一个随机数据集,这样,就可以通过顺序扫描随机数据集来达到在数据集中随机采样的效果。然后,本文通过在线聚集技术处理用户的查询请求。在线聚集技术在生成查询结果的同时,会把已经获取的样本和产生的中间结果存储在一棵样本管理树中。相应的,用户的查询也会首先在这棵树中进行处理。当在树中查询到的结果不能满足用户的需求时,系统再从数据源读取数据。通过这种方式,在线聚集技术中采取的样本和中间结果可以有效地被多个查询使用。同时,本文还提供了一种整合多个中间结果的方法,以生成最终查询结果。最后,通过在TPC-H基准上的实验结果,验证了本文所设计并实现的系统的有效性。

著录项

  • 作者

    金明健;

  • 作者单位

    浙江大学;

  • 授予单位 浙江大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 伍赛;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    在线聚集; 置信区间; 数据分析; 模糊查询;

  • 入库时间 2022-08-17 11:20:10

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号