基于模糊查询的大数据分析处理系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着大数据分析技术的日渐成熟，大数据所蕴含的巨大价值已经越来越被重视。由于数据量巨大，对大数据进行分析一般是很耗费时间的。然而，在很多情况下，用户并不需要精确的查询结果，数据大概的轮廓就可以满足大部分的分析需求。
　　本文研究并实现了一种基于模糊查询的大数据分析处理系统。该系统为用户定义了一套查询接口，这些接口支持用户进行各种聚集查询(Group By)。系统将会为用户查询返回一个模糊结果。本系统可以在秒级内返回上百G数据的模糊查询结果。
　　利用在线聚集技术可以快速生成数据轮廓的特点，本文将在线聚集技术应用到了系统中。同时，系统中相邻查询得到的结果集是有交叠的，如果能够将系统已经处理的查询所采集到的样本和计算出的中间结果保存起来，就可以加速系统处理后面查询的速度。基于此，本文对在线聚集技术做了优化。
　　首先，本文对数据集进行随机化处理，生成一个随机数据集，这样，就可以通过顺序扫描随机数据集来达到在数据集中随机采样的效果。然后，本文通过在线聚集技术处理用户的查询请求。在线聚集技术在生成查询结果的同时，会把已经获取的样本和产生的中间结果存储在一棵样本管理树中。相应的，用户的查询也会首先在这棵树中进行处理。当在树中查询到的结果不能满足用户的需求时，系统再从数据源读取数据。通过这种方式，在线聚集技术中采取的样本和中间结果可以有效地被多个查询使用。同时，本文还提供了一种整合多个中间结果的方法，以生成最终查询结果。最后，通过在TPC-H基准上的实验结果，验证了本文所设计并实现的系统的有效性。

著录项

作者
金明健;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机科学与技术
授予学位硕士
导师姓名伍赛;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
在线聚集; 置信区间; 数据分析; 模糊查询;
入库时间 2022-08-17 11:20:10

相似文献

中文文献
外文文献
专利

1. 一种基于Neo4j图数据库的模糊查询研究与实现 [J] . 李雪 . 计算机技术与发展 . 2018,第011期
2. 基于.NET的农业信息模糊查询系统的研究与实现 [J] . 杨柯 ,张振国 . 农机化研究 . 2008,第004期
3. 基于SQL的模糊查询技术研究与实现 [J] . 张颖超 ,叶小岭 ,吴士芬 . 微电子学与计算机 . 2005,第1期
4. 基于ELK+Kafka的智慧运维大数据分析平台研究与实现 [J] . 阮晓龙 ,贺路路 . 软件导刊 . 2020,第006期
5. 基于大数据分析的配电网主动检修业务应用研究与实现 [J] . 徐祥征 ,王师奇 ,吴百洪 . 科技通报 . 2017,第6期
6. 基于大数据分析疫情防控系统的研究与实现 [C] . 杨泓絮 ,孙阳 ,宋蕾 . 辽宁省通信学会2020年度学术年会 . 2020
7. 基于大数据分析的DSP数据处理系统的设计与实现 [A] . 白宾 . 2020

基于模糊查询的大数据分析处理系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅