大规模日志数据存储查询优化及应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的发展，人们的上网行为越来越频繁，网络中不同类型的服务器为用户提供了丰富多样的服务，服务器在运行中会通过日志文件来记录其运行参数以及用户访问记录等信息。伴随着智能终端的普及，极大地方便了用户对网络的访问，服务器将承载巨大的访问需求，这样会生成海量的日志数据和用户访问记录数据。面对海量的数据，传统的数据技术无法有效处理。 Apache软件基金会下 HBase分布式数据库以其独特的优势在海量数据领域应用非常广泛，但HBase在数据加载和查询中也存在不足之处。HBase数据库提供的数据加载方式，表格RowKey行键只能对应于数据中的一列，使得行键单一；无法对原数据中包含的无用数据进行过滤；需要对数据创建强大的索引机制,数据规模急剧膨胀引起系统I/O量上升，导致加载效率下降。HBase在数据查询中，由于只支持简单的随机查询，导致用户无法方便地对数据进行复杂统计与分析。研究重点如下：（1）基于HBase的大规模日志数据加载优化。针对HBase数据加载行键单一、无效数据和数据膨胀的问题，设计并实现了自定义MapReduce并行数据加载优化算法。该算法实现了加载过程中无效数据的清理、自定义表格行键和通过对数据采用压缩算法减小数据占用的空间；同时，对表格的相关信息进行优化。实验结果表明，自定义MapReduce并行数据加载优化算法能够很好的解决数据加载过程中的行键、无效数据和数据膨胀的问题，同时也很大程度提高了数据加载的效率，其加速比约为1.2。（2）融合HBase与Hive的大规模日志数据查询优化。针对HBase数据库不支持复杂查询的问题，设计并实现了融合Hive和HBase的大规模日志数据查询算法。该算法充分发挥了Hive仓库提供对海量数据类SQL查询的优势，通过两种框架融合以及表格数据关联的实现，最终实现Hive对存储在HBase表格中的数据进行统计与分析。实验结果表明，该算法实现了类SQL方式查询HBase表格数据，具有较好的效率和稳定性。（3）大规模日志数据典型应用的算法研究。针对KMeans算法在初始聚类中心点选取和海量数据处理效率低下的问题，设计了改进型KMeans并行聚类算法。该算法通过使用 Canopy算法对数据进行粗略聚簇，将得到划分中心点作为KMeans算法的初始点；同时，通过MapReduce编程框架实现KMeans算法的并行化。实验结果表明，改进型KMeans并行聚类算法完善了聚类初值的选取并实现了聚类的并行处理，能够高效的完成大规模日志数据聚类。

著录项

作者
贺正红;
展开▼
作者单位

桂林电子科技大学;

展开▼
授予单位桂林电子科技大学;
学科计算机技术
授予学位硕士
导师姓名周娅;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
日志数据; 存储查询优化;

相似文献

中文文献
外文文献
专利

1. 面向互联网应用的大规模数据实时查询优化方法研究 [J] . 沙梦钒 ,徐兰梅 ,滕庆勇 . 软件工程师 . 2020,第011期
2. 面向互联网应用的大规模数据实时查询优化方法研究 [J] . 沙梦钒 ,徐兰梅 ,滕庆勇 . 软件工程 . 2020,第011期
3. 基于层次序列OLAP Cache在大规模监测数据查询优化中的应用 [J] . 赵杰 . 科学技术与工程 . 2013,第026期
4. 对于大规模系统日志的日志模式提炼算法的优化 [J] . 赵一宁 ,肖海力 . 计算机工程与科学 . 2017,第005期
5. Elasticsearch海量数据存储查询优化 [J] . 范朗 . 工业控制计算机 . 2020,第010期
6. 对于大规模系统日志的日志模式提炼算法的优化 [C] . Zhao Yining ,赵一宁 ,Xiao Haili . 2016年全国高性能计算学术年会 . 2016
7. 面向大规模批量日志数据存储方法的研究 [A] . 王兆永 . 2011

大规模日志数据存储查询优化及应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅