日志大数据索引与查询方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

日志是反映系统运行状态和用户行为的重要数据，面对海量异构的日志数据，如何提供可靠的存储以及高效快速的查询以支持日志分析工作，是当前迫切需要解决的问题。HBase与Hadoop软件栈结合紧密，在存储和处理非结构化和半结构化数据方面能力强大，非常适合于日志的应用场景。但HBase只在主键上建立了索引，而在日志查询中常常涉及到非主键列，因此有必要优化HBase的非主键查询性能。
　　日志数据二级索引的基本思想是将非主键列值到原始数据地址的映射冗余到索引记录的主键中，这样在根据非主键列值进行查询时可以快速定位到原始数据从而避免慢速的全表扫描。索引的静态构建通过MapReduce作业进行，当新的日志数据追加到表中或者Region发生分裂时则通过HBase协处理器实现索引的同步过程，以确保数据的一致性。为了更方便地利用二级索引，对日志查询的各种模式进行抽象和建模，设计了一套易于使用的查询API。客户端向RegionServer发起日志查询请求，它会委派一个查询解析器解析查询条件并执行具体的查找过程，此过程通过在所有RegionServer上并行执行加速。针对日志查询过程中的80/20的分布特征，将热点索引缓存到内存中，并提出了能感知数据热度的累积热度缓存替换策略，从而进一步优化日志的数据查询过程。
　　以四台服务器组成的集群为测试平台，通过缓存替换策略对比实验、查询性能对比验证了累积热度缓存替换策略的有效性以及二级索引系统面向日志查询时的性能提升。通过索引构建的时、空间开销分析说明了二级索引的代价较低。

著录项

作者
丁一铭;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机技术
授予学位硕士
导师姓名于俊清;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
日志数据; 二级索引; 查询方法; 缓存替换策略; 查询处理;

相似文献

中文文献
外文文献
专利

1. 基于搜索引擎日志的用户查询意图分类 [J] . 杨杰 ,徐越 ,余建桥 . 指挥信息系统与技术 . 2019,第002期
2. 基于搜索引擎日志的用户查询意图分类 [J] . 杨杰1 ,徐越2 ,余建桥3 . 指挥信息系统与技术 . 2019,第002期
3. 高校网络舆情监测方法:一种基于搜索引擎查询日志的研究 [J] . 殷姿 . 黑龙江高教研究 . 2014,第006期
4. 基于日志分析的搜索引擎查询结果缓存研究 [J] . 马宏远 ,王斌 . 计算机研究与发展 . 2012,第0z1期
5. 基于查询日志的中文搜索引擎用户行为分析 [J] . 杨旭宁 ,端木方方 . 电信技术研究 . 2011,第002期
6. 一种基于用户日志分析的元搜索引擎查询推荐机制 [C] . LI Qing-Shan ,李青山 ,WANG Lu . 第十四届全国软件与应用学术会议 . 2015
7. 基于搜索引擎查询日志的领域术语识别方法研究 [A] . 柳梅 . 2015

日志大数据索引与查询方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅