首页> 中文学位 >日志大数据索引与查询方法研究
【6h】

日志大数据索引与查询方法研究

代理获取

目录

声明

1 绪论

1.1研究目的及意义

1.2国内外研究现状

1.3研究目标和所做的工作

1.4论文的组织结构

2 日志数据的二级索引

2.1二级索引的数据模型

2.2二级索引的管理

2.3索引配置与索引元数据

2.4本章小结

3 基于二级索引的日志查询方法

3.1查询条件的表达及解析

3.2日志查询过程

3.3索引缓存及查询优化

3.4本章小结

4 实验结果与分析

4.1实验环境与数据集

4.2实验结果与分析

4.3本章小结

5 总结与展望

5.1全文总结

5.2存在的问题

5.3研究展望

致谢

参考文献

展开▼

摘要

日志是反映系统运行状态和用户行为的重要数据,面对海量异构的日志数据,如何提供可靠的存储以及高效快速的查询以支持日志分析工作,是当前迫切需要解决的问题。HBase与Hadoop软件栈结合紧密,在存储和处理非结构化和半结构化数据方面能力强大,非常适合于日志的应用场景。但HBase只在主键上建立了索引,而在日志查询中常常涉及到非主键列,因此有必要优化HBase的非主键查询性能。
  日志数据二级索引的基本思想是将非主键列值到原始数据地址的映射冗余到索引记录的主键中,这样在根据非主键列值进行查询时可以快速定位到原始数据从而避免慢速的全表扫描。索引的静态构建通过MapReduce作业进行,当新的日志数据追加到表中或者Region发生分裂时则通过HBase协处理器实现索引的同步过程,以确保数据的一致性。为了更方便地利用二级索引,对日志查询的各种模式进行抽象和建模,设计了一套易于使用的查询API。客户端向RegionServer发起日志查询请求,它会委派一个查询解析器解析查询条件并执行具体的查找过程,此过程通过在所有RegionServer上并行执行加速。针对日志查询过程中的80/20的分布特征,将热点索引缓存到内存中,并提出了能感知数据热度的累积热度缓存替换策略,从而进一步优化日志的数据查询过程。
  以四台服务器组成的集群为测试平台,通过缓存替换策略对比实验、查询性能对比验证了累积热度缓存替换策略的有效性以及二级索引系统面向日志查询时的性能提升。通过索引构建的时、空间开销分析说明了二级索引的代价较低。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号