首页> 中文学位 >电子政务流式大数据实时热点识别研究
【6h】

电子政务流式大数据实时热点识别研究

代理获取

目录

第一个书签之前

绪论

课题研究背景及意义

国内外研究现状

Counter-based算法

Sketch-based算法

相关技术研究

论文研究内容

论文组织结构

电子政务流式大数据实时热点识别方法设计

系统架构设计

算法总体设计

统计控制模块设计

高频词精准计数统计模块设计

非高频词模糊计数统计模块设计

计数压缩存储模块设计

本章小结

电子政务流式大数据实时热点识别方法的实现

总体实现

统计控制模块的实现

高频词精准计数统计模块的实现

非高频词模糊计数统计模块的实现

计数压缩存储模块的实现

本章小结

系统测试与性能分析

硬件环境

平台搭建

准备工作

软件环境配置

测试数据集

数据预处理

性能测试

本章小结

总结及展望

参考文献

附录 1 攻读硕士学位期间申请的计算机软件著作权

附录 2 攻读硕士学位期间发表的论文

附录 3 攻读硕士学位期间参与的项目

展开▼

摘要

随着信息化建设的不断发展、电子政务的日趋成熟,政府部门掌握着海量的数据。在对电子政务大数据的处理与挖掘中,热门数据往往是很重要的,比如,在网络舆情监测应用中,政府对网络言论中的关键词进行收集并统计,识别出实时的热门关键词。而随着计算机存储和处理能力的逐步提高,电子政务应用对大数据的处理的要求也越来越高。传统的数据热点识别方法,如Lossy Counting、Space Saving、Count-Min Sketch等,主要对数据的历史累积量进行统计,得到统计量最高的数据项,并不能达到对当前实时热点进行识别的目的,无法满足处理实时数据流时的时效性要求。 为了解决以上问题,研究中利用少量计数器作为过滤器将数据根据频率进行区分,筛选出高频的热点数据项,单独进行记录,从而更精准地对热门数据进行统计,并支持对热门数据的输出,而中低频数据在Count-Min Sketch结构中记录,保证高频数据项与低频数据项基本不发生碰撞,同时当低频数据项变为高频数据项依然可以被识别出来。为了保证时效性,所有统计结构中均加入时间戳信息,可以获取到任意数据项在任意时间段内的计数信息,为了保证较高的空间利用率,采用线性拟合技术对带有时间戳的计数信息进行压缩。 实验结果表明,电子政务流式大数据实时热点识别方法可以实时高效地识别大规模流数据的热点数据项,系统吞吐量可以达到18万条数据每秒,同时查准率达到99.6%,查全率达到99.1%,较好地满足了电子政务流式大数据实时热点识别需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号