首页> 中文学位 >基于Spark的情报大数据可视化分析
【6h】

基于Spark的情报大数据可视化分析

代理获取

目录

声明

摘要

符号说明

1.1 课题背景及意义

1.2 国内外研究现状

1.3 主要研究内容

第二章 关键技术介绍

2.1 B/S模式的系统开发

2.2 基于J2EE的前端交互系统

2.2.1 MVC设计模式执行过程

2.2.2 MVC各部分的作用

2.3 基于Spark、Hadoop的大数据技术

2.3.1 Spark生态系统

2.3.2 Spark RDD

2.3.3 Spark On YARN

2.3.4 Spark Streaming

2.3.5 Spark GraphX

2.3.6 Hadoop生态系统概况

2.3.7 Hadoop分布式文件系统

2.3.8 Map Reduce分布式计算框架

2.3.9 Sqoop2

2.4 分布式消息系统

2.5 数据挖掘技术

2.6 ECharts的数据可视化

第三章 情报大数据系统需求分析

3.1 情报大数据业务需求分析

3.1.1 情报采集需求

3.1.2 情报信息应用需求

3.1.3 交互式处理需求

3.2 功能性需求分析

3.2.2 关系型数据库

3.2.3 大数据可视化分析

第四章 情报大数据系统总体设计

4.1 情报系统总体架构设计

4.1.1 数据层设计

4.1.2 应用支撑层设计

4.1.3 应用层设计

4.2 门户系统设计

4.3 情报应用子系统设计

4.4 情报预警子系统设计

4.5 验证服务子系统设计

4.6 情报研判子系统设计

4.7 技术方案和解决途径

4.8 系统的实时交互

第五章 情报大数据模块设计与实现

5.2.1 Spark集群搭建与配置

5.2.2 Hadoop集群搭建与配置

5.2.3 KafKa分布式消息系统

5.2.4 Sqoop2与MySQL

5.2.6 SSH免密码登陆

5.3 模块功能实现

5.3.1 消息传递格式

5.3.2 经过ETL后的数据格式

5.3.3 多字段检索

5.3.4 社区发现

5.3.5 重点人员查找

5.3.6 话单分析

5.3.7 人员时间轨迹分析

5.3.8 案件展现

5.3.9 社区人员位置分析

5.3.10 人员交易分析

5.3.11 数据更新

5.4 系统优化

第六章 社区发现算法和重点人员查找算法研究

6.1 LPA算法

6.2 PageRank算法

7.1 论文总结

7.2 下一步工作

参考文献

致谢

攻读硕士期间参与的工程项目和发表的论文

展开▼

摘要

信息化时代数据量激增,同时由于情报部门等特殊需求部门多年来对信息的积累,存储了大量结构化、半结构化数据,由于受技术水平、创新意识、支撑保障等诸多因素影响,出现不同程度的信息壁垒,信息共享度、利用率不高,如何利用这些情报数据掌握社会动向、分析事态的演化趋势,进而提前预警预测,并为决策者提出决策性的建议,尚有大量知识需要研究。
  大数据技术经过多年的发展和完善已经趋于成熟,使用大数据技术进行情报分析,可有效的利用数据,为决策者提供可靠的指引。通过对信息的采集、整合并辅以大数据技术,大力推进相关部门的信息化建设。利用Spark运行在内存中的特点,为使用者提供高效的、交互式的查询和计算,快速展现数据内在信息,提高情报机关工作效率。本系统以Spark、Hadoop大数据技术为基础,面向特殊应用信息库、各情报资源信息库等已有数据库或其他多种类型数据文件,辅以GraphX图计算框架、Spark RDD、SparkSQL等工具,进行快速、高效的信息查询和多种图形化展示,并为使用者提供对社区人群的分析、通话分析、人员关联查询等多种功能。
  本文主要工作内容如下:
  1、研究情报系统业务模型,以及情报、特殊部门的具体需求分析,研究Spark、Hadoop大数据分析与存储技术、基于J2EE的前端系统、分布式消息系统以及数据清洗和数据库使用等,并设计了情报大数据分析系统的一种实现方法。
  2、开发前端系统使用J2EE技术架构,搭载Spring、SpringMVC、Mybatis三大框架作为前端展示系统。其中视图层采用FreeMarker、JQuery EasyUI、ECharts等组件提供多种形式、直观的数据展示。使用Oracle数据库,为面端组件、用户名、密码等信息提供持久化服务。
  3、分布式计算和传输系统开发。前端展示系统通过Apache Kafka集群与Spark集群进行实时交互。Spark集群主要负责对数据进行计算、分析。通过使用SparkRDD、Spark SQL、GrpahX、GraphFrame等工具进行社区发现、重点人员查找、话单分析、人群分析等功能,并将结果通过Kafka集群实时的反馈给前端展示系统。
  4、数据清洗和导入工作。数据存储采用分布式系统存储,并支持多种数据来源的导入,如关系型数据库、文本文档、CSV文件等。经过数据清洗后统一存放在HDFS系统中。通过Sqoop实现对存储系统定时更新的功能,在固定时间间隔将外部数据导入到存储系统中,保证数据的实时有效性。
  大数据分析系统通过将分散在不同业务部门的信息通过汇总、提取、计算实现了部门之间的信息交换,打破信息壁垒,并提供高效、直观、多样的数据可视化处理,为情报机关工作效率和能力的提高发挥积极作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号