声明
摘要
图表目录
表格目录
缩写、符号清单、术语表
第1章绪论
1.1课题研究背景及意义
1.1.1课题研究背景
1.1.2课题研究意义
1.2国内外研究现状
1.3本文主要工作和创新点
1.4本文内容组织
1.5本章小结
第2章相关技术概述
2.1 Apache Spark处理引擎概述
2.1.1 Apache Spark生态系统
2.1.2 Spark Streaming介绍
2.1.3 Apache Spark的工作流程
2.2 Kafka消息队列概述
2.2.1 Kafka简介
2.2.2 Kafka架构以及工作原理介绍
2.2.3 Katka API介绍
2.3 Logstash实时数据采集框架概述
2.3.1 Logstash数据采集框架介绍
2.4 WebMagic分布式爬虫框架介绍
2.5本章小结
第3章系统总体架构设计
3.1系统设计目标
3.2总体系统架构设计
3.3系统模块设计
3.3.1数据订阅模块设计
3.3.2数据核查模块设计
3.3.3数据质量度量与预警模块设计
3.4本章小结
第4章系统详细设计与实现
4.1数据质量核查模块的设计与实现
4.1.1舆论场数据质量维度定义
4.1.2舆论场数据质量维度的计算
4.1.3中文文本关键词提取算法
4.2数据质量度量与预警模块的设计与实现
4.3系统调优方案
4.4本章小结
第5章系统测试与分析
5.1文本关键词提取算法测试
5.1.1测试环境搭建
5.1.2实验准备
5.1.3实验过程与结果分析
5.2系统测试
5.2.1系统测试环境搭建
5.2.2功能测试
5.2.3性能测试
5.3本章小结
第6章总结与展望
6.1本文工作总结
6.2未来工作展望
6.3本章小结
参考文献
攻读硕士学位期间主要的研究成果
致谢
浙江大学;