首页> 中文学位 >基于Spark的实时舆论场数据的质量监控原型系统的设计与实现
【6h】

基于Spark的实时舆论场数据的质量监控原型系统的设计与实现

代理获取

目录

声明

摘要

图表目录

表格目录

缩写、符号清单、术语表

第1章绪论

1.1课题研究背景及意义

1.1.1课题研究背景

1.1.2课题研究意义

1.2国内外研究现状

1.3本文主要工作和创新点

1.4本文内容组织

1.5本章小结

第2章相关技术概述

2.1 Apache Spark处理引擎概述

2.1.1 Apache Spark生态系统

2.1.2 Spark Streaming介绍

2.1.3 Apache Spark的工作流程

2.2 Kafka消息队列概述

2.2.1 Kafka简介

2.2.2 Kafka架构以及工作原理介绍

2.2.3 Katka API介绍

2.3 Logstash实时数据采集框架概述

2.3.1 Logstash数据采集框架介绍

2.4 WebMagic分布式爬虫框架介绍

2.5本章小结

第3章系统总体架构设计

3.1系统设计目标

3.2总体系统架构设计

3.3系统模块设计

3.3.1数据订阅模块设计

3.3.2数据核查模块设计

3.3.3数据质量度量与预警模块设计

3.4本章小结

第4章系统详细设计与实现

4.1数据质量核查模块的设计与实现

4.1.1舆论场数据质量维度定义

4.1.2舆论场数据质量维度的计算

4.1.3中文文本关键词提取算法

4.2数据质量度量与预警模块的设计与实现

4.3系统调优方案

4.4本章小结

第5章系统测试与分析

5.1文本关键词提取算法测试

5.1.1测试环境搭建

5.1.2实验准备

5.1.3实验过程与结果分析

5.2系统测试

5.2.1系统测试环境搭建

5.2.2功能测试

5.2.3性能测试

5.3本章小结

第6章总结与展望

6.1本文工作总结

6.2未来工作展望

6.3本章小结

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

著录项

  • 作者

    郗茜;

  • 作者单位

    浙江大学;

  • 授予单位 浙江大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 陈文智;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 U46TV9;
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号