首页> 中文学位 >基于Python的分布式信息采集发布系统设计实现
【6h】

基于Python的分布式信息采集发布系统设计实现

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.2 技术现状

1.3 研究目标

1.4 待解决的关键问题

1.4.1 智能化的URL 收集

1.4.2 快速部署

1.4.3 智能选择标签采集

1.4.4 智能的格式统一

1.4.5 信息智能分类

1.5 可行性分析

1.6 论文结构

第2章 技术基础与系统需求

2.1 信息采集技术

2.1.1 网络爬虫

2.1.2 Python 与Scrapy 框架

2.1.3 分布式部署

2.1.4 解析库和Selenium

2.1.5 PhantomJS

2.2 数据存储

2.2.1 MySQL

2.2.2 HBase

2.3 超融合数据中心

2.4 Flask

2.5 PYQT5

2.6 总体需求

2.6.1 信息采集编辑分析

2.6.2 信息运维编辑分析

2.6.3 信息发布编辑分析

2.6.4 其他分析

2.6.5 总体需求

2.7 系统功能图

2.8 本章小结

第3章 基于改进深度算法的全网信息采集

3.1 传统通用采集与深度采集

3.2 智能采集策略

3.3 智能采集算法

3.3.1 URL 去重

3.3.2 相似页面识别

3.4 算法测试与评估

3.4.1 实验环境

3.4.2 实验内容

3.4.3 实验结果

3.5 本章小结

第4章 主题信息采集和信息分类

4.1 主题采集与信息分类

4.1.1 基于主题信息采集常规算法

4.1.2 常规主题符合度判断

4.2 改进的主题信息采集和主题分类

4.2.1 主题信息采集设计思路

4.2.2 主题符合判读的关键就是权重模型的建立,这样每个页面是否符合不同于常

4.2.3 链接清洗

4.2.4 主题分类

4.2.5 两种算法流程

4.3 算法测试与评估

4.3.1 实验环境

4.3.2 实验内容

4.3.3 实验结果

4.3.4 结果评估

4.4 本章小结

第5章 系统设计

5.1 架构设计

5.1.1 特殊的分布式架构

5.2 系统硬件方案设计

5.3 系统软件设计

5.3.1 管理模块

5.3.2 清洗模块

5.3.3 存储模块

5.3.4 发布模块

5.4 采集模块

5.4.1 全网型采集设计

5.4.2 主题型采集设计

5.4.3 反采集设计

5.5 关系型数据库设计

5.5.1 ER 图设计

5.5.2 数据库物理结构设计

5.6 Hbase 数据库设计

5.7 关系型数据库优化

5.8 系统稳定性与安全性设计

5.8.1 云平台

5.8.2 系统代码

5.8.3 数据库安全保障

5.9 本章小结

第6章 系统实现与部署

6.1 系统实现总述

6.2 管理程序实现

6.3 发布程序实现

6.4 综合采集程序实现

6.4.1 采集程序开发与实现

6.4.2 清洗程序开发与实现

6.4.3 存储程序开发与实现

6.4.4 公用程序开发与实现

6.5 系统部署

6.5.1 运行环境部署

6.5.2 数据库部署

6.5.3 数据库部署

6.6 其他部署

6.6.1 定时运行部署

6.6.2 分布式部署

6.7 本章小结

第7章 系统测试与运行

7.1 测试目的

7.2 测试过程

7.2.1 功能测试用例

7.2.2 系统测试用例

7.2.3 云平台测试

7.3 本章小结

第8章 结论

8.1 总结

8.2 展望

参考文献

致 谢

攻读学位期间的研究成果

展开▼

著录项

  • 作者

    吴狄;

  • 作者单位

    河南科技大学;

  • 授予单位 河南科技大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 霍华,王霄;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP3X83;
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号