声明
致谢
摘要
1 引言
1.1 研究意义和背景
1.2 研究现状
1.3 本人工作总结
1.4 论文的组织结构
1.5 本章小结
2 系统相关理论和技术综述
2.1 SpringCloud技术
2.2 作业调度框架
2.3 XPath技术
2.4 正则表达式
2.5 TiDB
2.6 Redis
2.7 知识图谱构建技术
2.7.1 本体编辑器
2.7.2 Neo4j
2.8 本章小结
3 需求分析
3.1 系统需求分析
3.1.1 数据采集需求分析
3.1.2 知识图谱构建需求分析
3.2 系统非功能性需求
3.3 需要解决的问题
3.4 本章小结
4 系统设计
4.1 系统总体设计
4.2 数据采集设计
4.2.1 网页下载模块的设计
4.2.2 数据抽取模块的设计
4.2.3 URL调度分发模块的设计
4.2.4 URL过滤模块的设计
4.2.5 登陆模块的设计
4.2.6 验证码识别模块的设计
4.2.7 日志模块的设计
4.2.8 系统资源模块的设计
4.2.9 代理IP模块的设计
4.2.10 系统管理模块的设计
4.3 知识图谱构建设计
4.3.1 schema模块的设计
4.3.2 数据预处理模块的设计
4.3.3 数据处理模块的设计
4.3.4 人工编辑模块的设计
4.4 数据库设计
4.5 本章小结
5 系统实现
5.1 数据采集部分
5.1.1 项目结构
5.1.2 网页下载模块的实现
5.1.3 数据抽取模块的实现
5.1.4 URL过滤模块的实现
5.1.5 URL调度分发模块的实现
5.1.6 登陆模块的实现
5.1.7 验证码识别模块的实现
5.1.8 日志模块的实现
5.1.9 系统资源模块的实现
5.1.10 代理IP模块的实现
5.1.11 系统管理模块的实现
5.2 知识图谱的构建
5.2.1 schema模块的实现
5.2.2 数据预处理模块的实现
5.2.3 数据处理模块的实现
5.2.4 人工编辑模块的实现
5.3 本章总结
6 系统测试
6.1 数据采集功能性测试
6.1.1 下载模块的测试
6.1.2 抽取模块的测试
6.1.3 URL过滤模块的测试
6.1.4 URL调度分发模块的测试
6.1.5 登陆模块的测试
6.1.6 验证码模块的测试
6.1.7 日志模块的测试
6.1.8 系统资源模块的测试
6.1.9 代理IP模块的测试
6.1.10 系统管理模块的测试
6.1.11 整体性测试
6.1.12 运行结果
6.2 知识图谱构建功能性测试
6.2.1 schema模块的测试
6.2.2 数据预处理模块的测试
6.2.3 数据处理模块的测试
6.2.4 人工编辑模块的测试
6.3 本章小结
7 总结和展望
7.2 展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集