摘要
第一章 绪论
1.1 研究背景与意义
1.2 现状分析
1.2.1 数据爬虫现状
1.2.2 数据清洗现状
1.3 本文的创新点
1.4 主要研究内容
1.5 论文的工作及章节安排
第二章 基于Scrapy框架数据采集
2.1 网络爬虫技术
2.1.1 网络爬虫介绍
2.1.2 网络爬虫分类
2.2 Scrapy框架
2.2.1 Scrapy框架架构
2.2.2 Scrapy数据流程
2.3 数据采集
2.3.1 抓取URL
2.3.2 获取网页信息
2.3.3 数据存储
2.4 本章总结
第三章 基于AC算法数据提取
3.1 AC算法
3.1.1 预处理阶段
3.1.2 字符串匹配阶段
3.2 关键字提取
3.2.1 数据整理阶段
3.2.2 匹配阶段
3.3 本章小结
第四章 基于改进的Skyline算法数据清洗
4.1 Skyline算法
4.1.1 Skyline算法概述
4.1.2 Skyline算法分类
4.1.3 Skyline算法特点
4.2 基本Skyline算法
4.2.1 基本Skyline算法定义
4.2.2 基本Skyline算法实现
4.3 改进Skyline算法
4.3.1 改进思想
4.3.2 可行性计算
4.3.3 改进Skline算法实现
4.4 数据清洗
4.4.1 数据预处理
4.4.2 数据处理
4.5 本章小结
第五章 系统测试与统计
5.1 功能测试
5.1.1 数据采集的测试
5.1.2 AC算法数据提取的测试
5.1.3 Skyline算法数据清洗的测试
5.2 二维统计图
5.2.1 平均工资对比
5.2.2 城市职位需求
5.2.3 城市平均薪资
5.3 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
声明
湖南师范大学;