声明
1 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 网络爬虫技术的研究现状
1.2.2 文本信息挖掘的研究现状
1.2.3 网络招聘数据的研究现状
1.3 研究内容与技术路线
1.3.1 研究内容
1.3.2 技术路线
1.4 主要创新点
2 数据类招聘信息的采集
2.1 招聘信息数据源的确定
2.2 网络爬虫概述
2.2.1 网络爬虫的定义
2.2.2 网络爬虫的基本流程
2.3 数据类招聘信息的采集
2.3.1 网页分析
2.3.2 设计爬虫策略
2.3.3 解析入库
2.4 boss直聘的反爬技术
3 文本挖掘技术及相关理论
3.1 文本挖掘概述
3.1.1 文本挖掘的定义
3.1.2 文本挖掘的应用
3.2 文本预处理
3.2.1 中文分词
3.2.2 去停用词
3.3 文本表示
3.3.1 向量空间模型
3.3.2 特征权重
3.4 特征降维
3.4.1 基于文档频率
3.4.2 基于特征相似度
3.4.3 基于DF的特征相似度降维算法
3.5 聚类算法
3.6 关联规则算法
4 数据类招聘信息的挖掘
4.1 不同省市数据类岗位的现状
4.1.1 我国31个省市的划分依据
4.1.2 四大地区的岗位发展现状
4.2 关联规则分析
4.2.1 数据预处理
4.2.2 结果分析
4.3 聚类及类别研究
4.3.1 文本表示
4.3.2 文本向量化表示
4.3.3 文本聚类及类别研究
5 结论与建议
5.1 结论
5.2 建议
5.2.1 针对数据类人才
5.2.2 针对教育部门
致谢
参考文献
附录
杭州电子科技大学;