首页> 中文学位 >基于非结构化招聘信息的采集与清洗系统
【6h】

基于非结构化招聘信息的采集与清洗系统

代理获取

目录

摘要

第一章 绪论

1.1 研究背景与意义

1.2 现状分析

1.2.1 数据爬虫现状

1.2.2 数据清洗现状

1.3 本文的创新点

1.4 主要研究内容

1.5 论文的工作及章节安排

第二章 基于Scrapy框架数据采集

2.1 网络爬虫技术

2.1.1 网络爬虫介绍

2.1.2 网络爬虫分类

2.2 Scrapy框架

2.2.1 Scrapy框架架构

2.2.2 Scrapy数据流程

2.3 数据采集

2.3.1 抓取URL

2.3.2 获取网页信息

2.3.3 数据存储

2.4 本章总结

第三章 基于AC算法数据提取

3.1 AC算法

3.1.1 预处理阶段

3.1.2 字符串匹配阶段

3.2 关键字提取

3.2.1 数据整理阶段

3.2.2 匹配阶段

3.3 本章小结

第四章 基于改进的Skyline算法数据清洗

4.1 Skyline算法

4.1.1 Skyline算法概述

4.1.2 Skyline算法分类

4.1.3 Skyline算法特点

4.2 基本Skyline算法

4.2.1 基本Skyline算法定义

4.2.2 基本Skyline算法实现

4.3 改进Skyline算法

4.3.1 改进思想

4.3.2 可行性计算

4.3.3 改进Skline算法实现

4.4 数据清洗

4.4.1 数据预处理

4.4.2 数据处理

4.5 本章小结

第五章 系统测试与统计

5.1 功能测试

5.1.1 数据采集的测试

5.1.2 AC算法数据提取的测试

5.1.3 Skyline算法数据清洗的测试

5.2 二维统计图

5.2.1 平均工资对比

5.2.2 城市职位需求

5.2.3 城市平均薪资

5.3 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

声明

展开▼

摘要

互联网的迅猛发展打破了传统地域的限制,企业招聘由线下转移到了互联网上来,涌现了一批大型的在线求职平台,如智联招聘、拉勾网、前程无忧等。但是由于非结构化招聘信息不统一,缺乏一站式采集、提取和清洗方案,求职者难以在杂乱无章的招聘信息中找到合适的信息。对非结构化招聘信息的采集、提取和清洗,形成统一结构化的数据集,已成为一个亟需研究的课题。
  本文是针对IT行业的非结构化招聘信息,进行数据的采集、提取和清洗。其主要安排如下:
  (1)非结构化数据采集:简单介绍爬虫技术的发展以及Scrapy框架爬取数据的基本原理,然后利用Scrapy框架采集非结构化招聘信息,并存储到MongoDB数据库。
  (2)数据提取:利用AC算法对采集完成的非结构化数据进行关键字的提取,达到将非结构化数据转变成结构化数据,并重新存储到MongoDB数据库。
  (3)数据清洗:首先利用SQL语句对结构化数据进行预处理,接着进行清洗。由于现有的基本Skyline算法清洗数据效率低,故本文在基本Skyline算法上进行了改进,先利用改进的Skyline算法对数据进行清洗,最后将清洗过后的招聘信息生成各种二维统计图。
  系统集成了数据采集、关键字提取和数据清洗三个功能模块,前台展示招聘信息的各种二维统计图,后台完成数据的实时解析与采集、关键字提取、数据清洗以及扩展数据接口等功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号