基于非结构化招聘信息的采集与清洗系统

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的迅猛发展打破了传统地域的限制，企业招聘由线下转移到了互联网上来，涌现了一批大型的在线求职平台，如智联招聘、拉勾网、前程无忧等。但是由于非结构化招聘信息不统一，缺乏一站式采集、提取和清洗方案，求职者难以在杂乱无章的招聘信息中找到合适的信息。对非结构化招聘信息的采集、提取和清洗，形成统一结构化的数据集，已成为一个亟需研究的课题。
　　本文是针对IT行业的非结构化招聘信息，进行数据的采集、提取和清洗。其主要安排如下:
　　(1)非结构化数据采集:简单介绍爬虫技术的发展以及Scrapy框架爬取数据的基本原理，然后利用Scrapy框架采集非结构化招聘信息，并存储到MongoDB数据库。
　　(2)数据提取:利用AC算法对采集完成的非结构化数据进行关键字的提取，达到将非结构化数据转变成结构化数据，并重新存储到MongoDB数据库。
　　(3)数据清洗:首先利用SQL语句对结构化数据进行预处理，接着进行清洗。由于现有的基本Skyline算法清洗数据效率低，故本文在基本Skyline算法上进行了改进，先利用改进的Skyline算法对数据进行清洗，最后将清洗过后的招聘信息生成各种二维统计图。
　　系统集成了数据采集、关键字提取和数据清洗三个功能模块，前台展示招聘信息的各种二维统计图，后台完成数据的实时解析与采集、关键字提取、数据清洗以及扩展数据接口等功能。

著录项

作者
张瑀;
展开▼
作者单位

湖南师范大学;

展开▼
授予单位湖南师范大学;
学科计算机技术
授予学位硕士
导师姓名徐鹏飞;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类企业现代化管理;
关键词
企业招聘; 非结构化数据; 信息采集; 信息清洗系统; MongoDB数据库; Skyline算法;
入库时间 2022-08-17 10:47:50

相似文献

中文文献
外文文献
专利

1. 基于web的招聘信息采集方法研究 [J] . 雷佩莹 . 价值工程 . 2011,第002期
2. 用电信息采集系统非结构化数据管理设计 [J] . 祝恩国 ,刘宣 ,葛磊蛟 . 电力系统及其自动化学报 . 2016,第010期
3. 非结构化数据采集和检索技术的研究与实现 [J] . 王晓波 . 中国内部审计 . 2014,第007期
4. 分布式信号采集分析系统海量非结构化数据实时处理技术研究 [J] . 陈景兵 ,章林柯 ,何琳 . 微计算机信息 . 2011,第007期
5. 分布式信号采集分析系统海量非结构化数据实时处理技术研究 [J] . 陈景兵 ,章林柯 ,何琳 . 微计算机信息 . 2011,第003期
6. 基于扁平化网络的省级公众安全集中清洗系统 [C] . 王佳 ,王孝鹏 ,项朝君 . 2016年河南省通信学会学术年会 . 2016
7. 非结构化数据采集和检索技术的研究和应用 [A] . 马惠芳 . 2013

基于非结构化招聘信息的采集与清洗系统

目录

摘要

著录项

相似文献

相关主题

期刊订阅