公开/公告号CN112541013A
专利类型发明专利
公开/公告日2021-03-23
原文格式PDF
申请/专利权人 北京融信数联科技有限公司;
申请/专利号CN202010003495.9
申请日2020-01-02
分类号G06F16/2458(20190101);G06Q10/10(20120101);
代理机构11333 北京兆君联合知识产权代理事务所(普通合伙);
代理人初向庆
地址 100085 北京市海淀区上地信息路26号中关村创业大厦10层1004室
入库时间 2023-06-19 10:21:15
技术领域
本发明属于移动大数据挖掘及应用技术领域,具体涉及一种基于移动信令大数据的应届毕业生跳槽频率分析方法。
背景技术
高校毕业生是社会就业群体中极具特殊性的一个,研究毕业生跳槽现状,不仅为探索从企业员工管理角度如何“招育用留”大学毕业生提供理论框架,而且对大学毕业生如何有序实现人生价值具有重要指导意义,但是目前对毕业生的研究多局限于离校前,对离校后的动态信息掌握不充分,且对离校后的信息掌握多依赖传统问卷调查技术,数据的真实难以保证,得出的分析结论也不够准确。
发明内容
本发明的目的在于提供一种基于移动信令大数据的应届毕业生跳槽频率分析方法,利用移动大数据,从中挖掘出手机用户的移动轨迹信息,进而可对毕业生群体离校后的工作居住情况进行分析。
本发明的技术方案如下:
一种基于移动信令大数据的应届毕业生跳槽频率分析方法,其特征在于:
(1)数据采集:利用电信运营商的信令数据,对每个IMSI识别号所在的基站扇区位置、进出时间信息进行采集,并进行数据清洗;
(2)数据预处理:对进出基站缺失信令进行插值补偿;
(3)居住地判定:读取IMSI在21:00至次日7:00之间所访问过的所有基站,根据数据采集步骤中得到的轨迹数据,将IMSI所对应的居住时间段内所访问过的基站信息建成一个统计表,并进一步统计在每个基站停留的时长。把停留时长最长的基站所对应的地理位置判定为其居住地,该居住地称为日居住地。一个自然月内,日居住地累计停留最多的位置判定为月居住地。
(4)工作地判定:读取IMSI在7:00-19:00之间所访问过的所有基站,根据数据采集步骤中得到的轨迹数据,将IMSI所对应的所有工作时间段内所访问过的基站信息建成一个统计表,并进一步统计在每个基站停留的时长。把停留时长最长的基站所对应的地理位置判定为其工作地,该工作地称为日工作地。一个自然月内,日工作地累计停留最多的位置判定为月工作地。
(5)应届毕业生识别:根据移动用户的年龄及月居住地的变化情况,识别毕业生。毕业生的居住地变化有明显的特征:研究年份的二月到六月之间应该仍居住在学校宿舍,但是 7月毕业之后,学校会对毕业生的居住宿舍进行清退,毕业生的居住地将不属于学校范围内,根据该特征毕业生具体的识别方法为:第一步筛选符合毕业生年龄范围的IMSI集合;第二步在上述IMSI集合中筛选在二月到六月中任意一个月的居住地在指定学校的范围内的 IMSI;第三步在前两步结果中筛选九月到十一月的居住地均不在学校范围内的IMSI,经过三步筛选出来的IMSI集合即为所研究年份的应届毕业生。
(6)毕业生第一份工作的工作时长判定:依据工作地判定方法,分析毕业生的月工作地变化情况,月工作地变化的时间间隔即为毕业生的在一份工作中的工作时长。以研究年份的七月开始,从采集到毕业生的工作地的时间到工作地发生改变的时间,这段时间间隔为毕业生第一份工作的工作时长。
本发明借助蕴含丰富信息的移动信令,设计口径及算法对毕业生离校后的居住工作情况实施动态地、有效地挖掘分析,数据来源可靠,分析结果可信度高,可为有关管理部门制定决策提供可靠依据提供。
具体实施方式
在本发明的具体实现过程如下:
步骤1:数据采集:利用电信运营商的信令数据,对每个IMSI识别号所在的基站扇区位置、进出时间信息进行采集,并进行数据清洗。
步骤2:数据预处理:对进出基站缺失信令进行插值补偿,如果用户在统计时间段内只有进入某基站时间而没有离开该基站时间,或者只有离开某基站时间而没有进入该基站时间,则对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间;
例如T用户在6月1日21:00:00进入扇区X,在6月2日7:00:00离开扇区X,且T 用户进入扇区Y的时间为6月2日22:00:00,而离开的时间为6月3日的7:00:00,当采集 6月2日T用户的信息时将缺失进入扇区X的时间点和离开扇区Y的时间点,因此需要插补进入扇区X的时间为6月2日的00:00:00,离开扇区Y的时间点为6月2日23:59:59。
步骤3:居住地判定:读取IMSI在21:00至次日7:00之间所访问过的所有基站,根据数据采集步骤中得到的轨迹数据,将IMSI所对应的居住时间段内所访问过的基站信息建成一个统计表,并进一步统计在每个基站停留的时长。把停留时长最长的基站所对应的地理位置判定为其居住地,该居住地称为日居住地。一个自然月内,日居住地累计停留最多的位置判定为月居住地。
步骤4:工作地判定:读取IMSI在7:00-19:00之间所访问过的所有基站,根据数据采集步骤中得到的轨迹数据,将IMSI所对应的所有工作时间段内所访问过的基站信息建成一个统计表,并进一步统计在每个基站停留的时长。把停留时长最长的基站所对应的地理位置判定为其工作地,该工作地称为日工作地。一个自然月内,日工作地累计停留最多的位置判定为月工作地。
步骤5:应届毕业生识别:根据移动用户的年龄及月居住地的变化情况,识别应届毕业生。
毕业生的居住地变化有明显的特征:研究年份的二月到六月之间应该仍居住在学校宿舍,但是7月毕业之后,学校会对毕业生的居住宿舍进行清退,毕业生的居住地将不属于学校范围内,根据该特征识别毕业生:
第一步筛选符合毕业生年龄范围的IMSI集合;第二步在上述IMSI集合中筛选在二月到六月中任意一个月的居住地在指定学校的范围内的IMSI;第三步在前两步结果中筛选九月到十一月的居住地均不在学校范围内的IMSI,经过三步筛选出来的IMSI集合即为所研究年份的应届毕业生。
一种具体的识别方法如下:
首先,筛选21-30岁之间的符合毕业生年龄范围的IMSI集合,该年龄范围基本覆盖了本科毕业到博士毕业的所有毕业生,且可以细分用于区分不同学历的毕业生,如21-24岁为本科毕业生,25-30岁为研究生及以上学历毕业生;
其次,在上述IMSI集合中筛选在四月或五月中任意一个月的居住地在指定学校的范围内的IMSI;
最后,在前两步结果中筛选九月和十月的居住地均不在学校范围内的IMSI,经过三步筛选出来的IMSI集合即为该年的应届毕业生。
步骤6:毕业生第一份工作的工作时长判定:依据工作地判定方法,分析毕业生的月工作地变化情况,月工作地变化的时间间隔即为毕业生的在一份工作中的工作时长。以研究年份的七月开始,从第一次采集到毕业生的工作地的时间到工作地第一次发生改变的时间,这段时间间隔为毕业生第一份工作的工作时长,根据所筛选的毕业生的平均工作时长即可用于判断该毕业生群体的换工作频率是否频繁。
通过此方法,不仅能计算毕业生的第一份工作的工作时长,还可以计算毕业生的每份工作的工作时长,具体应用时不建议研究毕业生个体的工作时长,因为如果该毕业生出差或休假时间相对较长(如3天以上)的话,受月工作地的判定方法中口径的影响,或会致使工作地变动,从而影响判断结果,因此建议从毕业生的群体入手计算应届毕业生第一份工作的平均时长。此外根据此方法,可以将毕业生群体根据性别、学历细分,用于研究跳槽频率是否同学历、性别有关。
机译: 基于cdma的移动通信系统中交换机与基站之间信令消息的分析方法
机译: 基于图像的识别和信令系统,例如用于该移动电话具有信令单元,该信令单元被提供用于通过相互之间的各个事件的参考值的比较来确定事件的信令
机译: 基于能源大数据收集的平台能源分析方法及建议方案