首页> 中国专利> 一种公共就业指导方法及系统

一种公共就业指导方法及系统

摘要

本发明涉及就业指导技术领域,提供一种公共就业指导方法及系统,包括:步骤100,爬取公用网站的招聘信息及相关职位要求信息,建立就业指导信息的基础数据库;步骤200,获取用户输入的检索词;步骤300,根据用户输入的检索词,确定目标数据表的表名,获得或建立目标数据表;步骤400,根据步骤300中的目标数据表,获取招聘数据,并计算出所有中文关键词和/或英文关键词,同时确定表示技术或能力的重要程度的短语或句子,并进行权重计算;步骤500,将步骤400中的相关信息返回给用户。本发明能够分析出招聘者所重视的技术和能力,确保信息的时效性,保证信息及时可靠。

著录项

  • 公开/公告号CN112613839A

    专利类型发明专利

  • 公开/公告日2021-04-06

    原文格式PDF

  • 申请/专利权人 大连工业大学;

    申请/专利号CN202011561439.3

  • 发明设计人 刘俐;张恩博;李昌茂;

    申请日2020-12-25

  • 分类号G06Q10/10(20120101);G06F16/22(20190101);G06F16/2452(20190101);G06F16/951(20190101);

  • 代理机构21244 大连大工智讯专利代理事务所(特殊普通合伙);

  • 代理人崔雪

  • 地址 116000 辽宁省大连市甘井子区轻工苑1号

  • 入库时间 2023-06-19 10:29:05

说明书

技术领域

本发明涉及就业指导技术领域,尤其涉及一种公共就业指导方法及系统。

背景技术

近些年就业问题日益严峻,竞争更为激烈。而因为社会需求和高校之间信息不对称,在学生学习和求职过程中,学生不清楚用人单位对不同岗位的具体需求是什么。从而不知道从什么知识、领域、技能开始学习,无法在学习道路上做出明确有效的判断。而在想转行的社会人群中也同样如此。如果明确这些信息将会极大提升就业或转职成功几率,进而提高有效就业率。

高校大部分的学生在就业时,因为供学生参考的就业情况和就业所需技能没有数据支撑,学生普遍有“从众心理”,通常会选择身边人相同的领域或者学习和身边人相同的技术,这种行为非常片面、局限、低效,可靠性和时效性极差。有转职意向的人更是如此。目前的招聘网站中,在招聘网站上输入职位检索词,可能会出现招聘公司、薪资、要求等信息,但是使用者并不知道现在的大环境下的招聘者普遍需要该职位具备什么样的技能或能力,更看重什么技能或能力,所以被招聘者不知道到底拥有什么技能或能力才具备更强的竞争力。

目前,国内仍然没有一个成熟的软件、系统或专业网站可以很好的解决上述问题。

发明内容

本发明主要解决现有技术的招聘网站中,不能对应聘者需要的技能进行分析、指导,分析过程不具有泛用性、分析结果不具备系统性等问题。本发明提出一种公共就业指导方法及系统,通过数据分析,分析出招聘者所重视的技术和能力,计算出关键词,并显示不同情况下的权重,以可视化的形式返回给使用者。

本发明提供了一种公共就业指导方法,包括以下过程:

步骤100,爬取公用网站的招聘信息及相关职位要求信息,建立就业指导信息的基础数据库,所述基础数据库中含有关键词表以及多张招聘信息的数据表信息;

步骤200,获取用户输入的检索词;

步骤300,根据用户输入的检索词,确定目标数据表的表名,进而获得或建立目标数据表;

步骤400,根据步骤300中的目标数据表,获取招聘数据,并计算出所有中文关键词和/或英文关键词,同时确定表示技术或能力的重要程度的短语或句子,并进行权重计算;

步骤500,将步骤400中的相关信息,返回给用户。

优选的,步骤300,根据用户输入的检索词,确定目标数据表的表名,进而获得或建立目标数据表,包括如下步骤301至步骤303:

步骤301,根据用户输入的检索词,确定目标数据表的表名;

步骤302,根据步骤301确定的目标数据表的表名,在数据库中进行搜索是否有同名的数据表;若搜索到同名的数据表,将该数据表确定为目标数据表,并进行步骤303;若没有搜索到同名的数据表,则爬取公用网站的招聘信息及相关职位要求信息,进而建立该目标数据表;

步骤303,对目标数据表进行判断,若目标数据表已存在于数据库中,且距离上次更新该数据表的时间小于预设时间间隔,则直接从数据库中将该目标数据表作为返回结果;若目标数据表距离上次更新数据表的时间大于预设时间间隔,则爬取公用网站的招聘信息及相关职位要求信息,进而获得更新的目标数据表。

优选的,在步骤303之后,还包括:

步骤304,对目标数据表进行格式处理,计算平均薪资,并保存至数据库中。

优选的,步骤400,从步骤300获得的目标数据表中,获取招聘要求数据,并计算出所有中文关键词和/或英文关键词,同时确定表示技术或能力的重要程度的短语或句子,并计算权重,包括步骤401至406:

步骤401,从步骤300获得的目标数据表中,获取并存储招聘要求数据;

步骤402,根据获取的招聘要求数据,通过TF-IDF算法计算出所有中文关键词,并取出权重排前m的关键词;

步骤403,使用正则表达式,计算所有英文单词在所有招聘要求数据中出现的频率,并根据出现频率降序排序,取频率排前n的有效英文单词作为关键词;

步骤404,通过正则表达式,在全部招聘要求数据中,分j次,分别爬取表示技术或能力的重要程度的短语或句子;并将相同的重要程度结果分成一组,共分成j个结果组;

步骤405,计算所有关键词分别在这j个结果组中出现的次数,记为S,并通过以下公式计算每个关键词在不同重要程度下的权重:

其中,总职位数T为步骤100中所建立的数据表中所对应的职位总数;

步骤406,将职位名称、关键词个数、对应关键词以及关键词在不同重要程度下的权重,保存至数据库关键词表中。

对应的,本发明还提供一种公共就业指导系统,包括:

建立基础数据库模块,用于存储所爬取的公用网站的招聘信息及相关职位要求信息,建立就业指导信息的基础数据库,所述基础数据库中含有关键词表以及多张招聘信息的数据表等信息;

获取检索信息模块,用于获取用户输入的检索词;

获取目标数据表模块,用于根据用户输入的检索词,确定目标数据表的表名,进而获得或建立目标数据表;

计算模块,用于根据获得的目标数据表,获取招聘数据,并计算出所有中文关键词和/或英文关键词,同时确定表示技术或能力的重要程度的短语或句子,并计算权重;

返回用户模块,用于计算模块得到的相关信息,返回给用户。

优选的,所述获取目标数据表模块,包括:

确定表名模块,用于根据用户输入的检索词,确定目标数据表的表名;

搜索模块,用于根据确定的目标数据表的表名,在数据库中进行搜索是否有同名的数据表;若搜索到同名的数据表,将该数据表确定为目标数据表,并由更新时间判断模块对目标数据表进行判断;若没有搜索到同名的数据表,则爬取公用网站的招聘信息及相关职位要求信息,进而建立该目标数据表;

更新时间判断模块,用于对目标数据表进行判断,若目标数据表已存在于数据库中,且距离上次更新该数据表的时间小于预设时间间隔,则直接从数据库中将该目标数据表作为返回结果;若目标数据表距离上次更新数据表的时间大于预设时间间隔,则爬取公用网站的招聘信息及相关职位要求信息,进而获得更新的目标数据表。

优选的,所述获取目标数据表模块,还包括:

计算平均薪资模块,用于对目标数据表进行格式处理,计算平均薪资,并保存至数据库中。

优选的,所述计算模块,包括:

获取招聘要求模块,用于从获得的目标数据表中,获取并存储招聘要求数据;

计算中文关键词模块,用于根据获取的招聘要求数据,通过TF-IDF算法计算出所有中文关键词,并取出权重排前m的关键词;

计算英文关键词模块,用于使用正则表达式,计算所有英文单词在所有招聘要求数据中出现的频率,并根据出现频率降序排序,取频率排前n的有效英文单词作为关键词;

爬取短语或句子模块,用于通过正则表达式,在全部招聘要求数据中,分j次,分别爬取表示技术或能力的重要程度的短语或句子;并将相同的重要程度结果分成一组,共分成j个结果组;

计算权重模块,用于计算所有关键词分别在这j个结果组中出现的次数,记为S,并通过以下公式计算每个关键词在不同重要程度下的权重:

其中,总职位数T为步骤100中所建立的数据数据表中对应的职位总数;

存储模块,用于将职位名称、关键词个数、对应关键词以及关键词在不同重要程度下的权重,保存至数据库关键词表中。

本发明提供的一种公共就业指导方法及系统,与现有技术相比具有以下优点:

1、本发明可以在互联网上的中英文混杂的大量招聘要求中,不受语言混杂影响,通过数据分析,分析出招聘者所重视的技术和能力,计算出关键词,并计算出不同情况下的权重,以可视化的形式返回给使用者。

2、采用TF-IDF算法和原创算法,计算出关键词和对应权重,使分析出的数据具有可靠性。并把数据分析出的结果进行可视化,让数据具有可读性,更加形象、美观、具体,降低阅读门槛。

3、通过判断距离上次修改的时间间隔,确保了数据的时效性的同时,缩短本方法数据分析的平均时间,提升用户体验,并提升了系统的并发性能和稳定性。

4、可以更改目标区域。如省、市或者全国,使返回给使用者的数据结果更具有针对性,可以根据不同地区的特点总结出更细致的结果,提供给用户更加全面、灵动的选择。

5、方法使用门槛低,不需要专业知识。用法简单方便,用户只需要输入要查询的职位或专业。可以通过地区分类,分析结果更具有针对性和地区特点,且更加灵动细致。确保了信息的时效性,保证信息及时可靠。重点突出;关键词会根据权重降序排序,突出重点的同时也保证结果完整。结果美观易读。数据分析的结果进行数据可视化后再返回给用户。让数据不再晦涩难懂。

6、本发明在应用上,以有数据支撑的方式,为使用者快速计算出使用者想了解的,不同专业或职位上的关键词及不同情况下的权重作为参考。缩短了使用者在学习、自我提升或转职上的迷茫期,提高使用者学习和自我提升的效率。同时,本发明也解决了高校和社会需求之间信息不对称的问题,解决了就业痛点问题。

附图说明

图1是本发明提供的公共就业指导方法的实现流程图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。

如图1所示,本发明实施例提供的公共就业指导方法,包括:

步骤100,爬取公用网站的招聘信息及相关职位要求信息,建立就业指导信息的基础数据库,所述基础数据库中含有关键词表以及多张招聘信息的数据表等信息;

在本发明中,爬取方法是根据获取的使用者输入的检索词,通过构筑正则表达式和xpath(XML Path Language,XML路径语言)表达式,爬取招聘信息及相关职位要求信息,并形成数据表。例如:职位名称,薪资范围,职位具体要求等。在爬取过程中,要求用户学习的重要程度的关键词有:精通、熟悉、了解、掌握等。爬取的公用网站,包括不限于招聘网站、就业指导网站、公共服务网站等含有招聘信息及就业信息的网站。

建立基础数据库的过程中,需要分别爬取表示技术或能力的重要程度的关键词,所述关键词可以是短语或句子,例如:“精通”,“熟悉”,“了解”,“掌握”等表示重要程度的词语。根据以上的关键词,来构建多个不同的表达式,以表达式为基准进行爬取。例如在“JAVA工程师”的招聘信息中出现“熟练使用JAVA。”“掌握SQL数据库”等句子,则把上述句子中“熟练JAVA”和“掌握SQL数据库”等字样爬取下来。

数据库中关键词表(keywords表)用于存储全部职位对应的关键词及权重,关键词表具有职位名称(jobname)、职位关键词(keywords)、职位关键词在数据库中的编号(id)、关键词被要求“精通”的次数所计算出的权重(expert)、关键词被要求“熟悉”的次数所计算出的权重(familiar)、关键词被要求“了解”的次数所计算出的权重(know)、关键词被要求“掌握”的次数所计算出的权重(master)、以及关键词的个数(keyNumber)等字段。并设置职位关键词在数据库中的编号(id)为主键。

基础数据库中的每张招聘信息数据表具有职位编号(id)、职位名称(jobname)、最低薪资(lowsalary)、最高薪资(highsalary)、平均薪资(avesalary)、对应招聘网站的网址(url)、招聘者对职位的具体要求(detail)等字段。设置职位编号为主键。

本实施例的数据库选用SQL(Structured Query Language)数据库,SQL数据库简单、泛用性强,在本实施例的写入、搜索和分析过程中便捷灵活,综合性价比高。

步骤200,获取用户输入的检索词。

检索词由用户输入,如:【数据分析师,大连】、【数据分析师,辽宁省】或【数据分析师,全国】等。

步骤300,根据获取用户输入的检索词,确定目标数据表的表名,进而获得或建立目标数据表。步骤300具体包括如下步骤301至步骤304:

步骤301,根据用户输入的检索词,确定目标数据表的表名。

例如,用户输入“数据分析师”,则构建的数据表表名就为“数据分析师”。

步骤302,根据步骤301确定的目标数据表的表名,在数据库中进行搜索是否有同名的数据表;若搜索到同名的数据表,将该数据表确定为目标数据表,并进行步骤303;若没有搜索到同名的数据表,则爬取公用网站的招聘信息及相关职位要求信息,进而建立该目标数据表。

本步骤判断数据库中是否存在目标数据表,若搜索到同名的数据表,表示目标数据表已存在于数据库中;若没有搜索到同名的数据表,表示数据库中没有目标数据表。

步骤303,对目标数据表进行判断,若目标数据表已存在于数据库中,且距离上次更新该数据表的时间小于预设时间间隔,则直接从数据库中将该目标数据表作为返回结果;若目标数据表距离上次更新数据表的时间大于预设时间间隔,则爬取公用网站的招聘信息及相关职位要求信息,进而获得更新的目标数据表。

本步骤判断目标数据表的更新时间,若目标数据表存在于数据库中并且距离上次更新数据表的时间小于预设时间间隔,则不需要进行爬取招聘信息及就业指导信息,直接获得目标数据表;若目标数据表不存在于数据库中或者距离上次更新数据表的时间大于预设时间间隔,则需要爬取招聘信息及相关职位要求信息,进而获得目标数据表。预设时间间隔t可以为固定值,例如7天,也可以为实时更新方式。

步骤304,对目标数据表进行格式处理,计算平均薪资,并保存至数据库中。

在本步骤中,对爬取下来的薪资数据进行格式处理的方式为,把用“千”或“万”表示的薪资数据处理成数字格式。例如“1万5”进行格式处理后变成“15000”。并根据薪资数据中的最大值和最小值计算出平均薪资,或其它数据可视化方式,如绘制薪资分布图等。本步骤得到的数据可用于步骤500中返回给用户。

步骤400,根据步骤300中的目标数据表,获取招聘数据,并计算出所有中文关键词和/或英文关键词,同时确定表示技术或能力的重要程度的短语或句子,并计算权重。步骤400具体包括步骤401至406:

步骤401,从步骤300获得的目标数据表中,获取并存储招聘要求数据。

招聘要求(detail)数据例如:精通数据库技术,熟练使用英语等。招聘要求存储文件可以是一个.txt或二进制文件。存储招聘要求,便于步骤402计算关键词。

步骤402,根据获取的招聘要求数据,通过TF-IDF算法计算出所有中文关键词,并取出权重排前m的关键词。

在本实施例中,m例如取为10。

TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)算法是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其它文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

步骤403,使用正则表达式,计算所有英文单词在所有招聘要求数据中出现的频率,并根据出现频率降序排序,取频率排前n或取设定的阈值k的有效英文单词作为关键词。

有效英文单词是指表示能力或技能的专有名词,而比如介词“on”、“in”,数词“a”“an”,连词“and”“or”等无实际意义的词语会被排除掉,不区分大小写。关键词数量等于频率排前n的关键词个数和阈值k的较大值。例如n=5时,因为存在并列情况(频率相等),所以实际取出的单词数量不确定,可能是5个,也可能大于5个,设为c。若此时取出的英文单词数量c小于规定的阈值k,比如k=20,则顺延取关键词,直到数量到达k个为止,此时取出的关键词个数等于阈值k。若此时取出的英文单词数量c大于规定的阈值k,比如c=22,则此时取出的关键词个数等于c。k为数据库建立和更新过程中规定的常数。

步骤404,通过正则表达式,在全部招聘要求数据中,分j次,分别爬取表示技术或能力的重要程度的短语或句子;并将相同的重要程度结果分成一组,共分成j个结果组。

例如:“精通XXX技术”分成一组,“熟悉XXX技术”分成一组,共分j组。

步骤405,计算所有关键词分别在这j个结果组中出现的次数,记为S,并通过以下公式计算每个关键词在不同重要程度下的权重:

其中,总职位数T为步骤100中所建立的数据表中对应的职位总数。

例如,“数据分析师”数据表中相应有300个职位,其中“SQL”这个关键词被要求精通的次数,即“SQL”在“精通”这个结果组中出现次数,为200次。则“SQL”这个关键词,被要求精通的权重就为200/300=66.67%。而“PHP”这个关键词被要求熟悉的次数,即在“熟悉”这个结果组中出现的次数,为5次,则这个关键词被要求熟悉的权重就为5/300=1.67%。“了解”、“掌握”等类似结果组同理。

步骤406,将职位名称、关键词个数、对应关键词以及关键词在不同重要程度下的权重,保存至数据库关键词表中。

职位名称、关键词个数、对应关键词以及关键词在不同重要程度下的权重,即步骤404中出现的j个结果组下所占比例。

步骤500,将步骤400中的相关信息,返回给用户。

将确定表示技术或能力的重要程度的短语或句子,进行可视化,根据用户需求返回给用户。相关权重也可以一同可视化显示。比如:全部返回或者只返回用户要求的、比重排前5的关键词。

本方法通过分析大量的招聘信息,将用户关注的招聘职位所对应的专业要求和具体的期望技能以系统直观的数据方式进行可视化展示。用户可以更加清楚当下企业的招聘趋势,行业热点以及不同岗位的薪资情况和从事不同工作领域的技术要求,同时系统推送出数据分析后的关键词及相关权重,在此基础上,用户可以根据自己的期望和确切情况提前进行学习安排与准备并作出合理的就业选择。这将极大提高目前大学生的就业率和社会人员择业几率。

本发明实施例还提供一种公共就业指导系统,包括:

建立基础数据库模块,用于存储所爬取的公用网站的招聘信息及相关职位要求信息,建立就业指导信息的基础数据库,所述基础数据库中含有关键词表以及多张招聘信息的数据表等信息;

获取检索信息模块,用于获取用户输入的检索词;

获取目标数据表模块,用于根据用户输入的检索词,确定目标数据表的表名,进而获得或建立目标数据表;

计算模块,用于根据获得的目标数据表,获取招聘数据,并计算出所有中文关键词和/或英文关键词,同时确定表示技术或能力的重要程度的短语或句子,并计算权重;

返回用户模块,用于计算模块得到的相关信息,返回给用户。

所述获取目标数据表模块,包括:

确定表名模块,用于根据用户输入的检索词,确定目标数据表的表名;

搜索模块,用于根据确定的目标数据表的表名,在数据库中进行搜索是否有同名的数据表;若搜索到同名的数据表,将该数据表确定为目标数据表,并由更新时间判断模块对目标数据表进行判断;若没有搜索到同名的数据表,则爬取公用网站的招聘信息及相关职位要求信息,进而建立该目标数据表;

更新时间判断模块,用于对目标数据表进行判断,若目标数据表已存在于数据库中,且距离上次更新该数据表的时间小于预设时间间隔,则直接从数据库中将该目标数据表作为返回结果;若目标数据表距离上次更新数据表的时间大于预设时间间隔,则爬取公用网站的招聘信息及相关职位要求信息,进而获得更新的目标数据表。

所述获取目标数据表模块,还包括:

计算平均薪资模块,用于对目标数据表进行格式处理,计算平均薪资,并保存至数据库中。

所述计算模块,包括:

获取招聘要求模块,用于从获得的目标数据表中,获取并存储招聘要求数据;

计算中文关键词模块,用于根据获取的招聘要求数据,通过TF-IDF算法计算出所有中文关键词,并取出权重排前m的关键词;

计算英文关键词模块,用于使用正则表达式,计算所有英文单词在所有招聘要求数据中出现的频率,并根据出现频率降序排序,取频率排前n的有效英文单词作为关键词;

爬取短语或句子模块,用于通过正则表达式,在全部招聘要求数据中,分j次,分别爬取表示技术或能力的重要程度的短语或句子;并将相同的重要程度结果分成一组,共分成j个结果组;

计算权重模块,用于计算所有关键词分别在这j个结果组中出现的次数,记为S,并通过以下公式计算每个关键词在不同重要程度下的权重:

其中,总职位数T为步骤100中所建立的数据数据表中对应的职位总数;

存储模块,用于将职位名称、关键词个数、对应关键词以及关键词在不同重要程度下的权重,保存至数据库关键词表中。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号