首页> 中国专利> 科技人才数据加工方法、系统、存储介质及终端

科技人才数据加工方法、系统、存储介质及终端

摘要

本发明提供一种科技人才数据加工方法、系统、存储介质及终端,获取并标准化处理多个数据源的科技人才数据,以获得标准化科技人才数据;所述科技人才数据包括:身份识别数据和科研成果数据;基于所述科研成果数据的业务逻辑和所述身份识别数据,合并所述标准化科技人才数据以获得合并人才数据;编辑并审核所述合并人才数据,以建立科技人才数据库。本发明创建了为各企事业单位挖掘所需的科技人才提供了一个良好的平台;基于信息熵对数据进行类别划分,基于科研成果数据的业务逻辑对数据进行精准合并,基于爬虫技术对数据进行补充完善,从而实现科技人才数据的高效加工,不仅大幅度节约了人力成本,而且提高了数据的完整性、数据加工的质量和效率。

著录项

  • 公开/公告号CN112905589A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 上海市研发公共服务平台管理中心;

    申请/专利号CN202110113129.3

  • 发明设计人 朱悦;王茜;王莹;胡寅骏;徐永斌;

    申请日2021-01-27

  • 分类号G06F16/22(20190101);G06F16/36(20190101);G06F40/166(20200101);

  • 代理机构31219 上海光华专利事务所(普通合伙);

  • 代理人倪静

  • 地址 200052 上海市徐汇区钦州路100号2号楼4楼

  • 入库时间 2023-06-19 11:16:08

说明书

技术领域

本发明涉及数据处理技术领域,特别是涉及科技人才数据加工方法、系统、存储介质及终端。

背景技术

随着政府和社会对科研关注度的增加,科技人才的挖掘与查询服务已成为各企事业单位一个重要的需求,而科技人才的挖掘和查询的基础是一个准确而全面的人才数据库。目前,科技人才数据有着信息分散、数据更新不及时、数据不全面等问题。一方面,学术产出的成果分散于论文、专利、基金等相互独立的来源;另一方面,人才的通讯方式、履历信息、奖惩荣誉分散于各科研院所、高校或公司的网站,甚至没有信息。因此,如何将这些科研成果的信息打通,与人才相关网站、个人主页或其它互联网信息关联,刻画完整的人才画像,建立规范的人才数据库,提升科技人才数据质量与加工效率,成为一项亟需解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供科技人才数据加工方法、系统、存储介质及终端,用于解决现有技术中的科技人才数据信息分散、数据更新不及时、数据不全面的问题。

为实现上述目的及其它相关目的,本发明的第一方面提供一种科技人才数据加工方法,包括:获取并标准化处理多个数据源的科技人才数据,以获得标准化科技人才数据;所述科技人才数据包括:身份识别数据和科研成果数据;基于所述科研成果数据的业务逻辑和所述身份识别数据,合并所述标准化科技人才数据以获得合并人才数据;编辑并审核所述合并人才数据,以建立科技人才数据库。

于本发明的第一方面的一些实施例中,所述科研成果数据包括专利成果数据;所述标准化科技人才数据的合并方式包括:基于专利的业务逻辑,从专利数据库中提取与所述专利成果数据对应的PCT数据和同族专利数据,以获取同一人才名称的多种表达形式,并合并各表达形式名称对应的人才数据。

于本发明的第一方面的一些实施例中,所述编辑并审核所述合并人才数据,其包括:评价所述合并人才数据质量,以获取待编辑人才数据;对所述待编辑人才数据按照标准模板进行编辑,其包括:信息补充、人才新增、人才删除、人才合并、人才拆分。

于本发明的第一方面的一些实施例中,所述方法包括:在编辑所述待编辑人才数据之前,从网络和所述科技人才数据库中关联获取与所述待编辑人才数据匹配的数据,并按照匹配程度进行排序,以获取编辑提示内容。

于本发明的第一方面的一些实施例中,所述人才数据质量的评价维度包括:信息来源、身份可识别性、信息完整度和编辑历史。

于本发明的第一方面的一些实施例中,所述方法还包括:基于机构映射和人才名称映射获取所述科技人才数据的待合并数据。

于本发明的第一方面的一些实施例中,所述方法包括:使用知识图谱算法对所述合并人才数据进行消歧。

为实现上述目的及其它相关目的,本发明的第二方面提供一种科技人才数据加工系统,包括:数据标准化模块,获取并标准化处理多个数据源的科技人才数据,以获得标准化科技人才数据;所述科技人才数据包括:身份识别数据和科研成果数据;数据合并模块,基于所述身份识别数据和所述科研成果数据的业务逻辑,合并所述标准化科技人才数据以获得合并人才数据;编辑与审核模块,编辑并审核所述合并人才数据,以建立科技人才数据库。

为实现上述目的及其它相关目的,本发明的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述科技人才数据加工方法。

为实现上述目的及其它相关目的,本发明的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述科技人才数据加工方法。

如上所述,本发明涉及的科技人才数据加工方法、系统、存储介质及终端,具有以下有益效果:从多个数据源获取科技人才数据并对其进行标准化、合并、编辑等操作,获取准确且完整的科技人才信息,为各企事业单位挖掘所需的科技人才提供了一个良好的平台;利用了自然语言处理技术和机器学习算法对获取的科技人才数据进行处理,实现人才数据的合并和消歧,降低了数据的冗余度,提高了数据的准确性和有效性;基于信息熵对数据进行类别划分,基于科研成果数据的业务逻辑对数据进行精准合并,基于爬虫技术对数据进行补充完善,从而实现科技人才数据的高效加工,不仅大幅度节约了人力成本,而且提高了数据的完整性;通过对合并后数据质量的评价确定需要进行编辑的数据及编辑的优先级,并且提供编辑提示内容,提高了数据加工的质量和效率;对所获得的的科技人才数据的建议合并项以及编辑后的数据进行审核,保障了加工后的科技人才数据的准确性;并且,加工后的数据定时或定量地同步到科技人才数据库,实现科技人才数据的及时更新完善,因此,本发明解决了现有技术的问题,实现了科技人才数据的集中性、完整性和准确性。

附图说明

图1显示为本发明一实施例中一种科技人才数据加工方法流程示意图。

图2显示为本发明一实施例中一种科技人才增量数据的加工流程示意图。

图3显示为本发明一实施例中一种科技人才数据加工方法的另一流程示意图。

图4显示为本发明一实施例中一种科技人才数据加工系统的结构示意图。

图5显示为本发明一实施例中一种科技人才加工系统的产品架构示意图。

图6显示为本发明一实施例中一种科技人才加工系统中任务流的状态机示意图。

图7显示为本发明一实施例中电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其它实施例,并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其它特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

本发明提供科技人才数据加工方法、系统、存储介质及终端,用于解决现有技术中的科技人才数据信息分散、数据更新不及时、数据不全面的问题。

为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例一

如图1所示,本实施例提出一种科技人才数据加工方法流程示意图,具体包含如下步骤:

步骤S11.获取并标准化处理多个数据源的科技人才数据,以获得标准化科技人才数据;所述科技人才数据包括:身份识别数据和科研成果数据。具体的,可以从现有的各个信息分散的数据源,如SCI学术论文、专利、国家自然基金、大型仪器操作员、重点实验基地、各类考研人员信息网站等相关网站获取科技人才数据,还可以通过网络爬虫在高校、科研院校、公司的网页和网络百科(包括但不限于:百度百科、维基百科、搜狗百科等)获取科研人才数据。对获得的科技人才数据进行标准化处理,具体的,可将科技人才数据中的姓名、所属单位、学历、学科等数据进行标准化处理。可参考的标准化方案有国家对于科技人才数据的元数据制定的标准规范,包括但不限于《GB/T 35397-2017科技人才元数据元素集》、《GB/T4658-2006学历代码》、《GB/T 13745-2009学科分类与代码》等等。

本实施例较佳的实施方式中,将所获取的科技人才数据按照数据提供的信息熵进行数据类别划分。具体的,可划分为人才基础数据、身份识别数据、科技成果数据、附加数据等不同类别。其中,人才基础数据包括:人才姓名、所属单位(可以是多个)、职务、学科领域(可以是多个)等;身份识别数据包括:ORCID(Open Researcher and Contributor ID)、ResearcherID、AuthorID等ID类信息,通讯地址、邮箱、手机号、个人主页等通讯类信息;科研成果数据包括:学术论文、专利等信息;附加数据包括:教育经历、工作履历、荣誉与奖项、社会任职等信息。

步骤S12.基于所述科研成果数据的业务逻辑和所述身份识别数据,合并所述标准化科技人才数据以获得合并人才数据。具体的,所述科研成果数据有论文成果数据、专利成果数据等等,基于论文成果数据的业务逻辑可获得人才的研究领域、外文论文中的人才名称表达形式等信息;基于专利的业务逻辑,可从专利数据库中提取与已获得的专利成果数据对应的PCT专利数据及其同族专利数据,从而获取同一人才名称的多种表达形式,如不同语种、不同拼写方式,人才(发明人)所属的单位(申请人)等信息,根据所获得的不同表达形式人才名称、人才研究领域、人才所属单位等信息对相应的人才数据进行合并。

在本实施例较佳的实施方式中,首先基于身份识别数据对所述标准化人才数据进行初始合并;其次,基于所述科研成果数据的业务逻辑对初始合并后的人才数据进行分析,获取建议合并项并审核,在审核通过后进行合并,审核未通过则放弃合并。

在本实施例较佳的实施方式中,基于存量人才库(即已经加工并保存的科技人才数据构建的数据库)中已有人才的名称映射和机构映射获取所述科技人才数据的建议合并项并审核,在审核通过后进行合并,审核未通过则放弃合并。

需说明的是,由于身份识别数据的唯一性,基于身份识别数据的合并为无异议合并,即无需审核可直接合并;基于所述科研成果数据的业务逻辑的合并以及基于所述名称映射和机构映射的合并需在审核通过后完成合并,提高了科技人才数据的准确性。

在本实施例较佳的实施方式中,所述方法包括利用网络爬虫进行网络数据补充,将所爬取的科技人才数据进行前述标准化、合并等加工工程,以进一步提高本发明中科技人才数据的完整性和有效性。

在本实施例较佳的实施方式中,所述方法包括:使用知识图谱算法对所述合并人才数据进行消歧。具体的,知识图谱通过对复杂文本类型的科技人才数据进行有效的加工、处理、整合,将其转化为简单清晰的人才实体及其它相关信息的形式,从而将属于同一人才实体的数据进行合并,实现不同人才实体的数据消歧,提高人才数据的准确性。其中,知识图谱的构建方式包括自顶向下和自底向上的方式,本实施例优选自顶向下的构建方式,即借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到人才知识库,尤其适用于本发明的部分数据源,如网络百科,提高了数据的加工效率。

步骤S13.编辑并审核所述合并人才数据,以建立科技人才数据库。具体的,可对合并后的人才数据进行补充、修改、合并、拆分等编辑操作,以进一步完善所获取的科技人才数据,并且对编辑后的数据进行审核以提高数据的准确性。最后,将加工完毕的数据定期或定量地同步至科技人才数据库。其中,数据的加工区域与所述科技人才数据库相互独立,确保数据不被污染。

在本实施例较佳的实施方式中,所述编辑并审核所述合并人才数据,其包括:评价所述合并人才数据质量,以获取待编辑人才数据;对所述待编辑人才数据按照标准模板进行编辑,可选的编辑方式包括但不限于:信息补充、人才新增、人才删除、人才合并和人才拆分等等。其中,所述人才数据质量的评价维度包括但不限于:信息来源、身份可识别性、信息完整度和编辑历史等等,当人才数据的信息来源越多,则数据的真实性越高,对应的数据质量的评价值越高;当身份的可识别性越高,即包含的身份识别数据越多,对应的数据质量的评价值越高;当信息的完整度越高,即包含的数据类别、每种数据类别中的信息越丰富,则对应的数据质量的评价值越高;当数据的编辑历史越丰富,则对应的数据质量的评价值越高。

在本实施例较佳的实施方式中,所述方法包括:在编辑所述待编辑人才数据之前,从网络和所述科技人才数据库中关联获取与所述待编辑人才数据匹配的数据,并按照匹配程度进行排序,以获取编辑提示内容。具体的,由网络实时查询、采集库未整理数据提取、已有库相关人才数据、增量区人才数据等多个渠道作为主要来源,按匹配程度确定提示的优先级,在人才数据编辑的工作中最大程度地减少数据编辑人员搜集和梳理信息的工作。

在本实施例较佳的实施方式中,所述方法包括:设置数据列表,以供各类用户角色查询人才数据,了解数据状态。其中,所述用户角色有:数据标准管理员、数据编辑任务管理员、数据编辑人员、数据审核管理员等。其中,数据标准管理员为维护标准字段(例如:学科、学历等)的用户;数据编辑任务管理员为派发编辑任务、管理编辑任务、关闭编辑任务的管理员;数据编辑人员完成派发的编辑任务的人员;数据审核管理员为对加工后的数据进行审核的管理员。需说明的是,一个用户可以有多个角色,但是数据编辑人员的角色不能与另外三个角色中的任一者同时拥有。

在本实施例较佳的实施方式中,所述方法包括:对人才数据编辑任务的派发、监控与管理。具体的,在所述数据列表中选择需要编辑的人才数据,打包为一个编辑任务,待任务进入任务流后对其实施监控,并且对编辑任务的结果进行审核,管理数据的质量。

图2所示的一种科技人才增量数据的加工流程示意图,其中,增量数据即从各个数据源获取的新增加的科技人才数据,其加工流程可具体说明如下:首先将人才增量数据与标准库(即科技人才数据库)中已有的人才数据进行对比,判断是否可按照前文所述的规则或算法进行合并;若是,则对增量数据执行标准化、算法消歧等过程后,将处理后的数据提交至审核平台进行审核,若否,则在加工区域添加新的记录字段记录增量数据,并为该新增字段分配ID,并标记数据质量(如信息来源的数量及质量,身份可识别性,是否有基础数据、附加数据、是否有编辑历史等等);基于标记数据质量判断是否需对数据进行编辑,若不需要则将数据存入待更新数据库(定时或定量地更新至ES,Elasticsearch);其中,处理后数据的审核结果又包括审核通过和审核不通过,当审核通过时,则将数据存入待更新数据库,并定时或定量地更新至ES,当审核不通过则在加工区域添加新的记录字段记录增量数据,并重复前述标记数据质量等操作。当增量数据与其它正在标准化、合并或编辑的数据发生冲突时,将该增量数据标注为待处理状态,以实现数据的有序加工处理。

如图3所示,本实施例提出一种科技人才数据加工方法的另一流程示意图,与前文所述方法及实施方式类似,故此不再赘述。

在本实施例较佳的实施方式中,所述科技人才数据的数据状态包括:已编辑、编辑中、待审核、未加工。其中对于数据增量同步时使用自动化流程识别为建议合并且需要审核的数据为待审核,加入编辑任务的数据为编辑中,完成编辑的数据为已编辑,其余数据为未加工状态。

在本实施例较佳的实施方式中,所述方法包括:数据冲突机制。具体的,每条数据同一时段仅能被一个数据编辑人员处理,即同一任务不能再分发给其他数据编辑人员;编辑中的数据与增量流入的人才数据有冲突时,对两个数据都设置提示标注,以供后续的任务管理流程和审核流程干预。

在本实施例较佳的实施方式中,所述方法包括:为编辑中的数据设置草稿箱模式,每个数据编辑人员的草稿箱仅由个人享有,不对全网共享;数据编辑人员在编辑工作中系统自动将编辑内容保存至草稿箱,下次点开此人才数据时可选择恢复草稿箱数据或重新编辑;由上一条数据冲突机制可知,同一人才数据同一时段仅能分配至一个编辑人员,所以人才数据编辑阶段生产数据处于锁定状态,仅有草稿箱为活动状态,且只有一个编辑,不会对数据造成冲突编辑、重复改写等问题;草稿箱的有效期至此任务提交,提交后草稿箱数据清空。

在本实施例较佳的实施方式中,所述方法包括:为数据编辑提供字段的标准模板,以保证编辑后数据的高效可用性。具体的,可设置:学科、学历等标准字段的下拉选择组件,所属单位字段的可提示文本输入框组件,关联内部机构库返回机构信息进行二次核对组件,时间类信息拆分年月日且兼容模糊输入的日期选择组件,履历信息一键排序组件,长文本智能识别组件等。

在本实施例较佳的实施方式中,所述方法包括:数据编辑任务的派发、流转与审核流程。具体包括:数据选择、任务发布、开始任务、提交任务、开始审核、审核通过、审核驳回、关闭任务、修改任务、任务过期等等。其中,数据选择、任务发布、关闭任务、修改任务为数据编辑任务管理员操作,开始任务、提交任务为数据编辑人员操作,开始审核、审核通过、审核驳回为数据审核管理员操作,任务过期为系统自动判断。

在本实施例较佳的实施方式中,所述任务状态与数据状态相互独立,一条人才数据只可以属于一个任务,一个任务可以包含多条人才数据;编辑任务完成后提交时以任务为单位提交,即此任务包含的全部数据,不可部分提交;处理审核时以数据为单位审核,即一条任务的多条数据可以部分审核通过部分驳回,数据编辑人员可在工作台原任务中找到被退回的数据。

在本实施例较佳的实施方式中,所述方法包括:设置提供数据看板,可以全面了解现存数据库的人才总数、数据状态分布、任务状态分布、数据质量分布等,直观了解数据加工进度与数据质量情况。

在本实施例较佳的实施方式中,所述方法包括:在算法执行中使用企业工商数据等第三方权威数据作为参照,并在计算过程中不断优化完善参考数据库,以不断提升算法的准确性和兼容性。

在一些实施方式中,所述方法可应用于控制器,所述电控单元例如为ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Microcontroller Unit)控制器等等。在一些实施方式中,所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其它输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述方法还可应用于服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成。

综上所述,本发明提出一种科技人才数据加工方法,从专利、论文、国家自然基金、大型仪器操作员、重点实验基地、网络百科等多种数据源获取科技人才数据,并对所获取的数据进行标准化、分类、合并、消歧、编辑、审核等数据处理,从而不断优化科技人才数据,建立规范可用的科技人才数据库。本发明利用自然语言处理技术获取不同数据源的共同信息,如身份识别信息,对所获取的科技人才数据进行合并;基于对数据质量的评价,有序地将人才数据进行编辑完善;并使用机器学习算法获取编辑提示信息以供快速获取编辑所需信息,从而快速完成数据编辑,提高数据的加工效率;对合并的数据以及编辑的数据进行审核,客观准确地校验人才加工数据,进一步提高了数据加工的准确度。

实施例二

如图4所示,本发明实施例提供一种科技人才数据加工系统的结构示意图,其包括:数据标准化模块41,获取并标准化处理多个数据源的科技人才数据,以获得标准化科技人才数据;所述科技人才数据包括:身份识别数据和科研成果数据;数据合并模块42,基于所述身份识别数据和所述科研成果数据的业务逻辑,合并所述标准化科技人才数据以获得合并人才数据;编辑与审核模块43,编辑并审核所述合并人才数据,以建立科技人才数据库。

为对本实施例的系统作进一步说明,图5给出一种科技人才加工系统的产品架构示意图,其包括:底层数据层、计算层、数据层、编辑层和应用层。具体的,其中底层数据层的各类数据源的增量数据注入后首先进入计算层,经前文所述的数据加工流程处理后,将增量数据分为:纯增量(未找到与存量数据合并的目标)、确认合并增量、建议合并增量,其中建议合并的增量数据进入待审区,直接进入审核流,而确认合并增量与纯增量进入增量区,等待增量区的数据量积累至一定量或定期同步至科技人才数据库(即存量数据库,包括专利库、论文库、人才库、机构库、基金库、仪器库、科学数据库、基地库、技术交易库、专家人才库等等),并且,增量区的数据未同步至科技人才数据库期间,也可用于后续对新增的增量数据的处理。

如图6所示,本实施例给出一种科技人才加工系统中任务流的状态机示意图。具体的,基于对数据质量的评价结果,可获取待编辑的科技人才数据,从而建立数据编辑任务以对数据进行编辑完善。其中,任务的状态包括:任务未处理、处理中、待审核、已完成、被退回、已关闭、已过期。

需要说明的是,本实施例提供的模块与上文中提供的方法、实施方式类似,故不再赘述。另外需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,数据标准化模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上数据标准化模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

实施例三

本实施例提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述科技人才数据加工方法。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例四

如图7所示,本发明实施例提供一种电子终端的结构示意图。本实施例提供的电子终端,包括:处理器71、存储器72、通信器73;存储器72通过系统总线与处理器71和通信器73连接并完成相互间的通信,存储器72用于存储计算机程序,通信器73用于和其它设备进行通信,处理器71用于运行计算机程序,使电子终端执行如上科技人才数据加工方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其它设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述,本发明提供的科技人才数据加工方法、系统、存储介质及终端,具有以下有益效果:从多个数据源获取科技人才数据并对其进行标准化、合并、编辑等操作,获取准确且完整的科技人才信息,为各企事业单位挖掘所需的科技人才提供了一个良好的平台;利用了自然语言处理技术和机器学习算法对获取的科技人才数据进行处理,实现人才数据的合并和消歧,降低了数据的冗余度,提高了数据的准确性和有效性;基于信息熵对数据进行类别划分,基于科研成果数据的业务逻辑对数据进行精准合并,基于爬虫技术对数据进行补充完善,从而实现科技人才数据的高效加工,不仅大幅度节约了人力成本,而且提高了数据的完整性;通过对合并后数据质量的评价确定需要进行编辑的数据及编辑的优先级,并且提供编辑提示内容,提高了数据加工的质量和效率;对所获得的的科技人才数据的建议合并项以及编辑后的数据进行审核,保障了加工后的科技人才数据的准确性;并且,加工后的数据定时或定量地同步到科技人才数据库,实现科技人才数据的及时更新完善。因此,本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号