首页> 中国专利> 一种基于知识图谱的筛选方法及装置

一种基于知识图谱的筛选方法及装置

摘要

本申请提供一种基于知识图谱的筛选方法及装置,其中,所述基于知识图谱的筛选方法包括:获取目标对象信息;将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区,其中,所述知识图谱中包括多个社区;根据所述目标社区在所述候选对象集合中确定初始候选对象集合;根据所述目标对象信息在所述初始候选对象集合中筛选目标候选对象集合。

著录项

  • 公开/公告号CN113239203A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 北京金山数字娱乐科技有限公司;

    申请/专利号CN202110616193.3

  • 发明设计人 侯昶宇;李长亮;毛璐;

    申请日2021-06-02

  • 分类号G06F16/35(20190101);G06F16/36(20190101);G06F40/295(20200101);G06F40/30(20200101);

  • 代理机构11637 北京智信禾专利代理有限公司;

  • 代理人刘晓楠

  • 地址 100085 北京市海淀区西二旗中路33号院5号楼11层002号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本申请涉及知识图谱技术领域,特别涉及一种基于知识图谱的筛选方法及装置、计算设备和计算机可读存储介质。

背景技术

随着计算机技术的快速发展,许多重要信息被记录在数据库中,方便后续对这些数据的使用。例如在推出某种业务时,会接收到参与业务的客户信息,根据接收到的客户信息创建客户数据库,在推出新相关业务时可以向参与过类似业务的客户推荐。业务推出方在发现一个符合业务推荐要求的目标客户后,会根据目标客户对应的标签,在客户数据库中筛选出与目标客户带有相同标签的客户推荐给业务推出方。

然而现有技术中通过标签的筛选方法并不准确,无法比较信息中隐含语义。并且,在涉及较多领域标签时,标签分布不匀,也会影响最终的筛选结果,导致筛选效果差的问题。

发明内容

有鉴于此,本申请实施例提供了一种基于知识图谱的筛选方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面,提供了一种基于知识图谱的筛选方法,包括:

获取目标对象信息;

将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区,其中,所述知识图谱中包括多个社区;

根据所述目标社区在所述候选对象集合中确定初始候选对象集合;

根据所述目标对象信息在所述初始候选对象集合中筛选目标候选对象集合。

根据本申请实施例的第二方面,提供了一种基于知识图谱的筛选装置,包括:

获取模块,被配置为获取目标对象信息;

添加模块,被配置为将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区,其中,所述知识图谱中包括多个社区;

确定模块,被配置为根据所述目标社区在所述候选对象集合中确定初始候选对象集合;

筛选模块,被配置为根据所述目标对象信息在所述初始候选对象集合中筛选目标候选对象集合。

根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述基于知识图谱的筛选方法的步骤。

根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述基于知识图谱的筛选方法的步骤。

根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该计算机指令被芯片执行时实现所述基于知识图谱的筛选方法的步骤。

本申请基于知识图谱的筛选方法,获取目标对象信息;将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区,其中,所述知识图谱中包括多个社区;根据所述目标社区在所述候选对象集合中确定初始候选对象集合;根据所述目标对象信息在所述初始候选对象集合中筛选目标候选对象集合。

通过在划分社区的知识图谱中确定与目标对象相似的对象作为候选对象,生成初始候选对象集合,通过相似度计算筛选出与实际需求更为符合的目标对象集合,提高了通过知识图谱确定候选对象的效率。结合社区和模型计算对象文本的相似性,不依赖数据的大小及分布形式,具有高迁移性,可以有效挖掘对象文本所包含的隐含信息,并且通过相似度计算可为对象标注更精准的标签,从而更准确的完成筛选。

附图说明

图1是本申请实施例提供的计算设备的结构框图;

图2是本申请实施例提供的基于知识图谱的筛选方法的流程图;

图3是本申请实施例提供的目标对象信息对应目标社区的示意图;

图4是本申请实施例提供的应用于获取相似简历的知识图谱筛选方法的流程图;

图5是本申请实施例提供的人才知识图谱示意图;

图6是本申请实施例提供的社区4示意图;

图7是本申请实施例提供的基于知识图谱的筛选装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先,对本发明一个或多个实施例涉及的名词术语进行解释。

知识图谱(Knowledge Graph):是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。

聚类算法:聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

社区(Community):社区是一个子图,包含节点和边;同一社区内的节点和节点关系很紧密,而社区与社区之间的连接比较稀疏。

社区发现算法(Community Detection):网络中结构紧密的节点的聚类的计算方法。

在本申请中,提供了一种基于知识图谱的简历筛选方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。

计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中,处理器120可以执行图2所示基于知识图谱的筛选方法中的步骤。图2示出了本申请实施例提供的基于知识图谱的筛选方法的流程图,包括步骤202至步骤208。

步骤202:获取目标对象信息。

目标对象可以是参与同种业务的对象,例如参与了同一种保险业务的客户、参与了相同评选的学校或向同一岗位投递的简历等等。

目标对象信息是从目标对象文本中获取的。获取目标对象信息即在参与了同种业务的对象文本中选取符合预设要求的对象文本,在所述符合预设要求的对象文本中获取目标对象信息。

其中,所述预设要求可根据实际情况进行设置。以对象为参与保险业务的客户A和客户B为例,预设要求为客户年龄大于50岁。从客户A的客户资料和客户B的客户资料中选取符合预设要求的对象文本。客户A的客户资料中的年龄为52岁,符合预设要求,则获取客户A的客户资料即目标对象信息。

在实际应用中,获取目标对象信息的步骤为:

获取目标对象文本;

确定所述目标对象文本中的至少一个待识别区域;

识别并提取每个所述待识别区域中的对象信息;

拼接每个所述对象信息,生成目标对象信息。

具体的,目标对象文本可以是包含目标对象信息的文本,例如,个人信息文本、简历、销售清单、学校简介信息等。目标对象信息是从目标对象文本中获取的,故在获取目标对象信息前要先确定目标对象文本,可以采用人工选取等方法确定目标对象文本,在此不做限定。确定目标文本中的区域作为待识别区域,所述待识别区域可以是目标文本中的部分区域或全部区域,待识别区域可以是一个或多个。识别并提取每个待识别区域中的对象信息,并将提取到的对象信息进行拼接,生成目标对象信息。

本申请一具体实施方式中,以获取对象A的对象信息为例,对获取目标对象信息的步骤做进一步的解释说明。本实施例中,获取目标对象A的目标对象文本D。将文本D中的全部区域作为待识别区域,通过OCR文字识别技术识别待识别区域中的文字并提取出来,对所有文字进行拼接处理,生成目标对象A的对象信息,即目标对象信息。

步骤204:将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区,其中,所述知识图谱中包括多个社区。

候选对象集合由候选对象组成,所述候选对象可以是参与了同种业务的对象,例如,候选对象集合为购买过家具A的5个对象构成的集合。提取对象集合中对象的信息,作为构建知识图谱的数据,构建所述知识图谱。

在获取到目标对象信息后,构建知识图谱,知识图谱中包含了多个社区,确定目标对象信息对应的社区作为目标社区。

在实际应用中,将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区的具体步骤为:

将所述目标对象信息存入图数据库中,并更新所述目标对象信息对应的知识图谱,其中,所述知识图谱由候选对象集合构建而成,所述知识图谱根据候选对象信息进行聚类,生成多个社区;

基于所述候选对象聚类结果在所述多个社区中确定所述目标对象信息对应的目标社区。

具体的,知识图谱是根据图数据库中的数据建立的,获取候选对象集合中的候选对象的对象信息导入图数据库中,用于构建知识图谱。将获取到的目标对象信息也添加至图数据库中,构建包含目标对象的知识图谱。通过候选对象聚类将知识图谱划分为多个社区。所述候选对象聚类为基于社区发现算法对知识图谱进行聚类,例如,根据对象信息中的公司、学校等实际需求内容对知识图谱进行聚类。

在社区发现算法中,无法先确定社区的数目,需要一种度量的方式,可以在计算过程中衡量每一个结果是不是相对最佳的结果,这种度量方式就是模块度(Modularity),模块度用来衡量一个社区的划分是不是相对比较好的结果,一个相对好的结果在社区内部的节点相似度较高,而在社区外部的节点的相似度较低。模块度的大小定义为社区内部的总边数和网络中总边数的比例减去一个期望值,该期望值是将网络设定为随机网络时同样的社区分配所形成的社区内部的总边数和网络中总边数的比例的大小,模块度的算法参见下述公式1:

其中,Q表示模块度,模块度越大,则说明社区划分效果越好,Q的范围在[-0.5,1),当Q值在0.3~0.7之间时,说明知识图谱中聚类的效果较好。假设知识图谱中有x个节点,每个节点代表一个输入,并且我们将这些输入划分为N个社区,节点彼此之间共有m个连接,v和w是x中的任意两个节点,A

在聚类得到的多个社区中确定目标对象信息对应的目标社区。例如,将目标对象信息“张三”添加至知识图谱中,知识图谱中包含社区1、社区2和社区3,由于目标对象“张三”处于社区2中,故目标对象信息对应的目标社区为社区2。

步骤206:根据所述目标社区在所述候选对象集合中确定初始候选对象集合。

在多个目标社区中确定了与目标对象信息对应的目标社区,初始候选对象集合是由目标社区中的至少一个对象组成的。

在实际应用中,每个所述社区中对应至少一个对象;根据所述目标社区在所述候选对象集合中确定初始候选对象集合的步骤为:

确定所述目标社区中的对象为初始候选对象,并生成初始候选对象集合。

具体的,目标社区中包含至少一个对象节点,每个对象节点对应一个对象,将目标社区中的对象作为初始候选对象,生成初始候选对象集合。

在本申请一具体实施方式中,参见图3,图3示出了本申请一实施例提供的目标对象信息对应目标社区的示意图,如图3所示,社区Q为目标社区,目标社区中包含4个节点,其中张三为目标对象。除对象张三外,社区Q中包含对象王五、李一和赵四,将对象王五、李一和赵四作为初始候选对象,生成初始候选对象集合。

步骤208:根据所述目标对象信息在所述初始候选对象集合中筛选目标候选对象集合。

目标候选对象为根据目标对象信息在初始候选对象集合中确定的目标候选对象,根据至少一个目标候选对象生成目标候选对象集合。

在实际应用中,根据所述目标对象在所述初始候选对象集合中筛选目标候选对象集合的步骤为:

计算所述目标对象与所述初始候选对象集合中的每个初始候选对象的相似度;

根据所述相似度从所述初始候选对象集合中确定目标候选对象集合。

具体的,初始候选对象集合中包括一个或多个初始候选对象,分别计算目标对象与每个初始候选对象的相似度,依据相似度在初始目标对象集合中确定符合相似度要求的对象作为目标候选对象,构成目标候选对象集合。

在本申请一具体实施方式中,目标对象为A,初始候选对象集合中包含对象B和对象C。分别计算目标对象A与对象B和对象C的相似度,根据相似度确定对象B符合相似度要求,即将对象B作为目标候选对象,构成目标候选对象集合。

在实际应用中,计算所述目标对象与所述初始候选对象集合中的每个初始候选对象的相似度的步骤为:

在所述初始候选对象集合中选取目标初始候选对象;

获取所述目标对象的目标对象信息和所述目标初始候选对象的目标初始候选对象信息;

对所述目标对象信息和所述目标初始候选对象信息分别做嵌入化处理,获得目标对象向量和目标初始候选对象向量;

计算所述目标对象向量与所述目标初始候选对象向量的相似度。

具体的,在初始候选对象集合中确定任意一个初始候选对象作为目标初始候选对象。获取目标对象信息和目标初始候选对象信息,对目标对象信息和目标初始候选对象信息进行嵌入化处理,是将目标对象信息转换为目标对象向量,将所述目标初始候选对象信息转换为目标初始候选对象向量。计算所述目标对象向量与目标初始候选对象向量间的距离,具体的计算方法包括但不限于欧氏距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)、余弦相似度(CosineSimilarity)、皮尔森相关系数(Pearson Correlation Coefficient)。所得距离值为目标对象与目标初始候选对象的相似度。

在本申请一具体实施方式中,初始候选对象集合中包括对象E、对象F和对象G,选取对象E作为目标初始候选对象。获取对象E的对象信息以及目标对象A的对象信息。将对象E的对象信息转换为向量E的形式,将对象A的对象信息转换为向量A的形式。计算向量A与向量E的相似度,即计算向量A与向量E的距离,通过欧氏得距离等算法,得到对象A与对象E的相似度。

具体的,根据相似度确定目标对象候选集合的方法包括但不限于:

根据所述相似度对所述初始候选对象集合中的初始候选对象进行排序,选取预设数量的初始候选对象生成目标候选对象集合;或

从所述初始候选对象集合中选取相似度大于预设阈值的初始候选对象生成目标候选对象集合。

在本申请一具体实施方式中,根据实际需求预设对象数量。根据目标对象与每个初始候选对象的相似度按从大到小的顺序对初始候选对象进行排序,选取预设数量的对象作为目标候选对象,构成目标对象集合。

在本申请另一具体实施方式中,预设相似度阈值。获取目标对象与每个初始候选对象的相似度,将相似度大于预设阈值的对象作为初始候选对象,生成初始候选对象集合。

在实际应用中,计算所述目标对象与所述初始候选对象集合中的每个初始候选对象的相似度的步骤还可以为:

在所述初始候选对象集合中选取目标初始候选对象;

将所述目标对象的目标对象信息和所述目标初始候选对象的目标初始候选对象信息输入至对象相似度模型;

接收所述对象相似度模型输出的所述目标对象与所述目标初始候选对象的相似度。

具体的,在初始候选对象集合中确定任意一个初始候选对象作为目标初始候选对象,将目标初始候选对象与目标对象输入对象相似度模型中。对象相似度模型计算输入模型的两个对象间的相似度,并输出计算得到的相似度值。接收有相似度模型输出的目标初始候选对象与目标对象的相似度。

在本申请一具体实施例中,在初始候选对象集合中选取目标初始候选对象为对象E。将对象E与目标对象A输入对象相似度模型中,计算两个对象间的相似度。对象相似度模型输出相似度。接收对象相似度模型输出的对象A与对象E的相似度,作为两个对象间的相似度。

所述对象相似度模型是通过下述步骤生成的:

获取样本数据和样本标签,其中,所述样本数据包括对象信息对,所述样本标签包括所述对象信息对的对象相似度;

将所述对象信息对输入所述对象相似度模型中;

接收所述对象相似度模型输出的预测相似度;

根据所述预测相似度和所述对象相似度计算损失值;

基于所述损失值对所述对象相似度模型进行迭代训练,直至达到训练停止条件。

具体的,获取两份相似对象文本组成对象信息对,例如,对象信息中的职位均为算法工程师,并标注两个对象的相似度,样本数据包括对象信息对中两个对象的信息,样本标签中包含对象对中两个对象的对象相似度。对象相似度计算模型优选为Bert模型。在训练对象相似度模型的过程中,提取对象文本中的结构化信息输入至对象相似度模型中进行处理,接收对象相似度模型输出的预测相似度。计算所述预测相似度与所述对象相似度的损失值,根据所述损失值对对象相似度模型中的参数进行调整,继续训练直至模型输出的相似度符合要求后停止训练,得到训练完成的对象相似度模型。

通过对象相似度模型计算对象信息的相似度,可以有效挖掘对象文本所包含的隐含信息,从而能更准确全面的推荐相关对象,并且训练得到的相似度模型仅判断文本的相似度,不受领域限制,可以应用于许多领域中计算相似度。

本申请基于知识图谱的筛选方法,通过获取目标对象信息;将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区,其中,所述知识图谱中包括多个社区;根据所述目标社区在所述候选对象集合中确定初始候选对象集合;根据所述目标对象信息在所述初始候选对象集合中筛选目标候选对象集合。通过在划分社区的知识图谱中确定与目标对象相似的对象作为候选对象,生成初始候选对象集合,通过相似度计算筛选出与实际需求更为符合的目标对象集合,提高了通过知识图谱确定候选对象的效率。结合社区和模型计算对象文本的相似性,不依赖数据的大小及分布形式,具有高迁移性,可以有效挖掘对象文本所包含的隐含信息,并且通过相似度计算可为对象标注更精准的标签,从而更准确的完成筛选。

下面以本申请基于知识图谱的筛选方法应用于筛选简历为例,对本申请的方法做进一步的解释说明:

随着企业的发展壮大,会有越来越多求职者向企业投送简历,企业在接收到简历后,会根据简历中的内容为应聘者生成对应的标签,并建立创建企业自己的人才库,在有新的招聘需求的时候会在人才库中寻找符合要求的人才。

在现有的基于人才库推荐简历时,企业的招聘人员有时会发现一个优秀简历,希望通过人才库推荐一些与该简历相似的简历进行比较,此时会根据优秀简历对应的标签在人才库中进行匹配,将具有相同标签的简历筛选出来,这种基于标签的简历筛选方法有时并不准确,例如,仅能通过应聘者写在简历上的内容生成应聘者的标签,无法获得简历内容的隐藏语义,同时,在领域比较多的情况下,需要大量的标注数据为不同领域的应聘者生成对应的标签,标签分布不均,也会影响标签抽取结果,导致在不同领域的筛选时会有较大的出入,简历筛选效果较差。

而本申请基于知识图谱的筛选方法能较好的克服上述缺陷,筛选出利用率较高的相似简历。

图4示出了本申请一实施例的基于知识图谱的筛选方法的流程图,该方法以对筛选与目标简历相似的简历为例进行描述,包括步骤402至步骤418。

步骤402:获取目标简历。

目标简历是根据招聘人员的选择确定的。招聘人员在多份简历中进行选择,确定一份符合预期招聘需求的简历作为目标简历,后续可在人才库中查找与目标简历相似的简历。

在本申请提供的一具体实施例中,招聘人员收到一份简历A,希望在公司的人才库中找到与简历A较为相似的两份简历,此时,简历A即为目标简历。服务器接收所述目标简历A的简历信息。

步骤404:确定所述目标简历的至少一个待识别区域,识别并提取每个所述待识别区域中的简历信息。

具体的,确定目标简历后,确定简历文本中的区域作为待识别区域,其中,待识别区域包括但不限于简历文本的部分区域或整个简历区域。确定待识别区域后,在待识别区域中识别文本信息内容。

在本申请提供的一具体实施例中,目标简历A是PDF格式,在目标简历A中分为几个不同的待识别区域,包括:基本信息区域、工作技能区域、工作经历区域等等。目标简历A经过OCR识别,识别每个待识别区域,并提取每个区域中的文本信息,组成目标简历A的简历信息,例如,目标简历信息中的基本信息区域包括姓名、年龄、学校、学历、证书等,工作技能区域包括沟通、协作等,工作经历区域包括在第一公司实习等。再通过信息抽取技术从所述目标简历A中抽取相关信息组成结构化信息,获取从待识别区域中识别到的简历信息,包括:“姓名”、“张三”,“性别”、“男”,“联系电话”、“130********”,“工作技能”、“沟通”,“工作经历”、“第一公司实习”等。

步骤406:拼接每个简历信息,生成目标简历信息。

具体的,获取从待识别区域中识别到的简历信息,对简历信息进行拼接,生成目标简历信息。

在本申请一具体实施例中,获取从待识别区域中识别到的简历信息,包括:“姓名”、“张三”,“性别”、“男”,“联系电话”、“130********”等,将简历信息进行拼接,生成目标简历信息“姓名:张三;性别:男;联系电话:130********;……”。

步骤408:将所述目标简历信息存入人才图数据库中构建人才知识图谱,所述人才知识图谱根据候选简历聚类生成多个社区。

人才知识图谱是根据候选简历集合创建的。通过识别候选简历集合中的简历信息,获得每篇候选简历对应的结构化简历信息,根据结构化简历信息中的学校、单位、职位、技能等作为实体,构建人才知识图谱,使用图数据库存储简历信息。根据候选简历聚类将人才知识图谱划分为多个社区,每个社区中至少包括一个候选人。

具体的,人才知识图谱是基于人才图数据库中的数据构建的,人才图数据库中的数据是从候选简历集合中候选简历中提取的候选简历信息。在获取到目标简历信息后,将目标简历信息即结构化的目标简历信息也导入人才图数据库中,根据导入结构化目标简历信息的人才图数据库构建人才知识图谱。在构建人才知识图谱的过程中,根据候选简历聚类生成多个社区,每个社区包括至少一个候选人标识。所述候选简历聚类为根据社区发现算法对人才知识图谱通过社区发现进行聚类。

在获得人才知识图谱后,根据社区发现算法对人才知识图谱中的候选人标识进行聚类,更进一步的,根据每个候选人标识对应的学校、单位、技能等信息进行聚类。社区发现(community detection)算法用来发现网络中的社区结构,社区结构是知识图谱网络的一个普遍特征,整个网络是由许多个社区组成的。

在获取到目标简历信息后,将目标简历信息添加到人才知识图谱中,通过上述的模块度计算方法,计算目标简历信息属于人才知识图谱中的哪个社区,并将该社区作为目标社区,在确定目标社区后,将目标简历对应的目标人才标识添加到所述目标社区中。

在本申请一具体实施方式中,参见图5,图5示出了本申请实施例提供的人才知识图谱示意图,如图5所示,人才知识图谱根据模块度进行分类后,包括4个社区,分别为社区1、社区2、社区3和社区4。本实施例中目标简历为简历A,简历A中为候选人张三的简历,将简历A对应的目标简历信息添加到人才知识图谱中,得到包含目标简历信息的人才知识图谱。

步骤410:基于所述候选简历聚类在所述多个社区中确定所述目标简历信息对应的目标社区。

将目标简历信息添加至人才知识图谱中,候选简历聚类将人才知识图谱划分为多个社区。识别目标简历信息与人才知识图谱中每个社区中的简历进行对比,根据目标简历信息与目标社区中的简历信息匹配,确定目标简历信息对应的目标社区。

在本申请一具体实施方式中,沿用上例,经过模块度计算,确定目标简历信息属于社区4,则确定社区4为目标社区。

步骤412:确定所述目标社区中的候选人为初始候选人,获取每个所述初始候选人的简历,组成初始候选简历集合。

在人才知识图谱的目标社区中包括多个对应的候选人标识,每个候选人标识对应各自的候选简历。

基于模块度对人才知识图谱中的候选人标识进行聚类,得到多个社区,同一社区下的人才标识具有相似的简历信息,例如技能相似、职位相似、学校相似等等。

因此在确定目标社区后,将目标社区对应的人才标识确定为初始候选人标识,将每个初始候选人标识对应的简历组成初始候选简历集合。

在本申请一具体实施方式中,沿用上例,参见图6,图6示出了本申请一实施例提供的图6为本申请实施例提供的社区4示意图,对确定初始候选简历集合的步骤做进一步解释说明。社区4中包含多个候选人,根据候选人张三处于社区4中,将社区4中所有的候选人作为初始候选人,例如王五、李一、赵四等,作为初始候选人。获取每个初始候选人的简历,组成初始候选简历集合。

步骤414:在所述初始候选简历集合中选取目标初始候选简历,将所述目标简历和所述目标初始候选简历输入至简历相似度模型。

具体的,在初始候选简历集合中任意选取一个初始候选简历作为目标初始候选简历。将目标简历与所述目标初始候选简历输入至简历相似度模型。

在本申请一具体实施方式中,目标简历为简历A,初始候选简历集合中包含简历G、简历K、简历M……。在初始候选简历集合中选择简历K作为目标初始候选简历与目标简历A一同输入至简历相似度模型。

本实施例中所述简历相似度模型的训练模型的方法为:

获取样本数据和样本标签,样本数据为两份简历构成的简历对,样本标签为样本数据简历对中两份简历的相似度。将所述简历对输入未训练的简历相似度模型中;接收所述简历相似度模型输出的预测相似度;根据所述预测相似度和所述简历相似度计算损失值;基于所述损失值对所述简历相似度模型进行迭代训练,直至达到训练停止条件后,得到训练完成的简历相似度模型。

步骤416:接收所述简历相似度模型输出的所述目标简历与所述目标初始候选简历的相似度。

沿用上例,将简历A与简历K输入简历相似度模型中,接收简历相似度模型输出的简历A与简历K的相似度。

将简历A与初始候选简历集合中的其他简历,例如简历M,输入至简历相似度模型中,可接收到简历A与初始简历集合中其他简历的相似度。

步骤418:根据所述相似度对所述初始候选简历集合中的初始候选简历进行排序,选取预设数量的初始候选简历生成目标候选简历集合。

按相似度对初始候选简历集合中的简历进行排序,选取预设数量的候选简历作为目标候选简历,生成目标候选简历集合。

在本申请一具体实施例中,通过简历相似度计算模型,分别计算目标简历A与初始候选简历集合中简历G、简历K、简历M等初始候选简历的简历相似度,得到简历A与简历G的相似度为78%、简历A与简历K的相似度为87%、简历A与简历M的相似度为90%等。按相似度由大到小的顺序,将初始候选简历集合中的简历进行排序,选取相似度最高的两个简历作为目标候选简历,组成目标候选简历集合。

本申请一实施例基于知识图谱的筛选方法,获取目标简历;抽取所述目标简历的简历信息,生成目标简历信息;将所述目标简历信息添加至由候选简历集合构建的人才知识图谱中,确定所述目标简历信息对应的目标社区,其中,所述人才知识图谱中包括多个社区;根据所述目标社区在所述候选简历集合中确定初始候选简历集合;根据所述目标简历在所述初始候选简历集合中筛选目标候选简历集合。本申请基于知识图谱的筛选方法基于知识图谱推荐聚类后的简历并结合模型计算相似度,解决了现有筛选方法筛选出的简历利用率较低的问题。使用模型计算简历的相似性,不依赖数据的大小及分布形式,具有高迁移性,可以有效挖掘简历文本所包含的隐含信息,从而更准确的完成筛选。

与上述方法实施例相对应,本申请还提供了基于知识图谱的筛选装置实施例,图7示出了本申请一个实施例的基于知识图谱的筛选装置的结构示意图。如图7所示,该装置包括:

获取模块702,被配置为获取目标对象信息;

添加模块704,被配置为将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区,其中,所述知识图谱中包括多个社区;

确定模块706,被配置为根据所述目标社区在所述候选对象集合中确定初始候选对象集合;

筛选模块708,被配置为根据所述目标对象信息在所述初始候选对象集合中筛选目标候选对象集合。

可选地,所述获取模块702,被配置为:

获取目标对象文本;

确定所述目标对象文本中的至少一个待识别区域;

识别并提取每个所述待识别区域中的对象信息;

拼接每个所述对象信息,生成目标对象信息。

可选地,所述添加模块704,被进一步配置为:

将所述目标对象信息存入图数据库中,并更新所述目标对象信息对应的知识图谱,其中,所述知识图谱由候选对象集合构建而成,所述知识图谱根据候选对象信息进行聚类,生成多个社区;

基于所述候选对象聚类结果在所述多个社区中确定所述目标对象信息对应的目标社区。

可选地,所述确定模块706,被进一步配置为:

每个所述社区中对应至少一个对象;

根据所述目标社区在所述候选对象集合中确定初始候选对象集合,包括:

确定所述目标社区中的对象为初始候选对象,并生成初始候选对象集合。

可选地,所述筛选模块708,被进一步配置为:

计算所述目标对象与所述初始候选对象集合中的每个初始候选对象的相似度;

根据所述相似度从所述初始候选对象集合中确定目标候选对象集合。

可选地,所述筛选模块708,被进一步配置为:

在所述初始候选对象集合中选取目标初始候选对象;

获取所述目标对象的目标对象信息和所述目标初始候选对象的目标初始候选对象信息;

对所述目标对象信息和所述目标初始候选对象信息分别做嵌入化处理,获得目标对象向量和目标初始候选对象向量;

计算所述目标对象向量与所述目标初始候选对象向量的相似度。

可选地,所述筛选模块708,还被配置为:

在所述初始候选对象集合中选取目标初始候选对象;

将所述目标对象的目标对象信息和所述目标初始候选对象的目标初始候选对象信息输入至对象相似度模型;

接收所述对象相似度模型输出的所述目标对象与所述目标初始候选对象的相似度。

可选地,所述筛选模块708,还被配置为:

获取样本数据和样本标签,其中,所述样本数据包括对象信息对,所述样本标签包括所述对象信息对的对象相似度;

将所述对象信息对输入所述对象相似度模型中;

接收所述对象相似度模型输出的预测相似度;

根据所述预测相似度和所述对象相似度计算损失值;

基于所述损失值对所述对象相似度模型进行迭代训练,直至达到训练停止条件。

可选地,所述筛选模块708,被进一步配置为:

根据所述相似度对所述初始候选对象集合中的初始候选对象进行排序,选取预设数量的初始候选对象生成目标候选对象集合;或

从所述初始候选对象集合中选取相似度大于预设阈值的初始候选对象生成目标候选对象集合。

本申请基于知识图谱的筛选装置中包括:获取模块,被配置为获取目标对象信息;添加模块,被配置为将所述目标对象信息添加至由候选对象集合构建的知识图谱中,确定目标对象信息对应的目标社区,其中,所述知识图谱中包括多个社区;确定模块,被配置为根据所述目标社区在所述候选对象集合中确定初始候选对象集合;筛选模块,被配置为根据所述目标对象信息在所述初始候选对象集合中筛选目标候选对象集合。

本申请基于知识图谱的筛选装置,通过在划分社区的知识图谱中确定与目标对象相似的对象作为候选对象,生成初始候选对象集合,通过相似度计算筛选出与实际需求更为符合的目标对象集合,提高了通过知识图谱确定候选对象的效率。结合社区和模型计算对象文本的相似性,不依赖数据的大小及分布形式,具有高迁移性,可以有效挖掘对象文本所包含的隐含信息,并且通过相似度计算可为对象标注更精准的标签,从而更准确的完成筛选。

上述为本实施例的一种基于知识图谱的筛选装置的示意性方案。需要说明的是,该基于知识图谱的筛选装置的技术方案与上述的基于知识图谱的筛选方法的技术方案属于同一构思,基于知识图谱的筛选装置的技术方案未详细描述的细节内容,均可以参见上述基于知识图谱的筛选方法的技术方案的描述。

需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述的基于知识图谱的筛选方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于知识图谱的筛选方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于知识图谱的筛选方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述基于知识图谱的筛选方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于知识图谱的筛选方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于知识图谱的筛选方法的技术方案的描述。

本申请实施例公开了一种芯片,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述基于知识图谱的筛选方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号