公开/公告号CN116226516A
专利类型发明专利
公开/公告日2023-06-06
原文格式PDF
申请/专利权人 北京智谱华章科技有限公司;
申请/专利号CN202211732160.6
申请日2022-12-30
分类号G06F16/9535(2019.01);G06F16/9537(2019.01);G06F16/9035(2019.01);G06F16/906(2019.01);G06F16/903(2019.01);
代理机构北京清亦华知识产权代理事务所(普通合伙) 11201;
代理人张大威
地址 100084 北京市海淀区中关村东路1号院6号楼6层603A
入库时间 2023-06-23 06:30:03
法律状态公告日
法律状态信息
法律状态
2023-06-23
实质审查的生效 IPC(主分类):G06F16/9535 专利申请号:2022117321606 申请日:20221230
实质审查的生效
技术领域
本申请涉及相似人才推荐技术领域,尤其涉及结合时间与学者关系的异构图学者推荐方法和装置。
背景技术
随着网络的飞速发展,学术交流的途径得到了极大的拓展,大大的促进了学术交流的发展。智普AI收集了大量的数据,包括论文,学者,机构等等,组成了一个非常大的学术网络。学术搜索网站本身拥有海量的专家和论文。因此学者推荐人物是一项极为复杂的任务,既要考虑算法的准确性,还要考虑算法的速度。
针对学者推荐任务,目前有很多人研究过。现有的基于时间加权A-T模型的学者相似度计算方法,用于解决在以往的科研人员推荐过程中,忽略了时间对于知识累计和知识创新的影响,学者推荐的精准性不高的问题。现有的基于信任度和研究兴趣的学者推荐方法,首先通过用户在社交网络的交互行为计算用户间的信任度来衡量好友关系的真实强度,然后再利用LDA信任度和研究兴趣相似度进行最终推荐,在学者网数据集上的验证表明,该方法有效提高了学者推荐的效果。
目前的学者推荐方法并没有考虑到时间问题,例如一个学者在一个时期是机器学习领域,在近段时间转行研究数据安全领域。学者推荐应该更结合时间线,更多的推荐为数据安全领域的专家。另外基于机器学习的技术很难捕捉一些特征的高阶建模信息。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种结合时间与学者关系的异构图学者推荐方法,解决了现有推荐方法查找时间长,推荐准确度低技术问题,实现了相似学者的准确推荐。
本申请的第二个目的在于提出一种结合时间与学者关系的异构图学者推荐装置。
为达上述目的,本申请第一方面实施例提出了一种结合时间与学者关系的异构图学者推荐方法,包括:获取专家库数据和待推荐学者信息;根据专家库数据构建数据库,其中,数据库包括所有学者的embedding信息;根据待推荐学者信息在数据库中获取待推荐学者embedding;根据待推荐学者embedding和数据库中的embedding信息对所有学者进行聚类、搜索,获得相似学者;根据相似学者的研究领域和合作者对相似学者进行筛选,得到筛选后的学者;将筛选后的学者和其研究领域作为推荐信息进行推荐。
本申请实施例的结合时间与学者关系的异构图学者推荐方法,通过构建异构网络,获取异构网络节点的embedding,根据embedding相似度进行粗筛,最后结合研究兴趣和论文的合作者信息进行精排,本申请通过两次筛选有效提高了相似学者推荐的准确度。
可选地,在本申请的一个实施例中,在获取专家库数据后,还包括对专家库数据进行清洗,其中,对专家库数据进行清洗,包括:
将作者名字、机构信息、标签信息不规范的学者剔除;
对学者的职位进行统一,并对学者的年龄划分年龄区间;
验证nsfc学科的正确性,删除nsfc学科错误的学者。
可选地,在本申请的一个实施例中,根据专家库数据构建数据库,包括:
根据专家库数据构建异构图,其中,异构图包括作者节点、学者关键词节点、nsfc学科节点、机构信息节点、年龄区间节点,作者节点依次连接学者关键词节点、nsfc学科节点、机构信息节点、年龄区间节点,若某个学者对应的某个数据缺失,则该学者节点不连接指向某个数据节点的边;
对图中节点随机选取元路径,并使用改进的Skip-Gram模型生成embedding,其中,元路径包括学者-关键词-学者,学者-机构-学者,学者-nsfc学科-学者;
将生成的embedding存入数据库中保存。
可选地,在本申请的一个实施例中,根据待推荐学者embedding和数据库中的embedding信息对所有学者进行聚类、搜索,包括:
通过数据库中的embedding信息对所有学者进行初次聚类,提取所有聚类的聚类中心向量;
计算待推荐学者embedding和聚类中心向量的欧式距离,并根据欧氏距离对所有学者进行二次聚类;
提取二次聚类中心的所有向量与待推荐学者embedding进行欧式距离计算,获取若干个相似学者。
可选地,在本申请的一个实施例中,根据相似学者的研究领域和合作者对相似学者进行筛选,得到筛选后的学者,包括:
根据相似学者与待推荐学者研究领域的相似度和合作关系判断相似学者的推荐优先级根据推荐优先级对相似学者进行筛选,得到筛选后的学者。
为达上述目的,本发明第二方面实施例提出了一种结合时间与学者关系的异构图学者推荐装置,包括第一获取模块、构建模块、第二获取模块、第一筛选模块、第二筛选模块、推荐模块,其中,
第一获取模块,用于获取专家库数据和待推荐学者信息;
构建模块,用于根据专家库数据构建数据库,其中,数据库包括所有学者的embedding信息;
第二获取模块,用于根据待推荐学者信息在数据库中获取待推荐学者embedding;
第一筛选模块,用于根据待推荐学者embedding和数据库中的embedding信息对所有学者进行聚类、搜索,获得相似学者;
第二筛选模块,用于根据相似学者的研究领域和合作者对相似学者进行筛选,得到筛选后的学者;
推荐模块,用于将筛选后的学者和其研究领域作为推荐信息进行推荐。
可选地,在本申请的一个实施例中,还包括清洗模块,用于对专家库数据进行清洗,其中,清洗模块,具体用于:
将作者名字、机构信息、标签信息不规范的学者剔除;
对学者的职位进行统一,并对学者的年龄划分年龄区间;
验证nsfc学科的正确性,删除nsfc学科错误的学者。
可选地,在本申请的一个实施例中,构建模块,具体用于:
根据专家库数据构建异构图,其中,异构图包括作者节点、学者关键词节点、nsfc学科节点、机构信息节点、年龄区间节点,作者节点依次连接学者关键词节点、nsfc学科节点、机构信息节点、年龄区间节点,若某个学者对应的某个数据缺失,则该学者节点不连接指向某个数据节点的边;
对图中节点随机选取元路径,并使用改进的Skip-Gram模型生成embedding,其中,元路径包括学者-关键词-学者,学者-机构-学者,学者-nsfc学科-学者;
将生成的embedding存入数据库中保存。
可选地,在本申请的一个实施例中,第一筛选模块,具体用于:
通过数据库中的embedding信息对所有学者进行初次聚类,提取所有聚类的聚类中心向量;
计算待推荐学者embedding和聚类中心向量的欧式距离,并根据欧氏距离对所有学者进行二次聚类;
提取二次聚类中心的所有向量与待推荐学者embedding进行欧式距离计算,获取若干个相似学者。
可选地,在本申请的一个实施例中,推荐模块,具体用于:
根据相似学者与待推荐学者研究领域的相似度和合作关系判断相似学者的推荐优先级根据推荐优先级对相似学者进行筛选,得到筛选后的学者。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种结合时间与学者关系的异构图学者推荐方法的流程示意图;
图2为本申请实施例的结合时间与学者关系的异构图学者推荐系统的流程示意图;
图3为本申请实施例提供的一种结合时间与学者关系的异构图学者推荐装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的结合时间与学者关系的异构图学者推荐方法和装置。
图1为本申请实施例一所提供的一种结合时间与学者关系的异构图学者推荐方法的流程示意图。
如图1所示,该结合时间与学者关系的异构图学者推荐方法包括以下步骤:
步骤101,获取专家库数据和待推荐学者信息;
步骤102,根据专家库数据构建数据库,其中,数据库包括所有学者的embedding信息;
步骤103,根据待推荐学者信息在数据库中获取待推荐学者embedding;
步骤104,根据待推荐学者embedding和数据库中的embedding信息对所有学者进行聚类、搜索,获得相似学者;
步骤105,根据相似学者的研究领域和合作者对相似学者进行筛选,得到筛选后的学者;
步骤106,将筛选后的学者和其研究领域作为推荐信息进行推荐。
本申请实施例的结合时间与学者关系的异构图学者推荐方法,通过构建异构网络,获取异构网络节点的embedding,根据embedding相似度进行粗筛,最后结合研究兴趣和论文的合作者信息进行精排,本申请通过两次筛选有效提高了相似学者推荐的准确度。
可选地,在本申请的一个实施例中,在获取专家库数据后,还包括对专家库数据进行清洗,其中,对专家库数据进行清洗,包括:
将作者名字、机构信息、标签信息不规范的学者剔除;
对学者的职位进行统一,并对学者的年龄划分年龄区间;
验证nsfc学科的正确性,删除nsfc学科错误的学者。
可选地,在本申请的一个实施例中,根据专家库数据构建数据库,包括:
根据专家库数据构建异构图,其中,异构图包括作者节点、学者关键词节点、nsfc学科节点、机构信息节点、年龄区间节点,作者节点依次连接学者关键词节点、nsfc学科节点、机构信息节点、年龄区间节点,若某个学者对应的某个数据缺失,则该学者节点不连接指向某个数据节点的边;
对图中节点随机选取元路径,并使用改进的Skip-Gram模型生成embedding,其中,元路径包括学者-关键词-学者,学者-机构-学者,学者-nsfc学科-学者;
将生成的embedding存入数据库中保存。
可选地,在本申请的一个实施例中,根据待推荐学者embedding和数据库中的embedding信息对所有学者进行聚类、搜索,包括:
通过数据库中的embedding信息对所有学者进行初次聚类,提取所有聚类的聚类中心向量;
计算待推荐学者embedding和聚类中心向量的欧式距离,并根据欧氏距离对所有学者进行二次聚类;
提取二次聚类中心的所有向量与待推荐学者embedding进行欧式距离计算,获取若干个相似学者。
可选地,在本申请的一个实施例中,根据相似学者的研究领域和合作者对相似学者进行筛选,得到筛选后的学者,包括:
根据相似学者与待推荐学者研究领域的相似度和合作关系判断相似学者的推荐优先级根据推荐优先级对相似学者进行筛选,得到筛选后的学者。
下面介绍本申请的结合时间与学者关系的异构图学者推荐系统作为优选实施例,图2为本申请的结合时间与学者关系的异构图学者推荐系统的流程示意图,如图2所示,具体包括:
步骤1:获取专家库数据
本申请通过从网上获取开源数据来得到专家库数据,这些数据相对来说比较脏乱,可能会出现数据缺失,错误数据的情况。例如有的学者没有关键词(学者标签),或者作者名字只有姓氏和名字,更有胜者作者名字为空。因此第一步是要获取专家库数据,并对数据做好清洗,本发明首先通过作者名字是否规范(是否符合长度,是否包含空格)等操作将错误的学者过滤掉,还通过检查学者的机构信息,对与机构太短的必须过滤掉,机构不正确的也必须过滤掉,另外还检查学者的标签信息,对于标签信息不存在的或者不正确的也应该过滤掉等等。对职位的大小写信息统一,放到经过预先训练的分类模型,判断职位的正确性,以免标注错误造成的影响。把年龄划为为年龄区间也用作异构图的节点。最后再验证nsfc学科的正确性,对于错误的nsfc学科进行剔除。
步骤2:构建异构图,获取图embedding
第二步是构建一个异构图,首先是作者节点,依次连接学者关键词,nsfc学科,机构信息,年龄区间,对于缺失数据,例如年龄信息等暂不连接指向年龄区间的边。然后使用metapath2vec思路实现异构图的embedding,对图中节点随机取元路径,再用改进的Skip-Gram模型生成embedding。元路径包括学者-关键词-学者,学者-机构-学者,学者-nsfc学科-学者等。最后将生成好的embedding存入数据库保存。
步骤3:召回N个相似学者
第三步是一个聚类加搜索的过程,聚类的目的是将相似的学者聚在一起,这里聚合方法采用的是kmeans聚类,通过第二步计算得到的embedding信息,对所有学者进行聚类,把相似的学者聚到一起,提取所有的聚类中心向量。输入的学者与所有聚类中心比较,计算学者embedding和聚类中心的欧式距离,对学者进行聚类。提取聚类中心的所有向量与学者embedding再做欧式距离,提取N个相似学者。
步骤4:精排N个相似学者
第四步是对第三步召回的学者进行精排。本申请学者推荐会更加的关注学者近些年的研究兴趣,所以时间是一个很重要的因素,合理使用时间,能更好的提升相似学者推荐的效果。具体做法使提取学者前10年的研究兴趣的数据,以时间的形似加权,时间越靠前,所得权重越大,能有效搜寻到近些年与学者近些年研究领域相近的文章。另外本申请学者推荐也会注重合作者和师生关系的推荐,对于召回的学者,判断是否是合作者或者师生关系,如果是,提高这个学者推荐的优先级,最后根据综合得分输出学者的优先级。
为了实现上述实施例,本申请还提出一种结合时间与学者关系的异构图学者推荐装置。
图3为本申请实施例提供的一种结合时间与学者关系的异构图学者推荐装置的结构示意图。
如图3所示,该结合时间与学者关系的异构图学者推荐装置包括第一获取模块、构建模块、第二获取模块、第一筛选模块、第二筛选模块、推荐模块,其中,
第一获取模块,用于获取专家库数据和待推荐学者信息;
构建模块,用于根据专家库数据构建数据库,其中,数据库包括所有学者的embedding信息;
第二获取模块,用于根据待推荐学者信息在数据库中获取待推荐学者embedding;
第一筛选模块,用于根据待推荐学者embedding和数据库中的embedding信息对所有学者进行聚类、搜索,获得相似学者;
第二筛选模块,用于根据相似学者的研究领域和合作者对相似学者进行筛选,得到筛选后的学者;
推荐模块,用于将筛选后的学者和其研究领域作为推荐信息进行推荐。
可选地,在本申请的一个实施例中,还包括清洗模块,用于对专家库数据进行清洗,其中,清洗模块,具体用于:
将作者名字、机构信息、标签信息不规范的学者剔除;
对学者的职位进行统一,并对学者的年龄划分年龄区间;
验证nsfc学科的正确性,删除nsfc学科错误的学者。
可选地,在本申请的一个实施例中,构建模块,具体用于:
根据专家库数据构建异构图,其中,异构图包括作者节点、学者关键词节点、nsfc学科节点、机构信息节点、年龄区间节点,作者节点依次连接学者关键词节点、nsfc学科节点、机构信息节点、年龄区间节点,若某个学者对应的某个数据缺失,则该学者节点不连接指向某个数据节点的边;
对图中节点随机选取元路径,并使用改进的Skip-Gram模型生成embedding,其中,元路径包括学者-关键词-学者,学者-机构-学者,学者-nsfc学科-学者;
将生成的embedding存入数据库中保存。
可选地,在本申请的一个实施例中,第一筛选模块,具体用于:
通过数据库中的embedding信息对所有学者进行初次聚类,提取所有聚类的聚类中心向量;
计算待推荐学者embedding和聚类中心向量的欧式距离,并根据欧氏距离对所有学者进行二次聚类;
提取二次聚类中心的所有向量与待推荐学者embedding进行欧式距离计算,获取若干个相似学者。
可选地,在本申请的一个实施例中,推荐模块,具体用于:
根据相似学者与待推荐学者研究领域的相似度和合作关系判断相似学者的推荐优先级根据推荐优先级对相似学者进行筛选,得到筛选后的学者。
需要说明的是,前述对结合时间与学者关系的异构图学者推荐方法实施例的解释说明也适用于该实施例的结合时间与学者关系的异构图学者推荐装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技
术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离5散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可
编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
0此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各
个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
5上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了
本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
机译: 基于学者科学研究成果采矿的学者精确定位的方法和装置
机译: 用于测量初学者和初学者之间的相对眨眼的装置
机译: 用于测量初学者和初学者之间的相对眨眼的装置