首页> 中国专利> 基于活动知识图谱的科学工作流图版推送方法及装置

基于活动知识图谱的科学工作流图版推送方法及装置

摘要

本申请提供的基于活动知识图谱的科学工作流图版推送方法及装置,通过基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版,进而通过重用或共用不同科学工作流中不同粒度片段,实现根据其与用户需求的相似性排序,并推荐给用户,以此帮助用户重用或重新开发科学工作流。

著录项

说明书

技术领域

本发明涉及科学工作流技术领域,更具体的,涉及一种基于活动知识图谱的科学工作流图版推送方法及装置。

背景技术

随着Web 2.0技术的发展和日益成熟,分布在因特网中不同节点处的应用程序被包装为Web/REST服务,或混搭接口的形式,并突破平台结构的差异相互调用。在实际应用中,单独的原子服务仅能提供简单且有限的功能,针对复杂的用户需求,则需要通过服务的重用、组合,以实现更加快捷、便利的应用开发模式。

由于Web服务呈指数级增长,动态服务组合面临着巨大的挑战。为了解决此问题,Web服务通过标准的接口集成科学科学工作流。每个接口是一个可运行的程序,并通过高性能计算环境下进行的读写文件实现程序功能。从本质上讲,这些科学科学工作流描述了一个多步骤、重复的执行过程,包括待完成任务所需的Web服务以及这些服务之间的数据连接。现如今,科学家们通过科学科学工作流构建可重构的科学实验。与此同时,在线科学科学工作流数据库的产生促进了科学科学工作流的共享、发现和重用。随着科学科学工作流数据库中的数据越来越丰富,通过科学工作流或部分科学工作流重用和经改造后的复用,可以高效而准确的满足科学工作者的需求。

科学科学工作流(Workflow)以图为其基本实体,具有规模小,但结构复杂的特征,其清晰地描述了科学工作流中各个活动(Activity)之间的相互依赖关系,包括数据依赖关系和控制依赖关系。数据依赖关系是指数据之间的数据流向关系,控制依赖关系是指活动之间没有数据依赖或者数据流动,而在执行上有强制的先后关系。

值得注意的是,针对不同的科学科学工作流需求,其可能与多个科学工作流部分相关,这就意味着它很难被任何单个遗留科学工作流所满足。在这样的情况下,应该通过包含在不同科学工作流中的合适片段,并根据某些原则组装这些跨科学工作流片段来实现这一需求。基于上述描述可知,当前研究中面临的主要挑战是,包含了不同粒度的活动之间跨科学工作流片段很难被发现和实现。

发明内容

为了解决上述不足的至少一个,本申请第一方面实施例提供一种基于活动知识图谱的科学工作流图版推送方法,包括:

获取科学工作流需求图版,所述科学工作流需求图版包括多个活动槽,所有活动槽之间具有固定结构关系,每个活动槽包括活动或者子工作流;所述活动为最小结构单元,所述子工作流包括多个具有固定结构关系的活动;

基于预设的活动知识图谱,获取每个活动槽的候选活动和子工作流集合;所述活动知识图谱包括多个科学工作流;

基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版;

推送所述科学工作流图版。

在某些实施例中,还包括:

建立所述活动知识图谱。

在某些实施例中,所述建立所述活动知识图谱,包括:

提取预存储的科学工作流以及每个活动和子工作流作为命名实体;

抽取各命名实体之间的关系属性;

对各命名实体进行信息补充,提取各命名实体的标题和文本描述;

根据每个命名实体的标题和文本描述,将原始的科学工作流数据转换至基于实体和关系的活动知识图谱。

在某些实施例中,所述科学工作流包括有活动集合、子工作流集合以及边集合,所述边集合包括所有活动和子工作流的结构关系,所述基于预设的活动知识图谱,获取每个活动槽的候选活动和子工作流集合,包括:

确定所述活动知识图谱中各子工作流以及各活动的语义相关性;

获取起始点活动槽和终止点活动槽的候选活动和子工作流集合;

根据起始点活动槽和终止点活动槽的候选活动和子工作流集合,以及所述边集合依次确定其余活动槽的候选活动和子工作流集合。

在某些实施例中,所述确定所述活动知识图谱中各子工作流以及各活动的语义相关性,包括:

将各子工作流和各活动通过第一文档的形式表示,其中所述文档包括对应表示的子工作流或活动的名称和描述信息;

根据所述描述信息获取每个子工作流或活动的代表性单词;

将每个所述代表性单词对应添加到子工作流或活动的名称中组成一个文本片段,其中所有子工作流或活动的名称共同组成第二文档;

将所述第二文档转化为biterm主题模型的输入格式,并输入至所述biterm主题模型;

基于biterm主题模型的原理,将每种代表性单词提取为一个主题单元,并统计每个主题单元的概率;

根据每个主题单元的概率生成所述第二文档的主题比例期望;

根据困惑度、主题相似度平衡biterm主题模型的泛化能力,确定最优主题个数;

针对每种主题,计算所有活动和子工作流下产生该主题的概率平均值;

保留概率平均值不小于设定阈值的主题;其中被保留的主题所对应的所有活动和子工作流具有语义相关性。

在某些实施例中,所述基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流包括:

根据所述候选活动和子工作流集合中的元素计算结构相似度和语义相似度;

根据所述结构相似度和所述语义相似度的比重,对所述候选活动和子工作流集合中的所有活动或子工作流进行相似度排序,得到相似度从高到低的序列;

从所述序列中选取前K个活动或子工作流作为对应活动槽的候选活动或子工作流,K为大于0的正整数。

本申请第二方面实施例提供一种基于活动知识图谱的科学工作流图版推送装置,包括:

科学工作流需求图版获取模块,获取科学工作流需求图版,所述科学工作流需求图版包括多个活动槽,所有活动槽之间具有固定结构关系,每个活动槽包括活动或者子工作流;所述活动为最小结构单元,所述子工作流包括多个具有固定结构关系的活动;

候选活动和子工作流集合获取模块,基于预设的活动知识图谱,获取每个活动槽的候选活动和子工作流集合;

科学工作流图版生成模块,基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版;

推送模块,推送所述科学工作流图版。

在某些实施例中,还包括:

活动知识图谱建立模块,建立所述活动知识图谱。

在某些实施例中,所述活动知识图谱建立模块,包括:

提取单元,提取预存储的科学工作流以及每个活动和子工作流作为命名实体;

抽取单元,抽取各命名实体之间的关系属性;

信息补充单元,对各命名实体进行信息补充,提取各命名实体的标题和文本描述;

活动知识图谱转换单元,根据每个命名实体的标题和文本描述,将原始的科学工作流数据转换至基于实体和关系的活动知识图谱。

在某些实施例中,所述科学工作流包括有活动集合、子工作流集合以及边集合,所述边集合包括所有活动和子工作流的结构关系,所述候选活动和子工作流集合获取模块,包括:

语义相关性确定单元,确定所述活动知识图谱中各子工作流以及各活动的语义相关性;

端点活动槽候选活动和子工作流集合获取单元,获取起始点活动槽和终止点活动槽的候选活动和子工作流集合;

中间活动槽候选活动和子工作流集合获取单元,根据起始点活动槽和终止点活动槽的候选活动和子工作流集合,以及所述边集合依次确定其余活动槽的候选活动和子工作流集合。

在某些实施例中,所述语义相关性确定单元,包括:

第一文档表示单元,将各子工作流和各活动通过第一文档的形式表示,其中所述文档包括对应表示的子工作流或活动的名称和描述信息;

代表性单词获取单元,根据所述描述信息获取每个子工作流或活动的代表性单词;

第二文档表示单元,将每个所述代表性单词对应添加到子工作流或活动的名称中组成一个文本片段,其中所有子工作流或活动的名称共同组成第二文档;

模型输入单元,将所述第二文档转化为biterm主题模型的输入格式,并输入至所述biterm主题模型;

主题概率统计单元,基于biterm主题模型的原理,将每种代表性单词提取为一个主题单元,并统计每个主题单元的概率;

比例期望生成单元,根据每个主题单元的概率生成所述第二文档的主题比例期望;

最优主题个数确定单元,根据困惑度、主题相似度平衡biterm主题模型的泛化能力,确定最优主题个数;

概率平均值生成单元,针对每种主题,计算所有活动和子工作流下产生该主题的概率平均值;

主题保留单元,保留概率平均值不小于设定阈值的主题;其中被保留的主题所对应的所有活动和子工作流具有语义相关性。

在某些实施例中,所述科学工作流图版生成模块,包括:

相似度计算单元,根据所述候选活动和子工作流集合中的元素计算结构相似度和语义相似度;

排序单元,根据所述结构相似度和所述语义相似度的比重,对所述候选活动和子工作流集合中的所有活动或子工作流进行相似度排序,得到相似度从高到低的序列;

候选活动或子工作流选取单元,从所述序列中选取前K个活动或子工作流作为对应活动槽的候选活动或子工作流,K为大于0的正整数。

本申请第三方面实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的基于活动知识图谱的科学工作流图版推送方法的步骤。

本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述的基于活动知识图谱的科学工作流图版推送方法的步骤。

本申请提供的基于活动知识图谱的科学工作流图版推送方法及装置,通过基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版,进而通过重用或共用不同科学工作流中不同粒度片段,实现根据其与用户需求的相似性排序,并推荐给用户,以此帮助用户重用或重新开发科学工作流。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出本申请实施例中基于活动知识图谱的科学工作流图版推送方法流程示意图。

图2示出本申请实施例中科学工作流层次模型的知识图谱片段示意图。

图3示出本申请实施例中满足科学工作流需求图版示意图。

图4示出本申请实施例中基于活动知识图谱的科学工作流图版推送装置结构示意图。

图5示出适于用来实现本申请实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1示出了本申请第一方面实施例中的一种基于活动知识图谱的科学工作流图版推送方法,包括:

S1:获取科学工作流需求图版,所述科学工作流需求图版包括多个活动槽,所有活动槽之间具有固定结构关系,每个活动槽包括活动或者子工作流;所述活动为最小结构单元,所述子工作流包括多个具有固定结构关系的活动;

S2:基于预设的活动知识图谱,获取每个活动槽的候选活动和子工作流集合;所述活动知识图谱包括多个科学工作流;

S3:基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版;

S4:推送所述科学工作流图版。

本申请提供的基于活动知识图谱的科学工作流图版推送方法,通过基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版,进而通过重用或共用不同科学工作流中不同粒度片段,实现根据其与用户需求的相似性排序,并推荐给用户,以此帮助用户重用或重新开发科学工作流。

本申请中,如图2至图3,定义科学工作流(Scientific Workflow):一个科学工作流swf为一个五元组(tl,dsc,SWFsub,ACT,LNK),其中:

tl是swf的标题

dsc是swf的文本描述

SWFsub是一组包含在swf中的子工作流集合

ACT是一组包含在swf中的活动集合

LNK={LNKinv,LNKpch}是一组边集合,其中,LNKinv指的是SWFsub和ACT上平面化调用关系,并且LNKpch指的是SWFsub里面的子工作流和ACT中相应的活动上层次化父子关系。

如上所述,每个子工作流是一个相对粗粒度的活动。在myExperiment存储库中的活动可能是REST/Web服务或混搭接口,并且通常被表示为(1)带好几个关键字的字符串名字和(2)纯文本的描述。一个科学工作流转化为一个层次模型,其中层次化的父子关系在连续层中的活动之间显式地指定。

此外本申请中定义活动知识图谱(Activity Knowledge Graph)为AKG为一个三元组(E,R,S),其中:

E是一组实体的集合,它包括{swf}中的工作流,它们的子工作流和活动。

R是一组关系类型的集合,包括(i)PrtOf指的是一个子工作流或活动属于一个工作流,(ii)Invok指的是子工作流或活动对之间平面化调用关系,和(iii)PrtCld指的是一个子工作流和它相应的活动形成的层次化父子关系。

可以理解,本申请中的结构关系表示上述的子工作流或活动对之间平面化调用关系。

活动知识图谱可以在线或者离线建立,本申请不限于此。

在一些实施例中,建立活动知识图谱的步骤具体包括:

S01:提取预存储的科学工作流以及每个活动和子工作流作为命名实体;

S02:抽取各命名实体之间的关系属性;

S03:对各命名实体进行信息补充,提取各命名实体的标题和文本描述;

S04:根据每个命名实体的标题和文本描述,将原始的科学工作流数据转换至基于实体和关系的活动知识图谱。

具体的,步骤S02中,子工作流或活动属于一个工作流,则它们之间为PrtOf关系;子工作流和活动对之间存在平面化调用过程,则它们之间为Invok关系;子工作流和它相应的活动形成层次化结构,则它们之间为PrtCld关系。根据每个活动槽和其他活动计算主题相似度和文档相似度,打分,排序,得到前K1个候选活动。

步骤S1中,科学工作流需求图版是具有已知工作流模板的图版,即每个活动槽,每个活动槽之间的固定关系以及每个活动槽中的活动或子工作流均为已知的,本申请通过候选活动或者子工作流来重组科学工作需求图版,得到最终的科学工作流图版。

此外,在一些实施例中,步骤S2具体包括:

S21:确定所述活动知识图谱中各子工作流以及各活动的语义相关性;

S22:获取起始点活动槽和终止点活动槽的候选活动和子工作流集合;

S23:根据起始点活动槽和终止点活动槽的候选活动和子工作流集合,以及所述边集合依次确定其余活动槽的候选活动和子工作流集合。

在某些实施例中,步骤S21具体包括:

S211:将各子工作流和各活动通过第一文档的形式表示,其中所述文档包括对应表示的子工作流或活动的名称和描述信息;

S212:根据所述描述信息获取每个子工作流或活动的代表性单词;

S213:将每个所述代表性单词对应添加到子工作流或活动的名称中组成一个文本片段,其中所有子工作流或活动的名称共同组成第二文档;

S214:将所述第二文档转化为biterm主题模型的输入格式,并输入至所述biterm主题模型;

S215:基于biterm主题模型的原理,将每种代表性单词提取为一个主题单元,并统计每个主题单元的概率;

S216:根据每个主题单元的概率生成所述第二文档的主题比例期望;

S217:根据困惑度、主题相似度平衡biterm主题模型的泛化能力,确定最优主题个数;

S218:针对每种主题,计算所有活动和子工作流下产生该主题的概率平均值;

S219:保留概率平均值不小于设定阈值的主题;其中被保留的主题所对应的所有活动和子工作流具有语义相关性。

具体的,主题比例期望是文档的概率分布,表示文档-主题分布矩阵。匹配关系是候选活动之间是否存在需求图中的连接,从图谱上的关系去查询。如果活动之间存在这样可连接的关系,那么就进行下一边的扩展,使片段不断变大。这些索引是指,在开始的时候去活动槽和边都进行了标号,为了方便知道哪些边和活动处理过了。然后从头开始,进行加活动不断扩展图片段结构。首先将活动和子工作流采用短文档的方式表示出来,借助活动和子工作流中具体的名字和描述信息。将描述中的文本单词评估并组合到名字中,以形成活动或子工作流的短文档表示。当描述中的单词与名字中的单词语义上相似,或在描述中经常与名字中单词语义上相似或相等的单词经常一起出现的单词,认为它们为相关的。将每个活动和子工作流的代表性单词挑选并添加到活动和子工作流的名字中,生成短文档。基于短文档的语料库的biterm主题模型(BTM)发现。将短文档被数字化并转化到BTM主题模型的输入需求的格式。根据BTM原理,短文档中的每一个短文本都可以看作是一个单独的文本片段,将每一对不同的词提取为一个biterm,并将这些biterm作为BTM主题模型中主题概率分布的训练数据集。将短文档语料库看作是主题的混合,每个biterm独立地从特定的主题中抽取出来。计算每个短文档生成的biterm的主题比例期望,对活动和子工作流的主题进行推理。根据困惑度、主题相似度来平衡BTM主题模型的泛化能力,从而确定最优主题个数。确定代表性主题。计算针对某一主题中所有活动和子工作流下产生的该主题的概率平均值。设置一个阈值(通常为概率平均值的倍数)来说明这个话题的重要程度。比较主题值与阈值的大小。当主题值不小于这个阈值的情况下,这个主题的概率被保留,并且对某一活动或子工作流来说是代表性的。困惑度,就是利用主题分布,有个计算公式,可以得到一个值。表示语言模型是否能够清晰表达文档含义,有点想区分度的感觉。主题相似度也是一个根据概率分布计算的公式。泛化能力就是指我们训练出的主题模型(也称为语言模型)是否可以适用于所有或大部分文档的区分。

可以理解,本申请所述的活动是最小的结构单元,每一个活动槽都是一个活动节点,该活动节点可以仅仅包括一个活动,也可以是由多个活动封装而成,构成一个子工作流,可以理解,在每个活动槽中,活动和子工作流是唯一的存在,即若活动槽包括仅仅包括一个活动,或者仅仅包括一个子工作流,两者无法并存,同样地,子工作流在某种意义上可以视为具有粗粒度的复杂活动(即由多个活动构成),因此,活动和子工作流在该活动知识图谱中是平等的,子工作流作为一个复杂活动,子工作流和活动均为实现某一子需求,因此,本申请中所述的候选活动和子工作流集合,无论活动槽中仅仅包括一个活动(即仅仅包括一个最小结构单元)或者子工作流,候选的集合既可以是仅仅包括活动的集合,也可以是仅仅包括子工作流的集合,还可以是既包括活动也包括子工作流的集合。

此外,可以理解,本申请中的候选活动和子工作流集合中的结构单元(即活动)在某些实施例中,步骤S3具体包括:

S31:根据所述候选活动和子工作流集合中的元素计算结构相似度和语义相似度;

S32:根据所述结构相似度和所述语义相似度的比重,对所述候选活动和子工作流集合中的所有活动或子工作流进行相似度排序,得到相似度从高到低的序列;在一些实施例中,对主题相似度和文档相似度的结果进行加权,比如α与β,它俩之和是1,例α=0.3,β=0.7.会得到一个最终的值,然后排序。

S33:从所述序列中选取前K个活动或子工作流作为对应活动槽的候选活动或子工作流,K为大于0的正整数。

可以理解,本申请通过借助语义的方式表达工作流及其子工作流和活动之间的结构关系。在科学工作流以及层次模型的基础上,通过定义相关的实体和关系类型,构造出一系列三元组的集合,用来指代规定在实体上的关系。构建的活动知识图谱容纳了工作流中活动之间的平面化调用关系,以及子工作流和相应活动上指定的层次化父子关系。

通过对活动和子工作流中进行关键信息提取,获得相应得到短文档表示方式,借助BTM主题模型,推理出活动和子工作流的主题表示,根据各个主题的重要程度,为活动和子工作流分别选取其代表性主题。另外,根据困惑度和主题相似度等相关度量指标,确定模型的最优主题数目,以促进活动之间相关性的发现。

通过对于某一需求所表示的工作流片段,发现各自活动槽中相应的候选活动或子工作流,借助构建的活动知识图谱,重组候选活动或子工作流之间的关系形成一系列候选跨工作流片段,平衡这些片段与需求之间的结构和语义相似度,并进行评估和推荐。

本申请提供的基于活动知识图谱的科学工作流图版推送,将具有层次结构的科学工作流转化成为知识图谱结构,可视化科学工作流中子工作流和活动之间的关系;基于活动和子工作流的短文档表示形式,利用这些活动和子工作流得到的代表性出题来量化语义相关性,并采用BTM主题模型生成;通过发现存在于不同工作流中的跨工作流片段,这些片段根据平衡它们的结构和语义相似度进行评估和推荐,通过上述方法,实现通过用户需求匹配,进而向用户推荐更大可能性满足需求的可重用或复用的跨工作流片段。

基于相同的发明构思,如图4所示,本申请第二方面实施例提供一种基于活动知识图谱的科学工作流图版推送装置,包括:

科学工作流需求图版获取模块1,获取科学工作流需求图版,所述科学工作流需求图版包括多个活动槽,所有活动槽之间具有固定结构关系,每个活动槽包括活动或者子工作流;所述活动为最小结构单元,所述子工作流包括多个具有固定结构关系的活动;

候选活动和子工作流集合获取模块2,基于预设的活动知识图谱,获取每个活动槽的候选活动和子工作流集合;

科学工作流图版生成模块3,基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版;

推送模块4,推送所述科学工作流图版。

基于相同的发明构思,在某些实施例中,还包括:

活动知识图谱建立模块,建立所述活动知识图谱。

基于相同的发明构思,在某些实施例中,所述活动知识图谱建立模块,包括:

提取单元,提取预存储的科学工作流以及每个活动和子工作流作为命名实体;

抽取单元,抽取各命名实体之间的关系属性;

信息补充单元,对各命名实体进行信息补充,提取各命名实体的标题和文本描述;

活动知识图谱转换单元,根据每个命名实体的标题和文本描述,将原始的科学工作流数据转换至基于实体和关系的活动知识图谱。

基于相同的发明构思,在某些实施例中,所述科学工作流包括有活动集合、子工作流集合以及边集合,所述边集合包括所有活动和子工作流的结构关系,所述候选活动和子工作流集合获取模块,包括:

语义相关性确定单元,确定所述活动知识图谱中各子工作流以及各活动的语义相关性;

端点活动槽候选活动和子工作流集合获取单元,获取起始点活动槽和终止点活动槽的候选活动和子工作流集合;

中间活动槽候选活动和子工作流集合获取单元,根据起始点活动槽和终止点活动槽的候选活动和子工作流集合,以及所述边集合依次确定其余活动槽的候选活动和子工作流集合。

基于相同的发明构思,在某些实施例中,所述语义相关性确定单元,包括:

第一文档表示单元,将各子工作流和各活动通过第一文档的形式表示,其中所述文档包括对应表示的子工作流或活动的名称和描述信息;

代表性单词获取单元,根据所述描述信息获取每个子工作流或活动的代表性单词;

第二文档表示单元,将每个所述代表性单词对应添加到子工作流或活动的名称中组成一个文本片段,其中所有子工作流或活动的名称共同组成第二文档;

模型输入单元,将所述第二文档转化为biterm主题模型的输入格式,并输入至所述biterm主题模型;

主题概率统计单元,基于biterm主题模型的原理,将每种代表性单词提取为一个主题单元,并统计每个主题单元的概率;

比例期望生成单元,根据每个主题单元的概率生成所述第二文档的主题比例期望;

最优主题个数确定单元,根据困惑度、主题相似度平衡biterm主题模型的泛化能力,确定最优主题个数;

概率平均值生成单元,针对每种主题,计算所有活动和子工作流下产生该主题的概率平均值;

主题保留单元,保留概率平均值不小于设定阈值的主题;其中被保留的主题所对应的所有活动和子工作流具有语义相关性。

基于相同的发明构思,在某些实施例中,所述科学工作流图版生成模块,包括:

相似度计算单元,根据所述候选活动和子工作流集合中的元素计算结构相似度和语义相似度;

排序单元,根据所述结构相似度和所述语义相似度的比重,对所述候选活动和子工作流集合中的所有活动或子工作流进行相似度排序,得到相似度从高到低的序列;

候选活动或子工作流选取单元,从所述序列中选取前K个活动或子工作流作为对应活动槽的候选活动或子工作流,K为大于0的正整数。

本申请提供的基于活动知识图谱的科学工作流图版推送装置,通过基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版,进而通过重用或共用不同科学工作流中不同粒度片段,实现根据其与用户需求的相似性排序,并推荐给用户,以此帮助用户重用或重新开发科学工作流。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式,参见图5,所述电子设备具体包括如下内容:

处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604;

其中,所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信;

所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号