技术领域
本发明一种基于知识网络的知识质量评估方法,用于评估知识网络在特定问题域下的知识质量,属于知识网络评估技术领域。
背景技术
知识网络是指由知识单元和知识关联构成的知识体系,反映了知识单元之间的时空变化关系和逻辑结构关系,知识单元由知识实体和实体属性组成,而知识关联代表着知识实体和实体属性之间的语义关系和计算关系。知识网络作为知识管理实施的重要工具和平台,其应用效果很大程度取决其质量,初始环节获取低质量知识会对最终推理结果产生负面影响,降低其服务质量。因此需要一种有效评估知识质量的方法来有效定位知识网络中质量较低的部分,从而为知识网络的维护,更新和补全提供帮助。
在现有的知识质量评估的方法中,主要可以分为以下三类,一种是定量地评价特定场景下知识质量。第二类则是提出知识质量的评价指标,通过指标来动态加权计算知识质量得分。第三类则是从知识本身结构出发,将整个知识网络作为图来考虑,通过图论的理论和实践方法来进行验证,以此评估整个网络的质量。
本发明根据知识网络的特点,从知识情境,知识内容和知识应用三个维度评估质量,与现有方法相比,本方法将知识网络细化为三个层次,并且结合知识网络求解实际问题的特性,将网络结构划分为属性层,关系层以及问题求解层,通过自上层到下层的评估,迭代和更新形成一个知识评估以及更新的闭环,不断地完善知识网络质量。
发明内容
本发明提供一种基于知识网络层次结构来对特定知识网络进行质量评估的技术,用于评估知识网络对于特定问题域的质量。根据知识网络的特点,从知识情境,知识内容和知识应用三个方面评估知识质量,总体思路是通过计算知识网络和标准数据的相似度来评估质量。针对知识情境,通过计算属性相似度,实体相似度和情境维度相似度,以此综合评估知识网络的知识情境质量。其次,根据知识网络知识内容的特点,分别对属性层和关系层给出具体的知识质量评估方法。对于属性层,通过计算属性名称相似度,属性特征相似度来综合评估属性层质量。对于关系层,通过计算语义关系相似度和计算关系相似度来综合评估关系层的质量。再其次,对于知识应用质量,即问题求解的质量,通过知识网络求解结果和预计结果的相似度来加权得到问题求解层质量。最后,综合知识情境,知识内容和知识应用三个维度的质量得到知识网络的质量。该发明从知识网络的结构出发,从更微观的角度出发评估知识网络质量,从而更易查找到质量较低的网络结构,为后续知识网络的更新和完善提供帮助。与现有方法不同,通过知识情境,知识内容以及知识应用三方面来评估知识质量,把知识网络划分为三个层次,更容易定位知识网络低质量的部分,为后续知识网络的维护,更新和补全提供帮助,通过每层的不断评估以及迭代更新来完善知识网络的质量。
为了实现上述目的,本发明的技术方案如下:一种基于知识网络的知识质量评估方法,包括如下步骤:
第一步:计算知识网络知识情境质量,知识网络知识情境质量是知识网络知识情境和实际问题情境描述相似程度。为了计算知识情境和问题情境的相似度,我们需要先计算知识情境和问题情境对应实体属性以及实体的相似度,在此基础上计算知识情境维度和问题情境对应维度的相似度。
其中属性相似度的计算依据属性描述的不同,可划分为三种:
1)离散取值型,
如果属性是离散的并且不同的值之间不存在关联,那么相似度就可以根据值是否相等取0或1。属性a和属性b的相似度计算公式为:
2)精确取值型,
属性值是唯一确定而且是精确的值,那么相似度可以通过计算属性之间的距离来判断是否相等。其中max和min是指属性值域的最大和最小取值;
3)区间取值型,
区间属性值是指属性取值是一个区间的情况,那么假设属性a取值为[a1,a2],属性b的取值为[b1,b2],maxdistance是指属性取值的最大值和最小值之差的绝对值。
其中,distance(a,b)的计算公式为:
其次,需要计算实体相似度,实体可以看作是属性的集合,所以实体相似度计算本质上还是计算属性相似度。假设知识情境实体为ke={a
w
知识情境维度KD={ke
综合上述公式,可以得出知识情境对问题情境的相似度,由知识情境对于特定问题情境的质量定义得出知识情境KContext对问题情境PContext的相似度,其中权值的分配参照AHP权重分配法。
第二步:评估知识网络知识内容质量,由于知识网络由知识单元和知识关联所组成,我们可以将其划分为属性层,关系层,根据每一层的特点,分别给出具体的质量评估方法。
步骤S1,评估属性层质量,属性质量评估实质是检测知识网络和实际问题中属性的一致程度,包括属性名称语义信度计算,属性值域检验,概念属性层信度计算。
首先对,对于问题P,任取P中的属性a
其次,对属性特征约束相似度进行计算,根据属性形式化定义可知,属性存在多种取值,广义上的属性特征约束相似度表现为知识网络属性值域对问题属性的覆盖程度,计算公式如下:
num(var(a
综合属性语义信度和属性特征相似度计算得出知识网络属性a
QualityDegree(a
对所有元素进行约束信度计算,可以得出属性层质量为:
其中w
步骤S2,计算关系层的知识质量,关系层的知识质量是指检测问题中的每个关系是否和知识网络中相一致,关系层的知识质量评估包括语义关系相似度计算,计算关系相似度计算。
针对问题中的语义关系相似度度,可以进行语义关系分类。关系依据知网词语间关系的分类体系细分为10种,根据具体领域的不同也可以有不同分类,如表1所示:
表1语义关系分类表
针对问题中提取出的关系r={e
1)首先制作一个训练集P={sr
2)对问题的测试关系SR,进行文本预处理,包括去除停用词,分词等。
3)对待分类的语义关系SR,提取其特征词并且计算文本向量各位权重值,计算其和训练集中P中的语义关系的文本相似度,采用余弦距离进行计算,公式如下所示:
4)根据文本相似度降序排序,选出和测试关系SR最相似的K个训练样本。
5)根据k个近邻文本的相似度和类别,计算测试文本属于每个类别的权重,权重最高的类别即测试关系SR所属的语义关系类别。
成功进行关系类别划分后,对于问题中关系pr和知识网络中所有同类型的关系集合KR={kr
针对计算关系,计算关系本身是属性之间的函数计算关系,首先使用JEP对函数关系进行解析,通过带入问题中的输入属性,计算得出问题中计算关系计算结果和知识网络中计算关系计算结果。
结合语义关系相似度和计算关系相似度,关系层质量可以表示为:
第三步:计算知识网络知识应用质量:即评估问题求解质量,就是计算输出的属性和问题目标属性的一致程度,即求解的准确度。计算步骤如下:
1)利用知识网络求解得到输出属性集合KN={s
2)问题目标属性集合为PN={s
3)对于每个属于的属性s
4)得到目标属性s
QualityDegree(s
最终问题求解层的质量为:
第四步:结合知识情境质量,知识内容质量和知识应用质量,加权求和得出知识网络在特定问题领域下的质量为:
QualityDegree(KN)=ω
本发明与现有技术相比,其显著优点:(1)从知识网络的层次结构出发,针对每个层次分别给出了具体的质量评估方法,提出了一种完整的层次化质量评估方法,方便定位知识网络质量较低的部分,为后续知识网络维护,更新和补全提供了帮助。(2)本发明考虑了知识网络面向问题求解的特性,结合知识情境,知识内容和知识应用三个方面评估知识网络的质量,较现有方法更为细粒度。(3)在知识内容评估当中,属性层充分考虑了不同种类属性的质量计算方式,关系层则覆盖到了语义关系和计算关系,使用场景较其他方法更广。(4)考虑领域概念对知识网络的影响,引入知识情境层,结合应用背景对知识网络进行质量评估。
附图说明
图1知识网络质量评估整体示意图;
图2知识网络质量评估流程示意图;
图3情境结构示意图;
图4知识内容质量评估流程;
图5地震救灾知识网络部分示意图。
具体实施方式
为了加深对本发明的认识和理解,下面结合附图和具体实施方式进一步介绍该方案。
实施例1:参见图2、图3,一种基于知识网络的知识质量评估方法,包括如下步骤:
第一步:计算知识网络知识情境质量,知识网络知识情境质量是知识网络知识情境和实际问题情境描述相似程度。为了计算知识情境和问题情境的相似度,我们需要先计算知识情境和问题情境对应实体属性以及实体的相似度,在此基础上计算知识情境维度和问题情境对应维度的相似度。
其中属性相似度的计算依据属性描述的不同,可划分为三种:
1)离散取值型,
如果属性是离散的并且不同的值之间不存在关联,那么相似度就可以根据值是否相等取0或1。属性a和属性b的相似度计算公式为:
2)精确取值型,
属性值是唯一确定而且是精确的值,那么相似度可以通过计算属性之间的距离来判断是否相等。其中max和min是指属性值域的最大和最小取值;
3)区间取值型,
区间属性值是指属性取值是一个区间的情况,那么假设属性a取值为[a1,a2],属性b的取值为[b1,b2],maxdistance是指属性取值的最大值和最小值之差的绝对值;
其中,distance(a,b)的计算公式为:
其次,需要计算实体相似度,实体可以看作是属性的集合,所以实体相似度计算本质上还是计算属性相似度。假设知识情境实体为ke={a
w
知识情境维度KD={ke
综合上述公式,可以得出知识情境对问题情境的相似度,由知识情境对于特定问题情境的质量定义得出知识情境KContext对问题情境PContext的相似度,其中权值的分配参照AHP权重分配法。
第二步:评估知识网络知识内容质量,由于知识网络由知识单元和知识关联所组成,我们可以将其划分为属性层,关系层,根据每一层的特点,分别给出具体的质量评估方法。
步骤S1,评估属性层质量,属性质量评估实质是检测知识网络和实际问题中属性的一致程度,包括属性名称语义信度计算,属性值域检验,概念属性层信度计算。
首先对,对于问题P,任取P中的属性a
其次,对属性特征约束相似度进行计算,根据属性形式化定义可知,属性存在多种取值,广义上的属性特征约束相似度表现为知识网络属性值域对问题属性的覆盖程度,计算公式如下:
num(var(a
综合属性语义信度和属性特征相似度计算得出知识网络属性a
QualityDegree(a
对所有元素进行约束信度计算,可以得出属性层质量为:
其中w
步骤S2,计算关系层的知识质量,关系层的知识质量是指检测问题中的每个关系是否和知识网络中相一致,关系层的知识质量评估包括语义关系相似度计算,计算关系相似度计算。
针对问题中的语义关系相似度度,可以进行语义关系分类。关系依据知网词语间关系的分类体系细分为10种,根据具体领域的不同也可以有不同分类,如表1所示:
表2语义关系分类表
针对问题中提取出的关系r={e
1)首先制作一个训练集P={sr
2)对问题的测试关系SR,进行文本预处理,包括去除停用词,分词等。
3)对待分类的语义关系SR,提取其特征词并且计算文本向量各位权重值,计算其和训练集中P中的语义关系的文本相似度,采用余弦距离进行计算,公式如下所示:
4)根据文本相似度降序排序,选出和测试关系SR最相似的K个训练样本。
5)根据k个近邻文本的相似度和类别,计算测试文本属于每个类别的权重,权重最高的类别即测试关系SR所属的语义关系类别。
成功进行关系类别划分后,对于问题中关系pr和知识网络中所有同类型的关系集合KR={kr
针对计算关系,计算关系本身是属性之间的函数计算关系,首先使用JEP对函数关系进行解析,通过带入问题中的输入属性,计算得出问题中计算关系计算结果和知识网络中计算关系计算结果。
结合语义关系相似度和计算关系相似度,关系层质量可以表示为:
第三步:计算知识网络知识应用质量:即评估问题求解质量,就是计算输出的属性和问题目标属性的一致程度,即求解的准确度。计算步骤如下:
1)利用知识网络求解得到输出属性集合KN={s
2)问题目标属性集合为PN={s
3)对于每个属于的属性s
4)得到目标属性s
QualityDegree(s
最终问题求解层的质量为:
第四步:结合知识情境质量,知识内容质量和知识应用质量,加权求和得出知识网络在特定问题领域下的质量为:
QualityDegree(KN)=ω
具体实施例:参见图2-图5,本发明提供一种基于知识网络层次结构来对特定知识网络进行质量评估的技术,用于评估知识网络对于特定问题域的质量。把知识网络划分为三个层次,更容易定位知识网络中质量较低的部分。
一、体系结构
图2给出了基于知识网络的质量评估流程。下面给出几个主要部分的具体说明。
1属性质量评估部分;
本部分的主要功能是计算问题域模型中的属性和知识网络中属性的匹配程度,分为两个部分,语义相似度计算和特征相似度计算。
针对语义相似度的计算,目前基于语义词典的语义相似度计算技术可以完成这一工作,如基于HOWNET的语义相似度计算,在使用的过程中载入词典中六万多个词汇的语义信息,并且可以基于相关的领域进行进一步的词典拓展。
2关系相似度计算部分;
本部分的主要功能是计算问题域模型中的关系和知识网络中关系的匹配程度,包括语义关系的相似度和计算关系的相似度。
针对语义关系,采用基于k-means分类算法来完成其关系分类工作,在结合头尾实体来判断是否是同一种关系。
针对计算关系相似度,采用JEP技术解析函数关系,通过实际代入计算来判断计算关系的相似度。
3问题求解计算部分
本部分的主要功能是计算知识网络的问题求解输出和问题输出属性标准结果的相似度。
利用知识网络求解问题,主要采用递归算法来求解最终输出。
4问题域模型和知识网络存储
本部分的功能主要是存储问题域模型和知识网络。
目前可以利用图数据库neo4j来完成其工作。
二、具体过程
下面结合附图对本发明作进一步描述。
结合附图2,本发明一种基于知识网络的知识质量评估方法包含如下步骤:
第一步,评估知识情境质量,即计算知识情境和问题情境的质量,知识情境和问题情境的结构如附图3,知识情境由若干个情境维度构成,情境维度由若干个情境要素实体构成,情境要素实体本身是属性的集合。所以计算知识情境和问题情境的相似度需要自底向上以此计算属性相似度,情境要素实体相似度和情境维度的相似度。
第二步,评估知识内容的质量。将知识网络内容划分成属性层和关系层,由于每层特点不同,需要通过不同的方法来评估其质量。知识内容的质量评估流程如附图4:
步骤一:评估属性层质量,通过对属性名称的相似度计算和对属性特征约束相似度计算来综合评估属性层的质量。
步骤二:评估关系层质量,关系层的质量指知识网络中属性间逻辑关系描述是否和问题中逻辑关系描述一致程度,包括语义关系相似度计算和计算关系相似度计算;对于语义关系,首先使用分类算法将得到的关系进行分类,对于相同类别的关系,计算其包含的实体的相似度,最终得到关系相似度。对于计算关系,代入问题的输入属性,通过计算关系求出输出属性,通过和问题中实际输出属性比较得到计算关系的相似度。
步骤三:评估知识内容质量,对属性层和关系层的质量得分进行加权求和,权重参照专家打分法给出。
第三步,评估知识应用质量,需要计算知识应用质量,即问题求解的质量。问题求解质量是检测知识网络推理得到最终输出的属性以及属性值是否满足问题定义的要求,即计算知识网络求解得到的输出属性集合和问题目标属性集合的相似度。
第四步,评估知识网络的知识质量。综合考虑之前评估得到的知识情境质量,知识内容质量以及知识应用质量,加权求和得到知识网络对于特定问题域的质量。
三、实施例
为了方便描述,我们假定有如下简化的应用实例:以地震救灾知识网络为例子,地震救灾知识网络如图5所示。
根据前面提到的计算步骤,依次实施:
第一步,计算知识情境的相似度
以地震救灾情境为例,知识情境重要程度矩阵如下:
求出该矩阵的最大特征值的特征向量并且对其归一化处理后得到权重向量为(0.7516,0.1782,0.0702)。
例举部分属性如下:
分别计算每个维度的相似度,在通过权重加权求和得到知识情境的最终质量为0.77。
第二步,评估属性层质量,首先计算各个属性的语义相似度,如再其次计算各个属性的特征相似度。
属性名称语义相似度计算结果如表2所示,
表2:属性语义相似度计算;
属性特征相似度计算结果如表3所示。
表3:属性特征相似度计算;
最终属性层质量得分为0.714。
第三步,评估关系层质量,分别计算语义关系相似度和计算关系相似度,问题中的计算关系和语义关系如下所示。
语义关系相似度计算,问题中的语义关系:救援,知识网络中的语义关系:救助,通过计算得出它们之间的语义类别相同,头尾实体相同,所以相似度为1.0。
计算关系相似度计算:问题中的计算关系为:受灾地区.灾后保全率=(100-12.5*受灾地区.震级)/100,知识网络中的计算关系为:受灾地区.灾后保全率=(100-12*受灾地区.震级)/100。通过带入问题中的属性震级=8.0,经过JEP解析计算得出问题中计算关系输出结果为:0.125,知识网络中计算关系结果为0.16,计算关系相似度为0.965。
第四步,问题求解层相似度计算实例,问题域模型如下所示:
问题求解过程中得到输出属性集合A,将输出属性集合A中所有属性和问题标准输出(标准答案)进行相似度计算,加权求和得出问题求解层的质量得分为0.9。
最终通过加权求和得出知识网络对于地震救灾问题域的质量得分为0.841。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
机译: KNOWCODEC:一种经过改进的知识网络系统,旨在处理逻辑存储和信息库的连通性,从而实现使用自治节点和多边链接的知识
机译: 一种用于制造芯片部件外部电极的金属粉末的质量评估方法,一种通过质量评估方法制备的用于芯片部件外部电极的金属粉末质量评估,一种使用金属粉末的金属浆料质量评估方法
机译: 基于普适软件平台的分布式知识网络(DKN)和智能传感器网络(ISN)的体系结构