首页> 中国专利> 一种智能语义网中本体概念模糊相似度度量方法

一种智能语义网中本体概念模糊相似度度量方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明属于智能语义网中本体概念相似度度量领域，具体涉及一种智能语义网中本体概念模糊相似度度量方法。其包括以下步骤：A.将本体概念扩展成为解释集

著录项

公开/公告号CN102426578A

专利类型发明专利
公开/公告日2012-04-25

原文格式PDF
申请/专利权人华南理工大学;
展开▼

申请/专利号CN201110245928.2
发明设计人刘发贵;肖芬;张杨;
展开▼

申请日2011-08-25
分类号G06F17/30;
代理机构广州粤高专利商标代理有限公司;
代理人何淑珍
地址 510640 广东省广州市天河区五山路381号
入库时间 2023-12-18 04:59:56

法律信息

法律状态公告日

法律状态信息

法律状态
2014-07-02

授权

授权
2012-06-06

实质审查的生效 IPC(主分类):G06F17/30 申请日:20110825

实质审查的生效
2012-04-25

公开

公开

说明书

技术领域

本发明属于智能语义网中本体概念相似度度量领域，具体涉及一种智能语义网中本体概念模糊相似度度量方法。

背景技术

自蒂姆·伯纳斯一李（Tim Berners-Lee）于2000年提出了“语义网（Semantic Web）”的概念后，有关语义网方面的研究与尝试便越来越多。语义网的目标，就是让“机器能够读懂万维网上的内容”。我们之所以能够读懂网页的内容，是因为我们首先共享了对各种词汇约定的意思，然后通过综合推理，得出句子、段落的意义。因此，机器要够理解人的意思，首先必须拥有一份与人类共享的、对词汇的理解的知识。目前人们使用的这份共享的知识，就是本体（ontology）。本体大致可以看成是一系列特定的词汇以及相关的假设或公式，这些假设或公式则是对词汇的解释。简单来讲，计算机科学中的本体，可以看成是概念（词汇）以及概念与概念之间的关系。

呈现于本体库中的概念，是人们用于提高搜索能力的重要工具，例如利用本体描述语言描述服务，提高服务的匹配效果；通过概念在本体库中的相互关系，提高论文检索的查全率和查准率；利用本体概念的综合推理，提高搜索能力。这些都涉及到概念的匹配问题。现有技术中有利用本体概念中的上下位关系（直接父子、直接子父、间接父子关系）把匹配分为Exact, Plug-in, subsume和fail四个等级，这种方法简单，实验结果也证明其较高的查准率，但是当同一等级内的概念较多的时候，无法进行更细致的区别。基于相似度的概念匹配算法通过计算两个本体概念间的相似度（一个介于0到1之间的数值）来获得更精确的匹配结果，相当于将匹配等级扩充到无限等级，从而可以迅速地判断最优匹配概念，很好地解决了区分度的问题。

概念之间的相似度度量通常必须满足以下的一些特性：一、概念的深度：两个概念的共同祖先的深度越深，说明他们共享的特征属性越多，他们的相似度越高；二、同一层概念的边的密度：密度越大，说明这一层分得越细，他们共享的特征也越多，相似度越高；三、相似度是不对称的：当两个概念之间存在父子关系时，考虑到当我们提到父概念时指的是子概念的概率往往大于当我们提到子概念时指的是父概念时的概率，因此，父概念对子概念的相似度要高于子概念对父概念的相似度。

目前基于本体概念相似度的计算主要有两种模型，一种是网络节点距离模型，主要的思想是把本体中的概念看成有向图的结点，概念之间的关系是则是有向图的边，直觉上结点之间的距离越小，他们的相似度就越高。为实现上面提到的三种特性，人们尝试了很多方法来为结点（也就是概念）与结点之间的边赋值（即关系的权重），但是目前还没有哪个公式可以很好地同时满足上述提及的三个特性。另一种模型是信息理论模型，其基本思想是利用两个概念之间的共享信息来反映它们之间的相似度。共享的信息越多，它们的相似度越大，具体实现时一般使用两个概念的最近共同祖先的信息容量来反映两个概念之间的共享信息。这种方法事实上只能解决上述提及的三个特性中的第一个特性—概念的深度，对于第二特性和第三特性则无法满足。另外，基于本体的相似度计算方法为了简化模型，往往把概念的层次结构定义得很分明，形成一棵严格的树形结构，这样模型的概念间相似度将很大程度上依赖于本体的构建，因此并不能很好地满足复杂的现实情况。

发明内容

针对现有技术的缺点，本发明的目的是提供一种能够同时满足概念间相似度的三个特性，并支持复杂本体中子概念出现多个父概念时相似度计算的智能语义网中本体概念模糊相似度度量方法。

为实现上述目的，本发明的技术方案为：

一种智能语义网中本体概念模糊相似度度量方法,包括以下步骤：

A.将本体概念扩展成为解释集，所述解释集包括isA子集、relatedTo子集和nearTo子集；

其具体是，将与所述本体概念相关的本体概念分为三类，第一类本体概念是本体概念本身及所述本体概念以上的祖父概念集，将第一类本体概念存储在isA子集内，第二类本体概念是与所述本体概念有属性关系的本体概念及有属性关系的本体概念以上的祖父概念集，将第二类本体概念存储在relatedTo子集内，第三类本体概念是与该本体概念有同一父节点的兄弟概念集，将第三类本体概念存储在nearTo子集内；所述解释集表示如下：

，

其中、、表示三个子集对解释集的权重，不失合理性，有，且；

B.将本体概念的解释集扩展成模糊解释集，所述模糊解释集包括分别与isA子集、relatedTo子集和nearTo子集相对应的双模糊集vIsA子集、vNearTo子集和vRelatedTo子集；其具体为：

所述模糊解释集表示如下：

；

C.根据所述模糊解释集计算本体概念的相似度；

将概念X、Y分别扩展成为模糊解释集、，其中X包含双模糊子集vIsA(X)、vNextTo(X)及vRelatedTo(X)，Y包含双模糊子集vIsA(Y)、vNextTo(Y)及vRelatedTo(Y)，通过分别计算双模糊子集vIsA(X)与vIsA(Y)的相似度、双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度，结合步骤A所述权重、、，计算得到概念X与概念Y的相似度为：

。

上述方案中，对于本体概念X，其各解释子集isA、nextTo、relatedTo对应的模糊解释子集vIsA、vNextTo、vRelatedTo的计算方式为：

当存在唯一一条路径path，使X通过isA子集的语义路径到达本体的根节点，根节点用THING表示，令该路径为，其中与为isA子集中的概念，用表示概念与之间的isA关系，令，

其中、为在模糊集中的真隶属度和假隶属度，其计算方法如下：

，，

其中表示概念非继承自父概念的属性的数目，表示子概念拥有的父概念的个数，表示父概念所拥有的子概念个数，用于调节、、对置信度的影响，其取值范围在于保证，；

当存在多条路径、…、使X经过isA子集的语义路径到达本体的根节点，令为经过路径的双模糊集，则

；

将本体概念X的兄弟概念集存储在集中，令，si与父概念的isA子集语义关系为，vNextTo对nextTo的双模糊扩展为：

；

将与概念X直接关联的概念存储在集中，vRelatedTo子集将relatedTo子集扩展为：。

上述方案中，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：

在vIsA(X)中添加vIsA(Y)有而vIsA(X)中没有的元素，他们的真隶属度和假隶属度均为0，表示一个空集；在vIsA(Y)中添加vIsA(X)有而vIsA(Y)中没有的元素，同样，他们的真隶属度和假隶属度也均为0，令A= vIsA(X),B= vIsA(Y),则vIsA(X)与vIsA(Y)的相似度=，其中，n为双模糊集元素的个数，，，、分别是vIsA(X)的真隶属函数和假隶属函数，、分别是vIsA(Y)的真隶属函数和假隶属函数，此计算出来的相似度侧重的是支持度的差别，当时有=1；

同理，计算双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度。

上述方案中，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：

A= vIsA(X),B= vIsA(Y),则vIsA(X)与vIsA(Y)的相似度=，其中、分别是A的真隶属函数和假隶属函数，、分别是B的真隶属函数和假隶属函数；

同理，计算双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度。

上述方案中，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：

A= vIsA(X),B= vIsA(Y),则vIsA(X)与vIsA(Y)的相似度=，其中，，、分别是A的真隶属函数和假隶属函数，、分别是B的真隶属函数和假隶属函数；

同理，计算双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度。

上述方案中，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：

A= vIsA(X),B= vIsA(Y),则vIsA(X)与vIsA(Y)的相似度=，、分别是A的真隶属函数和假隶属函数，、分别是B的真隶属函数和假隶属函数；

同理，计算双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度。

上述方案中，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：

A= vIsA(X),B= vIsA(Y),则vIsA(X)与vIsA(Y)的相似度=，其中p是一个参数，，，、分别是A的真隶属函数和假隶属函数，、分别是B的真隶属函数和假隶属函数；

同理，计算双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度。

上述方案中，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：

A= vIsA(X),B= vIsA(Y),则vIsA(X)与vIsA(Y)的相似度=，其中p是一个参数，，，、分别是A的真隶属函数和假隶属函数，、分别是B的真隶属函数和假隶属函数；

同理，计算双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度。

上述方案中，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：：

A= vIsA(X),B= vIsA(Y),则vIsA(X)与vIsA(Y)的相似度=

其中p是一个参数，，，

，，

，，、分别是A的真隶属函数和假隶属函数，、分别是B的真隶属函数和假隶属函数；

同理，计算双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度。

上述方案中，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：

A= vIsA(X),B= vIsA(Y),则vIsA(X)与vIsA(Y)的相似度=，其中p是一个参数，或，，，，，，，，，，，，，，，，，、分别是A的真隶属函数和假隶属函数，、分别是B的真隶属函数和假隶属函数；

同理，计算双模糊子集vNextTo(X)与vNextTo(Y)的相似度、双模糊子集vRelatedTo(X)与vRelatedTo (Y)的相似度。

与现有技术相比，本发明具有如下有益效果：

本发明利用双模糊集的相关理论并结合概念相似度的特性，将本体中的概念扩展成为一个模糊解释集，每一个模糊解释集都是一个带权重的双模糊集，然后再选用合适的双模糊集相似度计算方法来计算代表概念的双模糊集间的相似。本发明能够同时满足概念间相似度的三个特性，并支持复杂本体中子概念出现多个父概念时相似度计算，本发明进行计算时还考虑了子概念非继承于父概念的属性对相似度的影响。

附图说明

图1为本发明的总流程图。

具体实施方式

以下结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供A.将本体概念扩展成为解释集，所述解释集包括isA子集、relatedTo子集和nearTo子集；

，

其中、、表示三个子集对解释集的权重，不失合理性，有，且；

所述模糊解释集表示如下：

；

C.根据所述模糊解释集计算本体概念的相似度；

。

对于本体概念X，其各解释子集isA、nextTo、relatedTo对应的模糊解释子集vIsA、vNextTo、vRelatedTo的计算方式为：

其中、为在模糊集中的真隶属度和假隶属度，其计算方法如下：

，，

当存在多条路径、…、使X经过isA子集的语义路径到达本体的根节点，令为经过路径的双模糊集，则

，

将本体概念X的兄弟概念集存储在集中，令，si与父概念的isA子集语义关系为，vNextTo对nextTo的双模糊扩展为：

；

将与概念X直接关联的概念存储在集中，vRelatedTo子集将relatedTo子集扩展为：。

本发明提供了8种针对本体概念的模糊解释集相似度的计算方式，如下所述：

第1种，所述双模糊子集vIsA(X)与vIsA(Y)的相似度计算方法为：