首页> 中国专利> 一种农业领域概念相似度矩阵生成方法

一种农业领域概念相似度矩阵生成方法

摘要

本发明涉及一种农业领域概念相似度矩阵生成方法,针对农业领域本体概念间相似度加以研究,提出一种基于概念格理论的农业领域本体概念相似矩阵提取建模方法,该方法包括四个步骤:包括S1领域形式背景提取,S2领域概念满值化及S3属性权重提取和S4基于概念格的领域相似度模型计算集成等。本发明可以有效的提高农业领域本体概念合并的准确率,提升融合农业领域本体的质量,对领域内大规模融合农业领域本体,实现农业领域知识的充分共享与复用,实现农业领域知识的充分共享和协同服务。

著录项

  • 公开/公告号CN102236641A

    专利类型发明专利

  • 公开/公告日2011-11-09

    原文格式PDF

  • 申请/专利权人 安徽农业大学;

    申请/专利号CN201110128613.X

  • 申请日2011-05-18

  • 分类号G06F17/27;

  • 代理机构合肥金安专利事务所;

  • 代理人金惠贞

  • 地址 230036 安徽省合肥市蜀山区长江西路130号

  • 入库时间 2023-12-18 03:38:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-04-26

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL201110128613X 申请日:20110518 授权公告日:20150204

    专利权的终止

  • 2015-02-04

    授权

    授权

  • 2013-03-27

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20110518

    实质审查的生效

  • 2011-11-09

    公开

    公开

说明书

技术领域

本发明涉及农业语义网络与知识网格领域,公开了优化本体领域概念间的相似度矩阵的自动生成方法及系统。

背景技术

随着知识的爆炸式发展,知识的表达、共享与交换已成为知识管理系统中亟待解决的瓶颈。本体作为共享的明确规范化概念模型,使得上述问题的解决成为可能。特别是自语义Web提出以来,本体已日渐成为知识工程、知识管理、信息检索和语义Web等多个领域的重要组成部分,并成为人工智能和知识工程领域中一个重要的研究方向,在知识的获取、表示、分析和应用等方面具有深远的意义。

农业领域知识因其应用的广泛性,越来越受到相关学者的重视。农业信息资源因庞杂、分散、异构而呈现出相对孤立和难于满足用户对信息需求的状况,给农业知识的普及带来一定的难度。农业领域本体是一个包含农业术语、定义以及术语间规范关系说明的体系,是农业领域内信息、信息与信息间的相互关系的形式化表达。我国虽然十分重视农业信息与知识工程理论技术的研究,但是还存在农业知识的获取、发现与融聚等相对较困难的问题。因此,研究农业领域本体,建立一个真正意义上的基于本体的共享农业知识库,是促进数字化农业快速发展的有效途径。

随着对领域本体研究与应用的增多,大多数领域本体研究组织面向不同的应用开发出不同的领域本体,本体间存在着较大的差异。尽管这些不尽相同的本体是对同一领域进行描述,但它们是对该领域不同层面的描述,因而不可避免地包含着具有重复的和不匹配的语义信息。主要表现在:一方面,不同本体间缺少必要的联系,造成在同一领域内的本体多样性和冲突性,使得领域内本体间无法进行互操作,即本体异构;另一方面,数量众多的本体存在着不同层次的差异性,包括系统异构、语法异构以及语义异构。最终使得领域内本体间无法进行互操作,大大制约了知识的利用效率。

发明内容

本发明利用概念格理论,将领域本体信息源转变为形式背景,构建基于多层次关系的领域形式背景知识库,优化并改进概念相似度计算模型。

为实现上述目的,本发明的技术方案提出了一种农业领域概念相似度矩阵生成方法,该方法包括以下步骤:

S1. 基于领域本体提取领域形式背景的对象属性列表;

S2. 对所获取的领域形式背景进行单值化、满值化操作;

S3. 获取领域概念属性的权重信息,划分概念层次;

S4. 利用所述层次概念进行概念相似度计算模型的设计,获取领域概念对的相似度矩阵。

所述步骤S1具体包括:

S11. 将领域本体中“概念+属性”作为一对元素,利用本体解析工具包Jena,解析出概念、属性对,形成结果列表;

S12. 按照本体概念转化为背景对象,本体属性转化为背景属性的原则,获取领域形式背景的横维和纵维信息;

S13. 整理领域形式背景的对象-属性关系集,抽取出存在非规范化的关系集;

S14. 判断背景对象(属性)的子对象(属性)是否为空值,如果不是,则作为新的对象(属性)加入对象(属性)列表并转向步骤S13,否则停止。

所述步骤S2具体包括:

S21. 对所形成的领域形式背景信息进行单值化转化,分解包含有多值信息属性列,简化领域背景的关系集;

此处多值属性背景由四元组(G,M,W,I)表示,其中G与M的含义与上述情况保持一致,W为具体的属性值,I是由G、M和W间的三元关系。采用概念缩放的方法,将具体的属性值转化为该概念的每个属性,用以解释相应的属性,其目的是将多元背景值转化为二元背景来表达,利用属性增加的手段来换取关系(对象与属性间的关系)的二元化;

S22. 约简背景关系集,消除其中的冗余信息,简化背景知识的表达;

在不改变原有知识分类能力的前提下,取出若干与原内容不相关或是关联程度不高的属性。将领域间存在依赖关系的关系族划分为非核心属性集和核心属性集。利用形式背景的相似属性集,获取简化后的形式背景相似属性矩阵;

S23. 将包含缺值信息的背景关系集,进行二元化转化,满值化领域背景;

着眼于缺值关系本身,从属性的角度,将其与对象的不确定性关系加以扩展,对缺值的属性按其在不同对象中的不同缺值分别进行扩充,最后得到完整的形式背景;

假设所有的缺值背景都建立在二元的前提下,那么该问题就转化成:如何用一个二元的形式来表达一个三元关系。现将转化机理描述如下: 

若(属性a, 1)值为1:表明该对象与属性a的二元关系为定值;

若(属性a, 1)值为0:

i) 如果(属性a, 1)与(属性a,*)取值相反,表明该对象与属性a的二元关系为缺值;

ii)如果(属性a, 1)与(属性a,*)取值相同,表明该对象与属性a的二元关系为定值,且其二元关系与i) 中情况相反。

所述步骤S3具体包括:

S31. 获取该形式背景所生成的矩阵中对象的个数(对象的秩);

对于形式背景K=(G,M,I),任意的对象g                                                G,则由该形式背景所生成的矩阵中对象g所在行具有m个,相应地表明该对象秩为m,记作r(g)=m;类似地,任意概念的内涵的个数为n,则该概念的秩也为n;

S32. 获取领域背景的属性个数,划分概念层次;

令m=max{ r(g)| gG},若背景的属性|M|>m,对于该背景所生成的所有概念划分为如下层次:

1)初始层L1的概念:(G , );

2) L2的概念:秩为m的概念,所有的r(g)=m的概念均属于此层次;

3) L3的概念:秩为m-1的概念,所有的r(g)=m-1的概念均属于此层次;

4) L4的概念:秩为m-2的概念,所有的r(g)=m-2的概念均属于此层次;

5)依次计算直到某概念的外延为空时,则(,M);

S33. 划分不同层次的节点属性并计算其相应的权值信息;

S34. 通过对概念的秩进行定义和概念对并运算的封闭特征,生成具有层次结构的形式概念。

所述步骤S4体包括:

S41. 初始化蕴含概念的载体(形式背景),根据对象与属性间的关系将其0、1化;

S42. 计算概念对共有的属性特征,并作加和;

S43. 统计上述概念对间属性的总和,作加和;

S44. 给出综合的领域本体概念相似度计算模型;

fRSIM((A1_ ,B1_),(A2_ ,B2_))   =+(1-)

其中Xi=fi(B1_B2_), 表示两者在粗糙概念格第i层的共有属性特征,Yi= fi(B1_B2_)+ fi(B1_ - B2_)+ fi(B2_ - B1_),表示在粗糙概念格第i层两个概念具有的属性特征;Wi为该概念元素所在层的权值,由文献[4]思想(可以适当扩展变成自己的东西),不同层次间定义的权值为1/2i-1,其中i为此概念所在层数;A1_粗糙形式概念(A1,B1)的下近似概念(A1_,B1_)的对象;A2_粗糙形式概念(A2,B2)的下近似概念(A2_,B2_)的对象;B1_粗糙形式概念(A1,B1)的下近似概念(A1_,B1_)的属性;B2_粗糙形式概念(A2,B2)的下近似概念(A2_,B2_)的属性;参数是权重因子,用以调节该模型的准确性。

本发明的技术方案利用带有不同层次权值的属性作为却别不同重要性概念的特征向量,使用概念格理论的形式背景领域知识表示方法,能够较大地提高领域知识的表示准确率,利用改进的领域概念相似度提取模型,降低了无关概念对的发生率,从而使得自动大规模融合领域本体称为可能。

附图说明

图1为领域形式背景规范化获取框架图。

图2为领域概念间相似度矩阵提取过程图。

具体实施方式

以下实施用例用于说明本发明,但不用来限制本发明的范围。

参见图1、图2为本发明领域本体概念相似度矩阵生成系统实施例图,如所示,本实施例的系统包括领域形式背景规范化获取模块以及领域概念间相似度矩阵提取模块,以下将分别进行描述。

1)领域形式背景规范化获取模块

模块作用:将源本体中的概念、属性以及关系等信息转化为可用二元形式背景矩阵表示的单值背景。

a) 形式背景的获取

利用茶学领域本体的概念及其关系信息, 按照本体概念转化为对象,本体属性转化为背景属性的方式,依次判断每个概念节点的父类是否为空,添加至背景中,直至该节点的父类节点为空时,获取完整的背景信息。

算法描述如下

输入:本体信息

输出:能够用来表示形式背景的本体概念

步骤:

Step1:获取概念及其属性

Step2:写入背景,并判断当前节点是否存在子节点

Step3:抽取出子节点属性,并将其压入栈

Step4:判断该节点父类节点是否存在,添加父类信息

Step5:判断是否为空,不为空则返回该节点地址

Step6:若为空,结束。

b) 形式背景的单值化

由本体转化的形式背景由于需要表示领域知识的复杂性、多样性等特点,而背景间对象与属性的关系恰恰是用来表示该知识的主要载体,故形式背景间的对象属性关系集必然存在多值性。本文利用概念缩放模型对存在多值关系的属性加以扩展,再通过增加新属性的名称描述的方式,形成具有单值化的背景关系矩阵。

c) 形式背景的并置

形式背景的并置是实现多个领域本体中对象域相同,而对其描述的属性不同时的连接,因此需要对属性集合进行交集运算,以达到形式背景合并的要求。

d) 背景的满值化

对于并置后形成的领域形式背景不可避免的包括某些对象与属性间关系不确定的概念,造成对于该类概念的描述呈现某种位置的状态,即粗糙形式概念。本文利用背景完备化方法,用二元化来表示三元关系,形成满值化的领域背景。

2)领域概念间相似度矩阵提取模块

模块作用:获取概念属性权重信息,提出概念层次权值抽取算法,提取具有不同层次的概念集,同时将概念两两组合,形成候选集;优化并改进概念相似度计算模型,计算获得相似度关系矩阵。

a) 概念层次权值抽取

概念间相似性距离的远近和该概念节点在Hasse图中所处的节点位置有关,所以本文采用基于属性权重优先的概念层次权值抽取算法,获得具有不同层次的概念集,从而为后期计算概念间相似度提供必要的分类依据。

b) 概念相似度计算

提出概念相似度计算模型,充分考虑概念间所具有的属性特征及其层次性等信息,通过调节领域相似度系数、阈值等参数,计算不同概念对的领域相似度.

由粗糙集理论中对不精确范畴的定义可知,茶学领域知识间概念的依赖性可以用其等价关系来近似表示,而概念间相关性的大小则取决于两者所包含的共有属性特征的多少。若想得出有价值的相似概念对,则需要综合考虑对象以及属性间所共有具有的相似度。由此,我们可设计出基于粗糙概念格相似度的茶学领域概念对相似度提取算法:

① 输入概念层次信息权值Wi以及权重因子;

② 选取概念集合中的任意概念对Ci,Cj;

③ 初始化蕴含概念的载体(形式背景),根据对象与属性间的关系将其0、1化;

④ 计算概念对共有的属性特征,并作加和Xi;

⑤ 统计上述概念对间属性的总和,作加和Yi;

⑥ 利用上述公式计算f (Ci,Cj)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号