首页> 中国专利> 基于语义相似度的地理要素查询扩展方法

基于语义相似度的地理要素查询扩展方法

摘要

本发明涉及一种基于语义相似度的地理要素查询扩展方法,利用地理本体中两个概念节点之间的最短连线距离计算概念的相似度,同时还考虑到节点深度、节点密度影响因子、共有属性比例和公共祖先节点密度等影响因素。此外,充分考虑地理本体区别于一般领域本体的特性-地理概念之间的空间关系,例如:方位关系、拓扑关系、度量关系等,这一重要的影响因子,根据概念间空间关系的不同,赋予它们不同的权值,从而将空间关系对语义相似度的影响进行量化。在充分考虑和选取各种影响因子的基础上,实现基于地理本体语义相似度模型的地理要素查询扩展,能够快速、准确的得到用户查找的信息,改变了单纯的词形匹配的查询方式,提高了查询的效率。

著录项

  • 公开/公告号CN102156726A

    专利类型发明专利

  • 公开/公告日2011-08-17

    原文格式PDF

  • 申请/专利权人 中国测绘科学研究院;

    申请/专利号CN201110081505.1

  • 发明设计人 张福浩;张东;刘纪平;

    申请日2011-04-01

  • 分类号G06F17/30(20060101);

  • 代理机构11344 北京市盈科律师事务所;

  • 代理人刘立国

  • 地址 100830 北京市海淀区莲花池西路28号

  • 入库时间 2023-12-18 03:00:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-05-20

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20131225 终止日期:20140401 申请日:20110401

    专利权的终止

  • 2013-12-25

    授权

    授权

  • 2011-09-28

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110401

    实质审查的生效

  • 2011-08-17

    公开

    公开

说明书

技术领域

本发明属于地球空间信息系统领域,尤其涉及一种基于地理本体语义相似度进行地理要素查询扩展方法。

背景技术

“人类正在被数据淹没,但人类却贫乏于知识。”随着计算机和互联网技术的飞速发展,网络上的信息量急剧增长,面对庞大的信息资源,人们感到无所适从,迷失在Internet这张巨大的信息网中,“信息过载”和“信息迷航”已经成为人们谈论最多的话题之一。面对浩如烟海的信息,信息技术领域的一个热点问题就是如何帮助用户高质量地检索获取真正有用的信息。但是目前实用的信息检索系统,主要是基于人工分类目录和关键词匹配的。前者由于需要手工操作,对海量信息资源的揭示的效率和深度都很有限,后者仅局限在字符形式匹配的层面上,对信息的语义、语用的揭示极为有限,同时多义词、同义词等异构信息的存在使得这种词形匹配方式的缺陷日益明显,因此许多检索系统经常会出现检索不全、答非所问的情况。

而对于约占人类信息80%左右的空间信息来说,由于具有分布性、多样性、异构性的特点,给空间信息的共享和互操作带来了许多不便。同时,限于相关技术的研制与发展,目前空间信息资源的提供者对数据的描述只停留在数据的表面层次上,数据之间缺乏必要的关联,导致计算机无法理解数据的内涵,难以准确地发现满足用户需求的数据,从而直接影响到用户获取信息的速度和效率。

而在传统的地理信息检索方式中,以下问题日益明显:

(1)地理空间信息表现形式的多样性。传统的地理空间信息常以地名或空间坐标数据的形式出现,这是多数人所认可和熟知的。但这两类常见的地理空间信息因为国度、文化、承载介质的不同而表现各异。随着人类对地理信息世界认识的不断深入以及地理空间信息解决方案的不断改进,地理空间信息的表现形式逐渐走向多样化,这为地理空间信息的检索带来了许多挑战。

(2)地理空间信息描述的模糊性。这主要表现在两个方面。一方面是在描述地理空间信息时使用了无法精确定位的名称。另一方面是对地理空间信息的描述存在歧义。如部分不同地区的地名称谓相同、或者地名与方位名相同,这些名称在传统的词形匹配方式信息检索时极易造成混淆,给地理空间信息的检索造成障碍。

(3)传统信息检索主要以关键词词形匹配的方式实现,多义词、同义词等异构信息的存在使得这种词形匹配方式的缺陷日益明显。在传统信息检索基础上发展而来的地理空间属性特征信息的检索同样继承了这个缺陷。

另外,用户在查询需要的地理信息时,往往并不了解数据在数据库中的名称和存储结构,另外人们对世界认知的不同方式,导致对同一地理现象的观察描述会侧重于对象不同的侧面,从而产生观点上的差异,并形成语义异构。即由于用户认知和概念世界中的概念与系统模型中的概念之间存在语义异质性,用户查询出来的数据往往并不是他们真正需要的。这就要求系统能够对用户表达的查询语句进行相似匹配,把满足条件的信息返回给用户,因此可以利用地理本体来建立智能地理信息发现和查询系统以及地理信息服务系统。

所谓地理本体就是,把有关地理科学领域的知识、信息和数据抽象成由一个个具有共识的对象(或实体),并按照一定的关系而组成的体系,同时进行概念化处理和明确的定义,最后以形式化表达的理论与方法。

相似度的计算方法目前有三种途径:一是利用语料库统计的方法,根据两个概念在上下文出现的频率,计算概念间语义相似度;二是利用语义词典如WorNet、HowNet等的同义词或义原组成的树状层次体系结构,通过计算两个概念之间的信息熵或语义距离,计算概念间的语义距离;三是利用本体中两个概念节点之间的语义距离计算概念的相似度。

基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。基于词典的方法简单有效,也比较直观、易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。另外,这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之间的句法和语用特点考虑得比较少。第三类方法虽然对影响概念语义相似度的节点深度、节点密度、属性信息等因素加以考虑,但仅考虑到基本的属性信息,而忽略了地理概念间的空间关系这一影响因子,这恰恰是地理本体中对语义相似度影响最大的因素,因此在计算地理要素相似度方面很难加以应用。

本发明提出的基于语义相似度的地理概念的查询扩展算法在第三类方法的基础上,对影响语义相似度计算的因子进行充分的考虑和取舍,重点考虑空间关系对地理要素语义相似度的影响,最终得到较理想的结果,很好的解决了语义查询扩展这一问题。

发明内容

本发明在分析、评价现有的相似度算法模型的基础上,充分考虑和选取各种影响因子,实现基于地理本体语义相似度模型的地理要素查询扩展,能够快速、准确的得到用户查找的信息,改变了单纯的词形匹配的查询方式,提高了查询的效率。

由此,本发明提供了一种基于地理本体语义的相似度获取方法,包括如下步骤:

(1)从地理信息系统中提取基础地理信息,从中获取描述地理本体所需的各概念以及各概念之间的关系;

(2)将所述各概念以及各概念之间的关系用网络拓扑结构进行描述,使用不同节点来描述不同概念,使用节点之间的连线来描述概念之间的关系;

(3)根据概念节点间不同的空间关系,对概念节点之间的连线进行赋值,对每种不同关系连线赋予不同的权重系数;

(4)查找待分析的两概念节点之间最短路径,根据所述最短路径上各关系连线的不同权重计算获得两概念节点之间的语义距离;

(5)查找待分析的两概念节点所共有的公共祖先节点,计算获得待分析的两概念节点到公共祖先节点的深度;

(6)计算获得待分析的两概念节点的公共祖先节点密度;

(7)计算获得待分析的两概念节点的共有属性比例(主要是空间关系);

(8)通过所述步骤(4)至步骤(7)中获得的两概念节点之间的语义距离、两概念节点到公共祖先节点的深度、两概念节点的公共祖先节点密度、两概念节点的共有属性计算得到带分析的两概念之间的相似度。

在上述技术方案中,在所述步骤(8)中进一步包括分别对两概念节点之间的语义距离、两概念节点到公共祖先节点的深度、两概念节点的公共祖先节点密度、两概念节点的共有属性设置调节参数。

在上述技术方案中,相似度计算公式如下:

Sim(X,Y)=(adistant(X,Y)+a)A*(depth(X)+depth(Y)|depth(X)-depth(Y)|)B*

(parents(X,Y)count)C*(count(Attri(X)IAttri(Y))count(Attri(X)YAttri(Y)))D

其中,X、Y表示进行相似度计算的两个概念;

表示语义距离对相似度的影响、式中a为可调节参数;

表示有向边深度对相似度的影响;

表示共同祖先个数对相似度的影响;

表示概念节点属性对相似度的影响;

其中,dis tan t(X,Y)为X、Y之间的语义距离,

depth(X)、depth(Y)分别为X、Y的有向边深度;

parents(X,Y)表示X、Y的公共祖先数,count代表包含X、Y节点的分支中节点总个数。

count(Attri(X)I Attri(Y))、count(Attri(X)Y Attri(Y))分别为X和Y的属性交集中属性的个数、X和Y的属性合集中属性的个数。

A、B、C、D为调节参数,分别为语义距离、有向边深度、共同祖先个数、概念节点属性这四部分对相似度的影响因子,并且,调节参数A、B、C、D满足如下关系:

A+B+C+D=1

通过A、B、C、D可调节上述语义距离、有向边深度、共同祖先个数、概念节点属性这四部分对相似度影响的权重大小。

本发明提供了一种使用上述基于地理本体语义的相似度获取方法的地理要素查询扩展方法,其特征在于:除查询用户直接输入的概念外,还查询相关概念,所述相关概念与所述用户直接输入的概念通过所述基于地理本体语义的相似度获取方法所计算得到的相似度大于所设定的阈值。

在上述技术方案中,所述相关概念的查询结果根据计算得到的相似度进行排序,相似度高的相关概念的查询结果排序靠前。

本发明取得了以下技术效果:

(1)能够快速高效地得到用户想要的信息。通过语义层次上的查询扩展,提高了查询关键词之间的语义关联性,使查询结果更加准确、相关。

(2)简单实用。不依赖于大规模语料库,依赖性降低。

(3)推动搜索引擎技术特别是地理要素搜索技术的进一步发展。通过分析现有算法、模型的不足,做出相应的改进,并应用到实际中,使得现有的技术能够更加的完善,符合实际应用的要求。

附图说明

图1为获取的地理本体的结构图;

图2为语义距离示例图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及具体实施方式对本发明作进一步的详细描述。

本发明在充分总结上述现有的查询扩展方法存在的不足的基础上,利用地理本体的层次化结构及本体概念之间明确的语义关联关系,提出了一种基于地理本体语义相似度模型的地理要素查询扩展方法。该方法在基于语义距离相似度计算模型的基础上,充分考虑本体层次结构中节点的深度、节点的密度、地理本体中不同的语义关系(主要考虑地理要素的拓扑关系和方位关系,如In、Disjoint、Touch、Overlap、Equal等)、节点间的属性以及公共祖先节点密度对子节点的影响程度等影响因子,实现基于地理本体语义相似度的地理要素查询扩展功能,并解决了如下技术问题:

(1)解决语义异构查询拓展问题

(2)降低查询扩展的复杂程度

(3)摆脱查询扩展中对大规模语料库的依赖

(4)使查询扩展结果更加准确有效

为解决以上技术问题所实际采用的技术方案如下:

步骤1:获取地理本体中各概念及概念间的语义关系

从现有的基础地理数据库中提取基础地理信息,从中获取地理本体所需概念以及概念之间的语义关系(主要是空间关系),主要包括地名、行政区划、交通、地貌、水系等,以及他们之间的归属、邻接、穿越、方位关系以及度量等信息。

在基于地理信息系统(GIS)的基础地理数据库中存储着多种比例尺的行政区划、地貌、水系、居民地、交通、地名等基础地理信息,具有较高的领域相关度和丰富的数据信息,很大程度上能够保证地理本体关系表达的准确性。而基础地理数据库模型与地理本体模型之间存在一定的联系。基础地理数据库中含多个数据表,表与表之间存在一对一、一对多、多对多的关系,每一个数据表由多个字段构成,字段的取值称为记录;在地理本体中包含多个类,类与类之间存在一定的关系,每个类都有多个属性,属性值的集合就是实例。而利用基础地理数据库数据模型与地理本体模型之间存在的形式化对应关系,通过定义映射规则,得到基础地理本体。

本发明所提取的地理本体的结构如图1所示,提取方法如下:

1)根据基础地理数据库中的数据信息,提取地理要素以及地理要素之间的空间关系。

提取空间关系的具体方法如下:

(I)拓扑关系的提取

①点要素与其它要素间的拓扑关系:

通过计算点要素与其他要素之间的距离获取它们之间的拓扑关系。

②线要素间的空间拓扑关系:

若两线要素具有相同节点,则他们具有邻接(touch)关系,否则通过计算两线要素间的距离来判定它们的拓扑关系。

③线要素与面要素间的空间拓扑关系:

通过线要素的两个端点与面要素间关系进行确定,当两端点均位于面要素内时,线要素与面要素间存在归属(in)关系;若只有一个端点位于面要素内,则线要素与面要素存在重叠(overlap)关系;否则,线要素与面要素间的不相交(disjoint)关系。

④面要素间的空间拓扑关系:

面要素间的空间拓扑关系,可通过构成面的边界线间的关系进行判定。当一而要素的边界线与另一面要素的关系为归属(in),则面要素间存在归属(in)关系;当面要素的边界线存在重叠(overlap)关系时,可判定面要素间关系为重叠(overlap);当面要素的边界线相同时,面要素间存在等同(equal)关系;当面要素有公共边界线时,面要素间存在邻接(Touch)关系;否则,面要素间关系为不相交(disjoint)。

(II)方位关系的提取

借鉴八方向锥形模型中所定义的八方向对空间方向进行划分,每个方向对应相应的角度值区间;在基础地理数据库中,多边形是以弧段为基本单元来存储的,每条弧段有且仅有两个多边形所公共。根据多边形上弧段的首、尾结点坐标可以求得该弧段对应弦的倾斜角α;将α与所定义得空间方位角作比对,从而判断该弧段相对应的空间方向,进而得到由弧段构成的多边形之间的方位关系。

通过上述步骤将基础地理数据库中使用以拓扑关系为基础的数据模型所描述的难以表达复杂的地理实体数据转换为了易于按照人的思维方式理解的基于目标的地理空间概念模型数据。

2)根据上文提取的地理要素和地理要素之间的关系,通过GIS空间概念模型转换为概念及概念间的关系,建立从基础地理数据库到地理本体的映射规则。

(I)对基础地理数据库中的数据表进行分析,将表名拟定为应用领域所涉及的概念,选出其中关键性的概念以尽可能精简的表达应用领域的地理空间信息。概念之间可以参考基础地理信息分类来确定它们的层次关系,最后将选出的概念映射为地理本体的类或子类。

为方便在不同系统之间进行数据交换,使用通用的网络本体语言OWL(Web Ontology Language)对相关概念进行描述。

①数据表T的描述如下:

<owl:Class rdf:ID=TName/>;

其表示使用资源描述框架(RDF)描述的“类”来表达概念,其ID为TName。

②多个数据表T1、T2,及其之间关系,如存在“等价”关系,描述如下:

其表示T1Name与T2Name等价。

(II)将基础地理信息数据表中存储的描述地理数据属性信息和空间信息的字段映射为地理本体概念的属性:

①数据表T中包含属性信息的字段F映射为地理本体的数据类型属性:

②将数据表T中包含空间信息的字段F映射为地理本体的对象类型属性:

③通过外键字段F相关联的两个数据表T1、T2,将字段F映射为地理本体的对象类型属性:

基础地理数据库到地理本体的模式转换完成后,将基础地理数据库的地理数据转换成相应的地理本体实例,即完成数据转换。

映射规则为:

①将基础地理数据库表中的每一个元组映射为地理本体的一个实例,并且选取元组的主键作为本体实例名。

②将基础地理数据库表中元组的属性数据映射为本体实例的数据类型属性值。

③将基础地理数据库表中元组的空间数据映射为地理本体实例相应对象类型属性值。

通过以上方法,可获得基本的地理本体中的各种概念及概念间的语义层次关系。

步骤2:为地理本体中的各种关系赋值并计算本体层次结构中两概念的语义距离

在地理本体层级结构中,首先根据不同的关系,对地理本体概念间的连接关系赋予不同的权重;然后计算地理本体层次结构中两概念的语义距离,即查看两概念间的最短连线距离,然后根据每条连线的不同权重计算两点间的语义距离。

地理本体中概念之间具有一定的语义关系,如图2所示示例:“中国”和“china”是同一名称的不同的称呼,两者之间为“Equal”关系;北京、上海、山东同属于中国,它们与中国之间存在“In”关系,而他们三者互不相交,是“Disjoint”关系;密云水库流经密云县,与密云县是“Overlap”关系。根据地理本体中各概念之间不同的对应关系,为每种关系赋予权重,如equal关系权重为1,In关系权重为4/5,overlap关系权重为3/4,Disjoint关系权重为1/6等。从而可以通过查找两概念间的最短连线距离,然后根据每条连线的不同权重来计算得到两点间的语义距离。

语义距离的计算方法如下,首先找到地理本体中两概念之间的最短连线距离,如“中国”和“密云水库”之间的最短距离为“中国-北京-密云-密云水库”,若不考虑各边的权重,语义距离为1+1+1=3;而根据每条边对应的权重,得到语义距离为:4/5+4/5+3/4=47/20。在不考虑各边权重时,“上海”与“密云水库”的语义距离也为:1+1+1=3,即“中国”到“密云水库”的语义距离与“上海”到“密云水库”的语义距离相同;在考虑各边权重时,“上海”与“密云水库”的语义距离为:1/6+4/5+3/4=103/60,即“中国”到“密云水库”的语义距离与“上海”到“密云水库”的语义距离不同;明显可知考虑各边权重的算法符合一般用户的认知。

步骤3:根据本体中两个节点的公共祖先节点密度和属性对权重进行调整

将本体中两个节点的公共祖先节点密度作为一个调节因子。因为本体层次网络中的两概念拥有的共同祖先越多越相似;在计算概念间语义相似度时,除了语义距离之外,节点间公共祖先的密度和共有属性,也是影响语义相似度的重要因素,即两概念拥有的共同祖先越多,两概念也就越相似,两概念之间拥有的公共属性越多,那么也说明两结点的关系也就越密切,两概念越相似。因此将公共祖先节点、和相同节点属性作为影响相似度的一部分进行运算。

步骤4:给定一个调节参数,对计算结果进行调节

因为在相似度计算的过程中,各种语义关系的权重都是依据经验进行赋值,得到的结果可能与实际情况不符。因此,我们需要设定一个调节变量,对计算的结果进行调节,从而得到理想值。将图2中有向边两端的概念结点属性作为语义计算中的一个调节因子,因为领域本体层次网络结构中,如果有向边两端的结点对应的概念所拥有的相同属性越多,那么说明两结点的关系也就越密切,由它们构成的有向边的权重也就应该越大;根据以上对语义相似度影响的因素的综合分析,在现有相似度计算公式的基础上,推导出基于本体的予以相似度计算的公式。

其中相似度计算公式如下:

Sim(X,Y)=(adistant(X,Y)+a)A*(depth(X)+depth(Y)|depth(X)-depth(Y)|)B*

(parents(X,Y)count)C*(count(Attri(X)IAttri(Y))count(Attri(X)YAttri(Y)))D

其中,X、Y表示进行相似度计算的两个概念;

表示语义距离对相似度的影响、式中a为可调节参数;

表示有向边深度对相似度的影响;

表示共同祖先个数对相似度的影响;

表示概念节点属性对相似度的影响。

其中,dis tant(X,Y)为X、Y之间的语义距离,

weighti为X、Y间第i条连线的权重,式中n表示X、Y间的最短路径上有n条连线。

其中,depth(X)、depth(Y)分别为X、Y的有向边深度;

式中n为节点X到节点X、Y的最近父节点的最短路径中所包含的边数;

同理,式中n为节点X到节点X、Y的最近父节点的最短路径中所包含的边数。

其中,parents(X,Y)表示X、Y的公共祖先数,count代表包含X、Y节点的分支中节点总个数。

其中,Attri(X)、Attri(Y)分别为X、Y的属性集;

count(Attri(X)IAttri(Y))、count(Attri(X)YAttri(Y))分别为X和Y的属性交集中属性的个数、X和Y的属性合集中属性的个数。

A、B、C、D为调节参数,分别为语义距离、有向边深度、共同祖先个数、概念节点属性这四部分对相似度的影响因子,通过A、B、C、D可调节上述四部分对相似度影响的权重大小。并且,调节参数A、B、C、D满足如下关系:

A+B+C+D=1

通过运用上述公式计算,就可以得到不同地理本体概念之间的相似度。这样当用户需要对某一概念X进行查询时,除返回概念X的信息外,还对概念X进行扩展,即通过上述公式计算概念X与和概念X相邻或相近的概念Y(例如,可遍历与概念X的最短距离的路径上连线个数小于n的概念)的相似度,如果相似度大于设定的阈值,则同时也返回概念Y的信息。同时还可根据计算得到的相似度数据对返回的多个结果进行排序,将相似度最高的结果排在最前面,以方便用户选择。

本发明在实际地理查询检索系统中的使用效果为,当用户在检索界面中输入查询关键字“密云水库”时,根据上文的语义相似度算法实现地理概念查询扩展效果,在搜索结果中列出了五大流域、潮白河流域、蓟运河流域、永定河流域等与密云水库相关联的信息,并得到其与密云水库的语义相似度;通过相似度计算公式得到与密云水库相关的地理要素(即地理本体概念):滦平、昌平区、平谷区、怀柔区。大大扩展了用户查找的范围,提高用户的查全率。

以上具体实施方式仅为本发明的一种实施方式,其描述较为具体和详细,但不能因此而理解为对本发明专利范围的限制,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号