首页> 中国专利> 基于拓扑关系的遥感信息相似度评价方法

基于拓扑关系的遥感信息相似度评价方法

摘要

基于拓扑关系的遥感信息相似度评价方法,包括步骤:S1、基于用户的检索条件确定各元数据项对应的理想解,从而建立理想物元;S2、为备选遥感信息建立备选物元;S3、计算备选物元中各元数据项与理想解的相似度;S4、根据用户检索历史确定各元数据项的权重;S5、根据各元数据项的权重和S3中计算出的各元数据项与对应的理想解的相似度计算备选物元与理想物元的整体相似度。本发明基于拓扑关系构建关联函数,充分考虑了遥感信息特点和用户的需求变化,能够更加准确地刻画在各个元数据项上待返回信息对用户需求的满足程度,保证了最终返回结果的准确性。

著录项

  • 公开/公告号CN105160065A

    专利类型发明专利

  • 公开/公告日2015-12-16

    原文格式PDF

  • 申请/专利权人 成都理工大学;

    申请/专利号CN201510472124.4

  • 申请日2015-08-04

  • 分类号G06F17/50;

  • 代理机构成都行之专利代理事务所(普通合伙);

  • 代理人何筱茂

  • 地址 610000 四川省成都市二仙桥东三路1号

  • 入库时间 2023-12-18 12:59:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-15

    未缴年费专利权终止 IPC(主分类):G06F17/50 专利号:ZL2015104721244 申请日:20150804 授权公告日:20180427

    专利权的终止

  • 2018-04-27

    授权

    授权

  • 2016-01-13

    实质审查的生效 IPC(主分类):G06F17/50 申请日:20150804

    实质审查的生效

  • 2015-12-16

    公开

    公开

说明书

技术领域

本发明涉及影像检索技术领域,具体地,涉及一种基于拓扑关系的遥感信息相似度 评价方法。

背景技术

随着对地观测技术的发展,不同成像方式、不同波段和分辨率的数据并存,遥感信 息日益多元化;遥感信息数据量显著增加,呈指数级增长;数据获取的速度加快,更新周期 缩短,时效性越来越强。

遥感信息的应用也日益深入到国防、测绘、城市管理、农业、林业等多个领域。为 了快速找到所需遥感信息,遥感信息共享平台(遥感信息检索系统)大多提供搜索界面供用 户输入空间范围、时间范围、分辨率范围等搜索条件,返回搜索结果,该搜索结果一般包括 多个备选遥感信息,这些备选遥感信息就代表了将返回给用户的遥感信息。然而,搜索结果 的用户满意度却普遍不高,究其原因在于遥感信息不同于普通的文本数据或网页信息,不仅 具有空间特征、空间关系特征等,还表现为多尺度、多时态特征。因此,面对多源异构的海 量遥感信息时,现有的面向文档的相似度评价与排序方法并不能发挥有效作用。因此提高遥 感信息搜索的用户满意度,需要解决搜索结果与用户需求相似度的定量评价,以便将与用户 需求相似度高的遥感信息优先返回给用户。

发明内容

本发明的目的就在于克服上述现有技术的缺点和不足,提供了一种基于拓扑关系的 遥感信息相似度评价方法,根据用户提出的检索条件建立理想物元,根据用户的检索条件的 检索结果构建对应的备选物元,最后设计关联函数计算出各个备选物元在各个元数据项上的 相似度以及备选物元和理想物元的相似度;本发明能够准确反映遥感信息的特点和用户需 求;根据遥感信息各元数据项的不同特点构建不同的关联函数,并采用不同标准进行评定, 保证了评价结果的准确性。

本发明解决上述问题所采用的技术方案是:

基于拓扑关系的遥感信息相似度评价方法,包括以下步骤:

步骤S1、基于用户的检索条件确定各元数据项对应的理想解,从而建立理想物元;

步骤S2、为系统根据检索条件返回的备选遥感信息建立备选物元;

步骤S3、计算备选物元中各元数据项与对应的理想解的相似度;

步骤S4、根据用户检索历史确定各元数据项的权重;

步骤S5、根据各元数据项的权重和步骤S3中计算出的各元数据项与对应的理想解的相 似度计算备选物元与理想物元的整体相似度;

上述步骤S2与步骤S1没有先后顺序;步骤S4与步骤S1、步骤S2、步骤S3均没有先 后顺序。

上述技术方案基于物元分析法对系统返回的备选物元构建对应的备选物元,根据用 户提出的检索条件建立理想物元,最后设计关联函数计算出备选物元在各个元数据项上与理 想物元的相似度以及备选物元与理想物元的整体相似度;支持系统将相似度最高的备选物元 返回给用户以充分满足用户需求。

作为本发明的进一步改进,步骤S1中,所述理想物元结构如下:

式(1)中,R*代表理想物元,N*表示理想物元对应的遥感信息,Xj表示元数据项,其 中j=1,2,3,...,n,n为元数据项个数;<rj-,rj+>表示Xj的理想解取值范围,其中 j=1,2,3,...,n;

对于每一个Xj,j=1,2,3,...,n,若元数据项Xj是区间数时,rj-=kj-且rj+=kj+,[kj-,kj+] 为元数据项Xj在检索条件中的取值区间;若元数据项Xj是普通实数时,rj-=kj且rj+=kj,kj为元数据项Xj在检索条件中的取值。

作为本发明的又一改进,步骤S2中,系统根据检索条件返回的备选遥感信息至

少为1个,所述备选物元结构如下:

式(2)中,Ai为第i个备选遥感信息,m为备选物元个数;Yi代表备选遥感信息

Ai的备选物元;cj代表元数据项,其中j=1,2,3,...,n,n为元数据项个数;yij为Ai

于Xj的取值范围,其中j=1,2,3,...,n。

优选的,所述备选物元和理想物元均最少具有频谱范围、空间范围、时间范围、空间 分辨率范围4个元数据项;n=4,X1、X2、X3、X4依次为频谱范围、空间范围、时间范围、 空间分辨率范围。本技术方案中,将频谱范围、空间范围、时间范围、空间分辨率范围作为 最基本的元数据项,基本能满足用户的检索需求,用以评价备选物元与理想物元的相似度 时,评价结果能够很好地切合用户需求。

作为本发明的再一改进,步骤S1中,理想物元各元数据项对应的理想解为:

频谱范围的理想解为r1,r1=[r1-,r1+],r1-为理想解频谱的下限,r1+为理想解频谱的上 限;

空间范围的理想解为r2,r2=<[r2long-,r2long+],[r2lat-,r2lat+]>,其中r2long-、r2long+分别 表示理想解经度值的下限与上限,r2lat-、r2lat+分别表示理想解纬度值的下限与上限;

时间范围的理想解为r3,r3=[r3-,r3+],r3-、r3+分别为理想解时间的下限与上限;

空间分辨率范围的理想解为r4,r4=[r4-,r4+],r4-、r4+分别为理想解空间分辨率的下限 与上限。

进一步,步骤S3中计算备选物元中各元数据项与对应的理想解的相似度具体包括以 下步骤:

S31、计算频谱范围与对应的理想解的相似度zi1

其中,zi1代表备选物元Yi在元数据项X1上与理想解r1的相似度,yi1∩r1为yi1与r1的重 叠区间;

S32、计算空间范围与对应的理想解的相似度zi2

其中,zi2代表备选物元Yi的元数据项X2与理想解r2的相似度,area(yi2∩r2)为yi2与r2的重叠区间的椭球面积,area(r2)为r2的椭球面积;

S33、计算时间范围与对应的理想解的相似度zi3

其中,zi3代表备选物元Yi在元数据项X3上与理想解r3的相似度;

S34、计算空间分辨率范围与对应的理想解的相似度zi4

其中,zi4代表备选物元Yi在元数据项X4上与理想解r4的相似度。

进一步,步骤S32中,

r2的椭球面积area(r2)的计算方法如下:

area(r2)=b2×(L12-L11)×[(sinB12+23e2sin3B12+35e4sin5B12+47e6sin7B12)-(sinB11+23e2sin3B11+35e4sin5B11+47e6sin7B11)]---(7),

式(7)中,L11为r2的经度下限,L12为r2的经度上限,B11为r2的纬度下限,B12为 r2的纬度上限,b和e2为椭球元素值;

yi1与r1的重叠区间的椭球面积area(yi2∩r2)的计算方法如下:

area(yi2r2)=b2×(L22-L21)×[(sinB22+23e2sin3B22+35e4sin5B22+47e6sin7B22)-(sinB21+23e2sin3B21+35e4sin5B21+47e6sin7B21)]---(8),

式(8)中,L21为yi2∩r2的经度下限,L22为yi2∩r2的经度上限,B21为yi2∩r2的纬度下限,B22为yi2∩r2的纬度上限,b和e2为椭球元素值。

上述求解各元数据项的相似度的技术方案针对遥感信息元数据项的区间覆盖特征, 基于线与线、面与面以及点与线的拓扑关系,设计了关联函数定量计算相似度,能够较好地 反映各遥感信息在各个元数据项上对用户需求的满足程度,保证了搜索返回结果的准确性。

进一步,步骤S4中根据用户检索历史确定各元数据项的权重的方法为:

步骤41、统计检索次数:

根据检索历史,将用户在过去一段时间内的检索记录分为k组,分别统计每一组内对n 个元数据项的检索次数,形成矩阵B=(bqj)k×n

B=(bqj)k×n=b11b12...b1nb21b22...b2n............bk1bk2...bkn---(9),

式中,bqj表示第q组检索记录中用户对元数据项Xj的检索次数,其中, j=1,2,3,...,n,q=1,2,3,...,k;

步骤42、检索次数标准化处理

利用公式(10)对步骤41的矩阵B中的每一个bqj进行标准化处理:

sqj=bqj-min(bpj)max(bpj)-min(bpj),p=1,2,...,k---(10),

式(10)中sqj为用户第q组检索记录中对元数据项Xj检索次数的标准化值;min(bpj) 和max(bpj)分别为k组检索记录中元数据项Xj被检索出的最小值和最大值;

步骤43、根据式(11)和式(12)计算各元数据项的信息熵:

Hj=-1lnnΣq=1kfqjlnfqj---(11);

fqj=sqjΣq=1ksqj---(12);

步骤44、计算元数据项权重:

令第j个元数据项的权重为wj,则:

wj=1-Hjn-Σj=1nHj---(13).

进一步,步骤S5中根据各元数据项的权重和步骤S3中计算出的各元数据项与对应 的理想解的相似度计算备选物元与理想物元的整体相似度具体为:

ui=Σj=1n(zij×wj)---(14),

ui为第i个备选物元Yi与理想物元的整体相似度,zij表示第i个备选物元Yi中元数据项 Xj的相似度,wj代表元数据项Xj的权重,其中,i=1,2,3,...,m,n为元数据项个数。

综上,本发明的有益效果是:

1、本发明的方法采用物元分析法,根据用户提出的检索条件建立理想物元,对系统返 回的备选遥感信息构建对应的备选物元,最后设计关联函数计算出备选物元在各个元数据项 上与理想物元的相似度以及备选物元与理想物元的整体相似度;支持系统将相似度最高的备 选遥感信息返回给用户,本发明能够准确反映遥感信息的特点和用户需求;

2、本发明针对遥感信息元数据项的区间覆盖特征,基于线与线、面与面以及点与线的 拓扑关系,设计了关联函数定量计算相似度,能够较好地反映各遥感信息在各个元数据项上 对用户需求的满足程度,保证了搜索返回结果的准确性。

附图说明

图1是本发明的流程图。

具体实施方式

为适应人们对遥感信息的个性化需求,针对“搜索结果与用户需求相似度的定量评 价”,本发明提供了一种基于拓扑关系的遥感信息相似度评价方法,该方法采用物元分析法 对遥感信息检索系统返回的备选遥感信息构建备选物元,根据用户提出的查询条件建立理想 物元,最后设计关联函数计算出备选物元在各个元数据项上与理想物元的相似度以及备选物 元与理想物元的整体相似度;本发明能够准确反映遥感信息的特点和用户需求;根据遥感信 息各元数据项的不同特点构建不同的关联函数,并采用不同标准进行评定,保证了评价结果 的准确性。

本发明涉及的主要技术有构建备选物元、基于用户检索条件建立理想物元、基于拓 扑关系设计关联函数并计算相似度,主要的步骤如图1所示,包括:

步骤S1、基于用户的检索条件确定各元数据项对应的理想解,从而建立理想物元;

步骤S2、为系统返回的备选遥感信息建立备选物元,备选物元的元数据项类别与理想 物元相同;

步骤S3、计算备选物元中各元数据项与对应的理想解的相似度;

步骤S4、根据用户检索历史确定各元数据项的权重;

步骤S5、根据各元数据项的权重和步骤S3中计算出的各元数据项与对应的理想解的相 似度计算备选物元与理想物元的整体相似度;

上述步骤S2与步骤S1没有先后顺序,即步骤S2只要在步骤S3之前完成即可,可以与 步骤S1同时完成,也可以在其之前或之后完成;步骤S4与步骤S1、步骤S2、步骤S3均没 有先后顺序,即步骤S4只要在步骤S5之前完成即可。

物元指描述事物的基本元,表示事物、事物的特征、事物关于特征的取值是物元的 三要素。上述的备选物元和理想物元中的事物就是遥感信息,备选物元和理想物元中的物元 是由遥感信息及其特征和取值构成的,理想物元是指完全符合用户检索条件的遥感信息,备 选物元是指遥感信息共享平台(遥感信息检索系统)根据用户的检索条件筛选出的全部或部 分符合检索条件、将返回给用户的备选遥感信息,上述的元数据项就为遥感信息的特征,各 元数据项具有取值(也成为元数据项的属性值)。本发明通过设计关联函数对备选物元和理 想物元的元数据项取值进行计算和比较备选物元和理想物元的相似度,以评价备选物元对用 户需求的满足程度。

下面结合实施例及附图,对本发明5个步骤作进一步地的详细说明,但本发明的实 施方式不限于此。

步骤S1、基于用户的检索条件确定各元数据项对应的理想解,从而建立理想物元, 所述理想物元结构如下:

式(1)中,R*代表理想物元,N*表示理想物元对应的遥感信息,Xj表示选用的各元数 据项,其中j=1,2,3,...,n,n为元数据项个数;<rj-,rj+>表示Xj的理想解取值范围,rj-为Xj的取值下限,Xj的为取值上限,其中j=1,2,3,...,n;该取值范围为用户的检索条件中 相应的元数据项的取值范围,也即根据用户的检索条件就能确定理想物元的各元数据项的理 想解取值范围,具体地:

对于每一个Xj,j=1,2,3,...,n,若元数据项Xj是区间数时,rj-=kj-且rj+=kj+,[kj-,kj+] 为元数据项Xj在检索条件中的取值区间;若元数据项Xj是普通实数时,rj-=kj且rj+=kj,kj为元数据项Xj在检索条件中的取值。前述区间数是指区间,即元数据项的取值为区间;普 通实数是指固定值,即元数据项的取值为固定值。

步骤S2、为系统根据检索条件返回的备选遥感信息建立备选物元,备选物元选用的 元数据项与理想物元相同;遥感信息共享平台(遥感信息检索系统)根据用户的检索条件返 回搜索结果时,该搜索结果一般包括多个备选遥感信息,本步骤中为每个备选遥感信息建立 一个备选物元,所述备选物元如下:

式(2)中,Ai为第i个备选遥感信息,m为备选遥感信息个数也是备选物元个 数,即一共有A1~Am共m个备选的遥感信息;Yi代表备选遥感信息Ai的备选物元;Xj代表元数据项,其中j=1,2,3,...,n,n为元数据项个数;yij为Ai关于Xj的取值范围, 其中j=1,2,3,...,n,该取值范围可以是一个区间,也可以是一个点值。

本实施例中,备选物元和理想物元选择遥感信息的4个核心元数据项作为决策属性 集,记为X={X1,X2,X3,X4}={频谱范围,空间范围,时间范围,空间分辨率},则n=4,本 实施例中,X1、X2、X3、X4依次为频谱范围、空间范围、时间范围、空间分辨率范围。实际 应用中,4个元数据项的顺序不限。由于遥感信息的元数据(比如空间范围、频谱范围等) 具有区间覆盖特征,不是通过一个数值,而是通过一个范围来描述。为了便于计算,所有元 数据项的属性值均以区间的形式表示,即yij=[yij-,yij+],yij-、yij+分别为该区间的下限和上 限,区间宽度记为||A||=|yij+-yij-|,当yij-=yij+时,则yij=[yij-,yij+]退化为一个普通的实 数。因此,备选遥感信息Aj的备选物元可表示为如下形式,即:

步骤S3、计算备选物元中各元数据项与对应的理想解的相似度。

由于遥感信息各项元数据项的含义不同,不同元数据项相似度的计算方法也不同,使得 物元各个特征的量纲各异。依据物元分析理论,本发明通过构造关联函数将各元数据(即特 征)的相似度进行标准化处理。

遥感信息不同于普通文本信息,具有区间覆盖特征,衡量其是否满足用户需求的标 准在于是否包含或者重叠了感兴趣的范围,而不是单纯指距离上的接近。针对遥感信息的这 一特点,对搜索结果关联性的评价需要对备选物元与理想物元的特征值分布的拓扑关系进行 分析,然后设置相应的关联函数,从而定量评价相似度。具体可分为以下三种情况:

(1)由波长表示的频谱范围具有一维覆盖特性,因此备选物元Yi中元数据项X1的属性 值采用一维区间数yi1=[yi1-,yi1+]进行描述,其中yi1-为该一维区间的下限,yi1+为该一维区间的 上限,其取值由系统返回的备选物元Ai的频谱范围而定。设理想物元中X1的理想解为 r1=[r1-,r1+],则r1-为理想解的下限,r1+为理想解的上限,[r1-,r1+]也就是理想物元中X1的理 想解取值范围<r1-,r1+>,根据用户的检索条件可以获得r1-,r1+的具体取值。r1与yi1之间存 在相离、相接、相等、包含、包含于、叠加6种拓扑关系,由此设计一维区间的关联函数如 下所示:

其中,zi1代表备选物元Yi在元数据项X1上与理想解r1的相似度,yi1∩r1为yi1与r1的重 叠区间,||yi1∩r1||为该重叠区间的宽度;||r1||为r1的区间宽度,根据式(3)就能计算出备 选物元Yi在频谱范围与对应的理想解的相似度。

(2)由经度、纬度构成的空间范围具有二维覆盖特性,因此备选物元Yi中元数据项 X2的属性值采用二维区间数进行描述。设理想物元中X2的理想解为r2=<[r2long-,r2long+],[r2lat-,r2lat+]>,其中r2long-表示理想解经度值的下限,r2long+表示理想解经度值的上限,r2lat-表 示理想解纬度值的下限,r2lat+表示理想解纬度值的上限,<[r2long-,r2long+],[r2lat-,r2lat+]>也就 是理想物元中X2的理想解取值范围<r2-,r2+>,r2-代表经度值为r2long-和纬度值为r2lat-的空 间位置,r2+代表经度值为r2long+和纬度值为r2lat+的空间位置,<r2-,r2+>代表经度值从r2long-到r2long+、纬度值从r2lat-到r2lat+的空间区域,根据用户的检索条件可以获得r2long-,r2long+,r2lat-,r2lat+的具体取值,即r2是经度在r2long-至r2long+之间、纬度在r2lat-至r2lat+之间 的空间范围。设系统返回的备选物元Yi的元数据项X2的属性值即取值为yi2=<[y2long-,y2long+],[y2lat-,y2lat+]>,y2long-为空间范围中经度值的下限,y2long+为空间范围中经度值的上限,y2lat-为空间范围中纬度值的下限,y2lat+为空间范围中纬度值的上限,即yi2是经度在y2long-至y2long+之间、纬度在y2lat-至y2lat+之间的空间范围,y2long-、y2long+、y2lat-、y2lat+的取值根据系 统根据检索条件筛选返回的备选物元Yi的空间范围对应的经度和纬度参数而定。则r2与yi2之间的拓扑关系共存在36种可能的情况,如表1所示。

表1理想解r2与备选物元Yi的空间范围yi2的拓扑关系

根据拓扑关系,建立X2的关联函数如下所示:

其中,zi2代表备选物元Yi的元数据项X2与理想解r2的相似度,yi2∩r2为yi2与r2的重叠 区间,area(·)为求椭球梯形图幅面积的函数;area(yi2∩r2)为yi2与r2的重叠区间的椭球面 积,area(r2)为r2的椭球面积。由于地球是一个近似的旋转椭球体,因此r2的面积、yi2与r2的重叠区间的面积为椭球面积。

考虑到地球是一个近似的旋转椭球体,因此由两条子午线(经线)和两条平行圈 (纬线)围成的椭球表面是一个椭球面梯形,椭球梯形图幅面积的计算公式如下:

area(R)=b2×(L2-L1)×[(sinB2+23e2sin3B2+35e4sin5B2+47e6sin7B2)-(sinB1+23e2sin3B1+35e4sin5B1+47e6sin7B1)]---(16),

其中,R为空间范围,L1为R的经度下限,L2为R的经度上限,B1为R的纬度下限, B2为R的纬度上限,b和e2为椭球元素值,b为短半轴,e2为第一偏心率平方。因我国1980 年国家大地坐标系采用1975年国际椭球,其参考椭球在我国境内与大地水准面最为密合, 故采纳1975年椭球元素值,b=6356755.2881575287(单位为米)和 e2=0.006694384999588。

因此,yi2与r2的重叠区间的椭球面积、r2的椭球面积计算方式如下:

area(r2)=b2×(L12-L11)×[(sinB12+23e2sin3B12+35e4sin5B12+47e6sin7B12)-(sinB11+23e2sin3B11+35e4sin5B11+47e6sin7B11)]---(7),

式(7)中,L11为r2的经度下限,L12为r2的经度上限,B11为r2的纬度下限,B12为 r2的纬度上限。

area(yi2r2)=b2×(L22-L21)×[(sinB22+23e2sin3B22+35e4sin5B22+47e6sin7B22)-(sinB21+23e2sin3B21+35e4sin5B21+47e6sin7B21)]---(8),

式(8)中,L21为yi2∩r2的经度下限,L22为yi2∩r2的经度上限,B21为yi2∩r2的纬度下限,B22为yi2∩r2的纬度上限。

根据式(4)就能计算备选物元Yi的空间范围与对应的理想解的相似度。

(3)对于成像时间和空间分辨率这两类元数据项,其对应的关联函数不同于上述情 况,其理想解与备选物元只存在两种关系,即包含和相离,在相离的情况下距离理想解的距 离越小,该数据对用户需求的满足程度越大。

对于成像时间,设理想物元中的时间范围X3的理想解为r3=[r3-,r3+],r3-为理想解时 间的下限,r3+为理想解时间的上限,[r3-,r3+]也就是理想物元中X3的理想解取值范围 <r3-,r3+>,根据用户的检索条件可以获得r3-、r3+的具体取值;由此设系统返回的备选物元 Yi的时间范围yi3=[yi3,yi3](以区间形式表示,但实际是点值yi3),其中yi3的取值由系统返回 的备选物元Yi的成像时间而定;则关联函数具体如下所示:

根据式(5)就能计算备选物元Yi的时间范围与对应的理想解的相似度zi3

对于空间分辨率其相似度计算方法同成像时间,设空间分辨率的理想解为r4=[r4-, r4+],r4-为理想解空间分辨率的下限,r4+分别为理想解空间分辨率的上限,[r4-,r4+]也就是理 想物元中X4的理想解取值范围<r4-,r4+>,根据用户的检索条件可以获得r4-、r4+的具体取 值。

由此设备选物元Yi的空间分辨率范围为yi4=[yi4,yi4](以区间形式表示,但实际是点 值yi4),其中yi4的取值由系统返回的备选物元Yi的空间分辨率而定;则关联函数具体如下 所示:

根据式(6)就能计算备选物元Yi的空间分辨率与对应的理想解的相似度zi4

上述求解各元数据项的相似度的技术方案针对遥感信息元数据项的区间覆盖特征, 基于线与线、面与面以及点与线的拓扑关系,设计了式(3)、(4)、(5)、(6)四个关联函数 定量计算相似度,能够较好地反映各遥感信息在各个元数据项上对用户需求的满足程度,保 证了搜索返回结果的准确性。

根据计算出的各元数据项与对应的理想解的相似度,还可以形成备选物元Yi对应的 关联度物元矩阵Zi,关联度物元矩阵如下:

Zi=AiX1zi1X2zi2X3zi3X4zi4w1w2w3w4---(17).

步骤S4、计算各元数据项对应的权重。

遥感信息用户需求隐藏于检索记录中,检索频率越高的元数据项对于用户需求的贡 献就越大,反之则越小。本发明用权重wj来描述不同元数据项Xj之间的相对重要性,权重 对搜索结果排序有着重要影响。熵权法考虑了多个样本间的联系并削弱了异常值的影响,是 一种在综合考虑各因素提供信息量的基础上计算权值的数学方法,因此熵权法确定的权重更 客观且符合实际。按照信息论基本原理,熵代表该属性在该问题中提供有效信息量的多少, 如果属性的信息熵越小,则该属性所提供的信息量越大,在综合评价中所起作用理当越大, 相应权重则越高。本发明在权重的确定中引入了信息熵的概念,将用户对不同元数据项的检 索次数作为信息熵指标,直接根据指标的原始信息通过统计的方法获得权重,尽量消除各指 标权重的主观性,使权重设置更加客观准确。具体包括以下步骤:

步骤41、统计检索次数:

根据检索历史,将用户在过去一段时间内的检索记录分为k组,分别统计每一组内对n 个元数据项的检索次数,并且用一个矩阵B=(bqj)k×n记录,其中bqj表示第q组检索记录中用 户对元数据项Xj的检索次数,其中,j=1,2,3,...,n,q=1,2,3,...,k,矩阵B如式(9)所 示:

B=(bqj)k×n=b11b12...b1nb21b22...b2n............bk1bk2...bkn---(9).

利用熵权法确定权重,需要经过以下步骤S42-S44三个步骤:

步骤42、检索次数标准化处理

利用公式(10)对步骤51的矩阵B中的每一个bqj进行标准化处理:

sqj=bqj-min(bpj)max(bpj)-min(bpj),p=1,2,...,k---(10),

式(10)中sqj为用户第q组检索记录中对元数据项Xj检索次数的标准化值;min(bpj) 和max(bpj)分别为k组检索记录中元数据项Xj被检索出的最小值和最大值;

步骤43、根据式(11)和式(12)计算各元数据项的信息熵Hj

按照信息论基本原理,信息熵的定义如下:

Hj=-1lnnΣq=1kfqjlnfqj---(11),

其中,fqj=sqjΣq=1ksqj---(12);

步骤44、计算元数据项权重:

令第j个元数据项的权重为wj,则:

wj=1-Hjn-Σj=1nHj---(13);

计算出的wj满足0<wj<1且

步骤S5、根据各元数据项的权重和步骤S4中计算出的各元数据项与对应的理想解的 相似度计算备选物元与理想物元的整体相似度,通过计算相似度来定量评价待返回备选遥感 信息对用户需求的满足程度。备选物元Yi与理想物元的整体相似度ui即为各元数据项相似 度的加权和,计算公式为:

ui=Σj=1n(zij×wj)---(14),

式中,zij表示第i个备选物元Yi中元数据项Xj的相似度,wj代表元数据项Xj的权重,其 中,j=1,2,3,...,4;i=1,2,3,...,m。相似度越高,说明该备选物元与理想物元最接近,最 满足用户需求,遥感信息检索系统就可以将该备选物元优先发送给用户。

下面以频谱范围为0.5~0.85微米、空间范围为经度102.5°~104.5°(东经)且纬度 31.0°~32.5°(北纬)、时间范围为2008年5月10日~2008年5月14日、空间分辨率为 1~3米的检索条件为例对本实施例的方法进行简单举例。该检索条件在遥感信息检索系统返 回的备选物元集如表2所示,即表2中的A1-A6共6组的实验数据作为备选物元集,特征集 {X1,X2,X3,X4}对应频谱范围、空间范围、时间范围和空间分辨率这四个元数据项,由此建 立备选物元,并对6个备选物元与理想物元的关联度进行定量计算进行验证。假定模拟生成 的近一段时间用户对遥感信息的检索记录如表3所示,然后利用熵权法计算出各元数据项的 熵和权值。最终,得到各备选物元的相似度值。本实施例中遥感信息检索系统根据检索条件 返回备选物元即检索获得备选遥感信息为现有技术,本实施例中不再赘述。

(1)根据用户的检索条件,频谱范围X1的理想解为[0.5,0.85],空间范围X2的理想 解为<[102.5,104.5],[31.0,32.5]>,时间范围X3的理想解为[20080510,20080514],空间分辨 率X4的理想解为[1,3];

将用户的检索条件构建理想物元:

R*=N*X1[0.5,0.85]X2<[102.5,104.5],[31.0,32.5]>X3[20080510,20080514]X4[1,3].

(2)根据检索条件返回的备选遥感信息建立备选物元:

表2备选遥感信息

六个备选物元结构分别如下:

Y1=A1X1[0.45,0.89]X2<[102.93,104.40],[31.34,32.34]>X3[20080513,20080513]X4[20.00,20.00]

Y2=A2X1[0.45,0.89]X2<[103.43,104.86],[29.57,30.57]>X3[20080513,20080513]X4[20.00,20.00]

Y3=A3X1[0.45,0.89]X2<[103.92,105.31],[27.80,28.80]>X3[20080513,20080513]X4[20.00,20.00]

Y4=A4X1[0.49,1.75]X2<[103.15,104.51],[31.68,32.49]>X3[20080515,20080515]X4[5.00,5.00]

Y5=A5X1[0.49,1.75]X2<[104.01,105.35],[31.23,32.04]>X3[20080510,20080510]X4[5.00,5.00]

Y6=A6X1[0.49,1.75]X2<[104.73,106.06],[31.30,31.10]>X3[20080510,20080510]X4[5.00,5.00].

(3)采用熵权法计算权重,最近一段时间内用户搜索行为在各个元数据上搜索次数 统计值如表3所示。

表3各元数据项的检索次数

由式(9)-(13)得各元数据项的权重向量为:

W=(0.1120,0.4799,0.1737,0.2344)T

即w1=0.1120,w2=0.4799,w3=0.1737,w4=0.2344。

(4)根据关联函数式(3)~(6)可以计算出每个备选物元中各元数据项与对应的理想解 的相似度,从而还能得到6个备选物元的关联度物元矩阵,6个关联度物元矩阵如下:

Z1=A1X11.000X20.490X31.000X40.0530.11200.47990.17370.2344Z2=A2X11.000X20.000X31.000X40.0530.11200.47990.17370.2344

Z3=A3X11.000X20.000X31.000X40.0530.11200.47990.17370.2344Z4=A4X11.000X20.363X31.400X40.2500.11200.47990.17370.2344

Z5=A5X11.000X20.132X31.000X40.2500.11200.47990.17370.2344Z6=A6X11.000X20.000X31.222X40.2500.11200.47990.17370.2344

上述备选物元Y1的各元数据项与对应的理想解的相似度z11、z12、z13、z14的值分别为 1.000、0.490、1.000、0.053,该值根据式(3)~(6)计算出;其他5个备选物元的各元数据项与 对应的理想解的相似度依此类推,也是由式(3)~(6)计算出。

(5)由式(14)得6种备选物元与理想物元的整体相似度分别为:

u1=0.533,u2=0.298,u3=0.298,u4=0.414,u5=0.408,u6=0.209。

相似度越高则与用户需求的关联程度越高,所以返回给用户的搜索结果列表顺序为 u1u4u5u2u3u6,备选物元Y1为最佳结果。该评价结果正确。

以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡 属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号