首页> 中国专利> 用于深层网数据集成的数据源选择方法

用于深层网数据集成的数据源选择方法

摘要

本发明公开了一种用于深层网数据集成的数据源选择方法。本发明方法首先基于查询接口语义特征并结合本体库,选择与用户查询相关度较大的深层网数据源;接着通过数据源的质量评估模型对数据源的质量进行评估,最后根据质量评估情况质量较高的数据源,最终得到与客户查询相关度大且质量较高的数据源集。相比现有技术,本发明方法能够提高深层网页查询的准确度,同时降低信息冗余,提高查询效率。

著录项

  • 公开/公告号CN101916272A

    专利类型发明专利

  • 公开/公告日2010-12-15

    原文格式PDF

  • 申请/专利权人 南京信息工程大学;

    申请/专利号CN201010250124.7

  • 发明设计人 方巍;毕硕本;文学志;

    申请日2010-08-10

  • 分类号G06F17/30(20060101);

  • 代理机构32200 南京经纬专利商标代理有限公司;

  • 代理人许方

  • 地址 210044 江苏省南京市宁六路219号

  • 入库时间 2023-12-18 01:26:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-09-19

    专利权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20120816 申请日:20100810

    专利申请权、专利权的转移

  • 2012-04-25

    授权

    授权

  • 2011-02-02

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20100810

    实质审查的生效

  • 2010-12-15

    公开

    公开

说明书

技术领域

本发明涉及一种基于网络的数据源选择方法,具体涉及一种由网络查询接口连接的深层网的数据源选择方法,用于深层网数据源的集成服务。

背景技术

随着网络数据库的广泛应用,网络正在加速的“深化”。互联网上有大量页面是由后台数据库动态产生,这部分信息不能直接通过静态链接获取,只能通过填写表单提交查询来获取,由于传统的网络爬虫(Crawler)不具有填写表单的能力,爬不出这些页面。因此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见的,被称为深层网(Deep Web,又称为Invisible Web,Hidden Web)。Deep Web是一个与Surface Web相对应的概念,最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎难以发现其信息内容的Web页面。Deep Web信息一般存储在数据库中,需要通过查询接口提交查询进行访问,和静态页面相比通常信息量更大,主题更专一,信息质量更好,信息结构化更好,增长速度更快。研究表明,Deep Web信息是Surface Web信息的500倍,有近450,000个Deep Web站点。实现大规模DeepWeb数据集成是方便用户使用Deep Web信息的一个有效途径。

大规模Deep Web集成系统主要包含:1)数据源发现(Deep Web Discovery);2)查询接口抽取(Query Interface Extraction);3)数据源选择(Source selection);4)查询转换(Query Transfer);5)结果合成(Result Merging)这五个关键部分。

Deep Web数据源包括多种主题的数据资源,而且在某个主题上Deep Web数据源也有许多,这些数据源属于同一主题,但数据质量上差别很大:有些是过时的、不准确或不一致的,而有些是更新及时、准确一致的。并且这些数据源包含的数据量大小不一,互相覆盖,有的覆盖大,有的甚至完全包含其它的数据源。以商业和教育这两个领域为例,根据Complete Planet的统计,存在上千个Web数据库,由于Complete Planet只是搜集了整个Deep Web数据源中大约7%的Web数据库,所以在现实中还要远远大于这个数字(Bergman M.K.The Deep Web:Surfacing Hidden Value.In Journal of Electronic Publishing,2002,7(1):8912-8914)。Kabra G等提出了一种选择那些和用户查询请求内容最为接近的(Top-k)k个Deep Web数据源进行查询的方法(Kabra G,Li CK,Chang KCC.Query routing:Finding Ways in the Maze of the Deep Web.In Proc.of the ICDE,2005,64-73)。上述方法只处理查询接口简单属性关系,而且是通过关键词进行查询表单,这些方法没有考虑到查询接口各属性间语义关系,而且进行相应数据源选择过程中数据源选择结果的准确率低,而且返回数据源结果不全等。随着Web数据库数量的不断增长,使得Deep Web数据源的选择成为一个亟待解决的关键问题。

发明内容

本发明的目的是针对现有技术的不足,提供一种高效、准确的深层网数据源选择方法,从而提高深层网数据源的选择效率和准确度。

数据源选择是指在给定Deep Web数据源查询接口集和某个用户查询的条件下,选择与用户查询相关度大于某一设定的阈值的查询接口集或者选择相关度值较大的前k个数据源的查询接口集的过程。数据源选择主要是为了选择覆盖程度高,重叠程度小的数据库,避免出现大量的冗余和无关信息;用户希望找到相应的高质量的查询结果,又希望能得到相同结果之间的对比情况。现有数据源选择方法大多是直接计算用户查询与查询接口的相关度来进行关键词匹配,由于以下三方面原因导致使用现有方法时,用户查询通常是不准确的,并且具有较高的冗余度,同时会发现一些不相关的数据源:

首先是由于同一个领域中存在大量可访问Deep Web资源,访问Internet上大量的Deep Web是个费时又费力的过程;其次各数据库的数据质量相差很大,有些是过时的、不准确或不一致的,而有些是更新及时、准确一致的,并不是每一个Deep Web都能够满足一个特定的查询,显然任何一个领域的Deep Web不可能包含该领域中所有的信息,因此也不可能满足这个领域的任意查询;最后就是一个领域中大部分的Deep Web数据源包含的数据量大小不一,互相覆盖,有的覆盖大,甚至完全包含其它的数据源;而且它们之间还存在着冗余的信息,而对于一个查询而言,访问Deep Web次数越多,返回信息的冗余度也会越大,极大地增加冗余信息的处理难度。

基于以上分析可知,在Deep Web数据源的选择这一步要达到的目标是如何从一个领域中大量的Deep Web数据源中选择出合适的子集,减少访问Deep Web的数量和使得查询结果中冗余度足够小,而且查询代价更低。

为此,我们利用查询接口语义特征,基于领域本体将用户查询进行了扩展,这样,所选择的查询接口集更能满足用户的查询要求。具体的说,本发明技术方案如下:

一种用于深层网数据集成的数据源选择方法,其特征在于,包括以下步骤:

步骤A、对查询接口进行解析;

步骤B、构建本体库并通过本体库把相应查询信息转化为本体信息;

步骤C、计算本体信息与各数据源的相关度,根据相关度选择满足预先设定的条件的数据源;对于给定目标查询接口对象DWIi和查询本体Qi,相关度按照如下公式计算:

R(DWIi,Qi)=Σi=1m(DWIi×Qi)Σi=1m(DWIi)2×Σi=1mQi2,

其中,R(DWIi,Qi)表示查询本体Qi与查询接口对象DWIi的相关度,m为查询接口中的对象个数。

本体是一种具有更多语义和结构信息的复杂模型,上述步骤B中的本体库可以使用现有的公用本体库;也可以通过采集现有的公用本体库,并对这些本体库进行扩充,得到新的本体库;而本发明采用后者。

这类本体学习的主要任务就是分析关系模型中蕴涵的语义信息,并将其映射到本体中的相应部分。其次,查询接口和数据源结果页面通常包含丰富的信息如概念、实例以及领域有关的概念之间的关系,查询接口以HTML表单格式出现,在无法获得数据库模式的情况下,可以通过分析HTML表单的结构和数据来获取Web数据库中的语义,从而构建本体。根据以上分析,可以通过以下各步骤构建本发明的本体库:

步骤B1、通过现有本体库分析HTML表单模式结构来获取查询接口的语义,构建相应本体库中的类;

步骤B2、从查询接口和结果页面抽取概念和实例,提取现有本体库中类的层次关系和函数关系;

步骤B3、从某个主题的多个数据源中提取上述步骤B2中得到的本体类之间关系,然后推理映射不同的关系,最后合并成一个更高层的领域本体;针对每个本体库中的每个类,构建与该类对应的关键词集合,组成本体库的词汇层。

为了进一步提高数据源选择的准确性,减少信息冗余,降低查询代价;本发明又在上述技术方案的基础上引入了数据源质量得分的概念,通过数据源的质量得分来度量数据源的质量,选择质量得分较高的若干数据源而放弃其他质量较低的数据源,从而大大降低信息冗余,提高了查询的准确性。具体而言,就是在上述步骤C之后继续执行以下各步骤:

步骤D、建立数据源质量评估模型并利用该数据源质量评估模型计算步骤C中得到的各数据源的质量得分;

步骤E、根据质量得分并按照一定的方法选择若干高质量数据源,得到最终的数据源集。

上述步骤E中所述根据质量得分并按照一定的方法选择若干高质量数据源可以是选择质量得分大于一个预先设定的阈值的数据源;也可以采用Top-k数据选择方法,即按照质量得分将数据源从大到小排序,选择前k个数据源,k为预先设定的最终选择的数据源的个数。

本发明方法首先基于查询接口语义特征并结合本体库,选择与用户查询相关度较大的深层网数据源;接着通过数据源的质量得分来度量数据源的质量,选择质量得分较高的若干数据源而放弃其他质量较低的数据源,最终得到与客户查询相关度大且质量较高的数据源。相比现有技术,本发明方法能够提高深层网页查询的准确度,同时降低信息冗余,提高查询效率。

附图说明

图1是本发明具体实施方式的深层网页查询接口示例图;

图2是本发明方法的流程图;

图3是本体库结构示例图;

具体实施方式

下面结合附图对本发明的技术方案进行详细说明:

如附图2所示,本发明按照以下各步骤进行深层网数据源的选择:

步骤A、对查询接口进行解析;

如附图1所示,一个查询接口包含一些表单控件让用户输入查询信息,如文本框(Textbox),单选按钮(Radio Button),复选框(Check box)和下拉列表(Selection List)等控件。每个控件通常都关联一个标签——一个描述文本,每个控件可以有一个或多个值(value),例如一个下拉列表有一列值供用户选择,单选按钮和复选框通常有一个值。逻辑上讲,一个控件和它关联的标签构成了一个属性(attribute),对应了深层网页(Deep Web)后台数据库中的一个字段。通常,一个属性包含一个标签,一个或多个表单控件。通过对当前Deep Web查询接口页面进行解析,得到相应各属性内容的标签、表单控制,再把它们按照语义关系组成一个个属性(查询条件的一个逻辑单位)。我们可以抽象地将查询接口本体实例DWI表示为:DWI=(S,P,M)。其中S反映了接口实例功能等的特定信息,它包含:接口实例的名字(表单标签名)和该接口站点的URL等基本信息。P={p1,p2,…,pn}为接口实例所对应的本体实例模板,M为接口实例所提供的方法。建立了DWI实例后,用户就可以提供一个面向本体实例的查询来检索其所需要的信息。

Deep Web数据源接口集可以抽象为:假定某领域内Deep Web数据源接口集为DWS={Si1,Si2,…,Sim},每个数据源接口Sii都对应一个出现在查询接口上的实例Ri组成的数据源本体模板,本体模板中的所有实例的联合为数据源接口集DWS。所谓实例就是指定查询接口上一个元素对应的标签名、内部属性名、一个或多个修饰语及其值域,它是查询接口上最小的语义单位。

步骤B、构建本体库并通过本体库把相应查询信息转化为本体信息;其中构建本体库按照以下各步骤执行:

步骤B1、通过现有本体库分析HTML表单模式结构来获取查询接口的语义,构建相应本体库中的类;

步骤B2、从查询接口和结果页面抽取概念和实例,提取现有本体库中类的层次关系和函数关系;

步骤B3、从某个主题的多个数据源中提取上述步骤B2中得到的本体类之间关系,然后推理映射不同的关系,最后合并成一个更高层的领域本体;针对每个本体库中的每个类,构建与该类对应的关键词集合,组成本体库的词汇层;

本发明方法将相应查询信息抽象表示为一种查询模型:Deep Web表示由一系列查询接口属性组成的关系表DB:Aq={aq1,aq2,…,aqn}(接口模式)和一系列查询结果属性组成:Ar={ar1,ar2,,arm}(结果模式)。其中,每个属性aqi∈A表示通过查询接口得到的查询属性,而结果属性arj∈A表示查询结果中的属性。每个查询操作可以用类似SQL语句来表示:“Select ar1,ar2,,arm from DB WHERE aq1=val q1,aq2=valq2,…,aqn=valqn”,这里val qi表示查询表单中填充的属性值。

对于查询信息通过本体库进行查询扩展得到一系列的查询接口集。本体结构如附图3所示,图中所示为以一个交通工具(Vehicle)为核心概念的本体库结构图的一部分。该本体库结构包括一系列对现实事物的抽象。例如,“Vehicle”、“Car”“Truck”等这些概念构成本体库中的类(class),图中还包括了类与类之间关系如“driver”和“price”等,该本体库还包含各类相应的实体,如BWM,F512M等。通过本体库的扩展,可以将一个概念扩展成一系列本体层中的概念集。如对于概念“Vehicle”,它所对应的概念还包含“Car”和“Truck”等概念。

步骤C、计算本体信息与各数据源的相关度,根据相关度选择满足预先设定的条件的数据源;对于给定目标查询接口对象DWIi和查询本体Qi,相关度按照如下公式计算:

R(DWIi,Qi)=Σi=1m(DWIi×Qi)Σi=1m(DWIi)2×Σi=1mQi2,

其中,R(DWIi,Qi)表示查询本体Qi与查询接口对象DWIi的相关度,m为查询接口中的对象个数。

步骤D、建立数据源质量评估模型并利用该数据源质量评估模型计算步骤C中得到的各数据源的质量得分;

通过分析可知,影响评估Deep Web数据源质量的主要因素有:浏览器、Web数据库、用户以及网络性能,本具体实施方式把这四类因素作为一级质量因子;每个一级质量因子又包含若干二级质量因子,例如,作为一级质量因子,Web数据库包括域完整性、一致性、冗余性、数据源大小等若干二级质量因子,这样,就可以得到一个包括两级质量因子的质量因子集,并据此得到数据源质量评估模型如下:

Qs=Σn=1K{Wn×Σj=1Lwjqnj}

其中,Qs∈[0,100],表示第s个数据源的质量得分;Wn表示质量因子集中第n个一级质量因子的权重,n=1,2…K,K为质量因子集中一级质量因子的个数,wj为第n个一级质量因子中第j个二级质量因子的权重,qnj为使用第n个一级质量因子中第j个二级质量因子评估第s个数据源的质量得分,j=1,2…L,L为质量因子集中第n个一级质量因子中所包含二级质量因子的个数,

上述数据源质量评估模型为现有技术,更详细内容可参考文献(鲜学丰,方巍等.一种Deep Web数据源质量评估模型.微电子学与计算机,2008,Vol 25(10):47-50.)。

步骤E、根据质量得分并按照一定的方法选择若干高质量数据源,得到最终的数据源集。

本具体实施方式在本步骤中采用Top-k的数据选择方法,即按照质量得分将数据源从大到小排序,选择前k个数据源,k为预先设定的最终选择的数据源的个数。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号