首页> 中国专利> 存储系统中基于溯源信息的文件元数据查询方法与系统

存储系统中基于溯源信息的文件元数据查询方法与系统

摘要

本发明公开了存储系统中基于溯源信息的文件元数据查询方法。在系统客户端收集溯源信息,通过分析得到文件相关性信息并传递给元数据服务器;元数据服务器根据文件之间的关系信息实时维护关系图;建立基于关联感知的元数据索引树;接收到查询请求后,先在索引树中查找到种子结果集,然后在关系图中查找,得到初始结果集,最后对初始结果集根据查询条件进行排序和精简得到最终结果发送给客户。本发明还提供了相应的文件元数据查询系统。本发明通过关系值来衡量文件之间的相关特性,本发明能够充分地利用空间索引结构的快速定位以及关系图的精确相关性的特点,优化元数据查询的效率。

著录项

  • 公开/公告号CN103970871A

    专利类型发明专利

  • 公开/公告日2014-08-06

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201410199580.1

  • 申请日2014-05-12

  • 分类号G06F17/30(20060101);

  • 代理机构42201 华中科技大学专利中心;

  • 代理人梁鹏

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2023-12-17 00:55:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-16

    授权

    授权

  • 2014-09-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140512

    实质审查的生效

  • 2014-08-06

    公开

    公开

说明书

技术领域

本发明属于计算机数据存储技术领域,更具体地,涉及一种存储系统 中基于溯源信息的文件元数据查询方法与系统。

背景技术

现在元数据的查询研究变的越来越重要,主要有两方面的原因,一是 随着移动网络和云计算的发展,信息存储系统中的数据规模越来越大,用 户、系统管理员很难管理和定位自己需要的文件,必须借助快速准确的查 询系统来提高效率。另一方面,相比于传统的数据管理,在大数据的管理 中更加注重数据分析,通过数据分析,用户或是管理员才能更好的把握数 据的真实价值。数据分析需要大量的查询操作,在现代的存储系统中,就 需要专门的文件元数据查询系统才能满足大数据中数据分析的需要。

现有的文件元数据的查询设计存在以下问题:

(1)有的系统利用DBMS来索引和查询元数据,没有关注查询请求的 趋势,忽略了查询请求的局部性原理的利用,导致极差的查询速度,据测 有的查询需要400-1000秒。

(2)有的系统利用树型的索引来加快查询。例如利用目录树来加快查 询,但目录树只反映了文件的一维属性(即元数据的一项),不能很好的 体现元数据之间的相关性;利用元数据的多维属性,如创建者、创建时间、 修改时间等静态属性反映的相关性来建立索引加快查询,但这种索引也仅 仅只能反映元数据的某些静态特征所表现相关性,随着应用的变化,这种 相关性会发生变化,不能有效的支持元数据查询。有研究表明,传统的文 件属性有时无助于文件查询,比如根据时间来查询,30.8%的可能找到结果, 53.8%的可能找到错误结果。

(3)现有的文件元数据查询系统缺乏对复杂查询的实现或优化,对于 涉及元数据多维属性的查询请求,如范围查询、Top K查询、近似最近邻查 询等,随着数据量的增大,现有方法不能快速有效地处理用户越来越多的 复杂查询请求;

(4)现有的文件元数据查询系统的可扩展性差,当元数据的属性项或 数目随着系统的扩展而增多时,查询的响应时间将显著增加。

发明内容

本发明要解决的技术问题是:针对现有文件元数据查询技术无法满足 云计算和大数据的快速高效的文件查询需要的问题,本发明提出存储系统 中基于溯源信息的文件元数据查询方法,通过溯源信息提供的关于文件元 数据之间的动态的相关性来加快查询,并可提高查询的准确率。

为实现上述目的,按照本发明的一个方面,提供了一种存储系统中基 于溯源信息的文件元数据查询方法,包括以下步骤:

(1)对安装在存储系统的客户端的溯源信息收集工具,设置溯源信息收 集范围,获取初始溯源信息后经过处理分析得到文件相关性信息,然后将 这些文件相关性信息发送到存储系统的元数据服务器;

(2)根据元数据服务器接收的文件相关性信息,生成关系图,所述关系 图为无向有权图,所述关系图中的节点代表文件,所述边代表文件相关性;

(3)接收用户的查询请求,根据用户的查询条件在基于关联感知的元数 据索引树中查询得到种子结果集;

(4)根据得到的种子结果集在关系图中进行查询,得到初始结果集,然 后对初始结果集进行排序和精简得到最终结果集发送给查询用户。

进一步地,所述步骤(1)包括以下子步骤:

(1-1)在每一个存储系统的客户端程序中加入溯源信息收集模块;

(1-2)设置溯源信息收集模块收集溯源信息的范围,即只收集存储系 统中涉及到文件相关性的信息;

(1-3)将在客户端收集的溯源信息经过去重,分析得到文件关系项后, 将这些文件关系项发送到相应的元数据服务器,所述每个文件关系项中包 含发生关系的两个文件的通用资源标识符URI和相关性信息。

进一步地,所述步骤(2)包括以下子步骤:

(2-1)得到客户端传递过来的各条文件关系项;

(2-2)根据文件关系项中的两个文件的URI分别判断关系图中是否已 包含代表这两个文件的节点,如果不包含,则在关系图中添加代表该文件 的节点;

(2-3)根据文件关系项中两个文件的相关性信息,判断该文件关系项 是否已在关系图中记录,如果已记录则更新这两个文件的相关性信息,否 则在关系图中添加这一文件关系项。

进一步地,在所述步骤(3)之前还包括建立基于关联感知的元数据索引 树的步骤,具体为:

选择文件属性中能反映文件相关性的属性,将每台元数据服务器上的 元数据根据这些属性进行划分,然后建立索引,对所有的元数据服务器采 用同样的方法建立一个树型的索引,从而在整个存储系统中建立基于关联 感知的元数据索引树。

进一步地,所述步骤(3)包括以下子步骤:

(3-1)当元数据服务器集群中的某一台服务器接受到用户的查询请求 后,通过查询条件与集群中各个元数据服务器的文件属性进行比较,确定 需要查询的元数据服务器,并将查询请求转发给这台服务器;

(3-2)这台服务器接收到用户请求后,根据查询方式在元数据服务器 内部对基于关联感知的元数据索引树进行查询操作,得到的结果作为种子 结果集;

(3-3)种子结果的个数由查询条件确定,查询过程中计算各个种子节 点与查询点之间的距离,并根据距离对种子结果集进行排序。

进一步地,如果所述查询为Top K查询,所述步骤(4)具体包括如下步 骤:

(4-1-1)根据步骤(3)得到的种子结果集中的每个种子进行查询,获 取与每个种子最靠近的K个结果,并计算各个结果与查询点之间的关系值, 处理得到初始结果集;

(4-1-2)依据初始结果集中的各个结果与查询点的关系值的大小,对 初始结果集进行排序,选取最好的K个结果作为最终结果集;

(4-1-3)将最终结果集返回给用户。

进一步地,如果所述查询为近似最近邻查询,所述步骤(4)具体包括 如下步骤:

(4-2-1)根据查询条件在基于关联感知的元数据索引树中进行查询操 作,得到与查询请求最接近的那条数据,计算这条数据与查询请求之间的 距离d,确定查询半径R为(1+ε)×d,ε为用户输入参数,用于确定查询 半径;

(4-2-2)根据步骤(3)得到的种子结果集中的每个种子进行查询,查 找离种子节点在这个查询半径R内的所有节点,并计算各个节点与查询点 之间的关系值,处理得到初始结果集;

(4-2-3)依据初始结果集中的各个结果与查询点的关系值的大小,对 初始结果集进行排序,得到最终结果集;

(4-2-4)将最终结果集返回给用户。

按照本发明的另一方面,还提供了一种存储系统中基于溯源信息的文 件元数据查询系统,所述查询系统包括溯源信息收集模块、关系图生成和 维护模块、基于关联感知的元数据索引结构生成模块、基于关联感知的元 数据索引结构查询模块、关系图查询模块、初始查询结果集处理模块以及 用户查询处理模块,其中:

所述溯源信息收集模块,用于对安装在存储系统的客户端的溯源信息 收集工具,设置溯源信息收集范围,获取初始溯源信息后经过处理分析得 到文件相关性信息,然后将这些文件相关性信息发送到存储系统的元数据 服务器;

所述关系图生成和维护模块,用于根据元数据服务器接收的文件相关 性信息,生成关系图,所述关系图包含节点表和边表两个部分,节点表保 存文件_URI、文件_ID和连通量的数据项,边表保存文件1_ID、文件2_ID、 最后一次发生关系的时间和关系值的数据项;并完成对关系图中节点和边 的添加操作,以及对所述关系图进行更新操作;

所述基于关联感知的元数据索引结构生成模块,用于选择文件属性中 能反映文件相关性的属性,将每台元数据服务器上的元数据根据这些属性 进行划分,然后建立索引,对所有的元数据服务器采用同样的方法建立一 个树型的索引,从而在整个存储系统中建立基于关联感知的元数据索引树;

所述基于关联感知的元数据索引结构查询模块,用于根据用户的查询 请求在基于关联感知的元数据索引树中查询得到种子结果集;

所述关系图查询模块,用于将在关联感知的元数据索引树中得到的种 子节点集代入到关系图中,经过关系图的查询得到初始查询结果集;

所述初始查询结果集处理模块,用于对上述初始查询结果集通过精简 和排序得到最终结果集发送给查询用户;

所述用户查询处理模块,用于接收用户的各种查询请求,并根据查询 请求所提供的查询方式和查询条件调度系统其它模块完成查询任务。

进一步地,所述用户查询处理模块具体包括点查询子模块、范围查询 子模块、skyline查询子模块、Top K查询子模块和近似最近邻查询子模块, 其中:

点查询子模块,用于处理用户的点查询请求,根据点查询请求中给定 的元数据的多维属性进行查询,查询结果返回元数据的具体信息;

范围查询子模块,用于处理用户的范围查询请求,根据范围查询请求 中给定的多维属性的范围进行查询,查询结果返回整个系统中满足范围的 所有元数据信息;

skyline查询子模块,用于处理用户的skyline查询请求,根据skyline 查询请求中给定的一组多维属性和skyline查询准则进行查询,查询结果 返回整个系统中在给定查询点周围不被决定的多条数据;

Top K查询子模块,用于处理用户的Top K查询请求,根据Top K查询 请求中给定的一组多维属性及K值进行查询,查询结果返回整个系统中与 给定多维属性最相近的K条数据;

近似最近邻(Approximate Nearest Neighbors,ANN)查询子模块, 用于处理用户的近似最近邻查询请求,根据近似最近邻查询请求中给定的 一组多维属性,首先找到与查询请求最接近的那条数据,计算这条数据与 查询请求之间的距离d,确定查询半径R为(1+ε)×d,ε为用户输入参数, 用于确定查询半径,查询结果返回整个系统中与给定多维属性在查询半径 内的各条数据。

进一步地,所述溯源信息收集模块具体包括用户应用监听模块、溯源 信息处理模块、溯源信息缓存模块、溯源信息分析模块以及关系信息传输 模块,其中:

用户应用监听模块,用于监听用户对系统中文件的各种操作从而得到 初始溯源信息;

溯源信息处理模块,用于对初始溯源信息进行过滤,包括对溯源信息 进行去重和规整;

溯源信息缓存模块,用于在客户端暂存部分溯源信息;

溯源信息分析模块,用于对原始溯源信息进行分析,得到文件关系项, 所述文件关系项中包含文件1_URI、文件2_URI、产生关系时间和关系值的 数据信息;

关系信息传输模块是将暂存的关系信息周期性的发送给系统中的元数 据服务器。

通过本发明所构思的以上技术方案,与现有技术相比,本方法具有以 下的有益效果:

1、充分利用了元数据的多维静态属性以及统计的部分动态属性的相关 特性,传统的元数据查询的优化主要是利用元数据在各个维度上所反映出 来的相关特性进行分类集聚,但这种相关特性只能反映文件表象之间的相 似性,精确度不高,例如同样是相同大小的pdf文件,可能它们的内容是 相差巨大的,因此需要从文件本身的内容的相似性出发来进行文件分类集 聚,加快查询。而文件的溯源信息恰好记录了文件在应用过程中相互之间 的关系,这种关系精确的反映了文件内容之间的相关性。通过这种相关特 性进行分类集聚可以在查询过程中进行快速定位,加快元数据查询;

2、有效地支持复杂的查询请求,如范围查询、skyline查询、Top K 查询以及近似最近邻查询,在大数据环境下更加注重对数据的分析,导致 复杂查询使用的频率变大;

3、提高了Top K查询和近似最近邻查询的准确率;

4、满足了可扩展性的要求。由于元数据根据关联特性被划分成了多个 元数据集合进行管理,系统元数据数目的迅速增长只会引起元数据集合的 缓慢增长,从而保证了元数据管理的效果与效率。

附图说明

图1为本发明的查询方法整体流程图;

图2为本发明中收集溯源信息步骤的细化流程图;

图3为本发明中关系图生成的流程图;

图4为本发明中基于关联感知的元数据索引结构的建立、查询和维护 的事宜框图;

图5为本发明中关系图查询的工作流程图;

图6为本发明中点查询过程的流程图;

图7为本发明中范围查询过程的流程图;

图8为本发明中skyline查询过程的流程图;

图9为本发明中Top K查询过程的流程图;

图10为本发明中近似最近邻查询过程的流程图;

图11为本发明中基于溯源信息的文件元数据查询系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的 本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可 以相互组合。

本发明为基于溯源信息的文件元数据查询方法和系统,该方法不仅利 用多维元数据之间的静态属性之间相关特性建立元数据索引结构,而且利 用数据本身的溯源所反映的相互关系生成关系图,通过元数据索引结构可 以快速定位到查询点周围的元数据生成种子结果集,然后根据种子结果集 和查询条件在关系图中进行查询,得到初始结果集,然后进行将初始结果 集进行精简和排序得到最后的结果集返回给用户,能够满足对于元数据的 各种复杂查询操作。

图1为本发明的查询方法整体流程图;包括以下步骤:(1)在存储系统 的客户端安装溯源信息收集工具,设置溯源信息收集范围,获取初始溯源 信息后经过处理、分析得到文件相关性信息,然后将这些文件相关性信息 发送到存储系统的元数据服务器;(2)根据元数据服务器接收的文件相关性 信息,生成关系图,所述关系图中的节点代表文件,所述边代表文件相关 性;(3)接收用户的查询请求,根据用户的查询请求在基于关联感知的元数 据索引树中查询得到种子结果集;(4)根据得到的种子结果集在关系图中进 行查询,得到初始结果集,然后根据查询条件和查询方式,对初始结果集 进行排序和精简得到最终结果集发送给查询用户。

图2是本发明的步骤(1)的细化流程图,具体包括以下子步骤:

(1-1)在每一个文件存储系统的用户的客户端程序中加入溯源收集工 具模块;设置溯源收集工具收集文件应用信息的范围,即只收集能够提取 文件相关性的信息;

(1-2)对用户对文件的所有操作进行监听;

(1-3)将在每一个客户端收集的溯源信息进行过滤和去重;

(1-4)分析溯源信息得到文件关系项(文件1_URI,文件2_URI,产生 关系时间,关系值)后,

(1-5)将这些文件关系项发送到对应的元数据服务器。

图3是本发明生成关系图的流程图,具体包括以下子步骤:

(2-1)得到客户端传递过来的文件关系项集合S;

(2-2)当S不为空时,执行步骤(2-3),否则结束生成关系图过程。

(2-3)从S中选取一条文件关系项I进行处理,根据文件关系项中的 两个文件的URI判断这两文件是否分别为已有文件,如果不是,则在关系 图的节点表中添加该文件,并确定新文件的ID号;

(2-4)根据文件关系项I中的(文件1_URI,文件2_URI)对,判断这项 关系是否在关系图中已经记录,如果记录则更新关系图,否则在关系图中 添加这一项。然后转步骤(2-2)。

图4是本发明基于关联感知的元数据索引结构的建立、查询和维护的 事宜框图。具体为,根据文件的属性选择反映文件相关性较好的属性(如创 建时间,读写次数、读写的数据量等),包括部分静态属性和动态属性,将 每台元数据服务器上的元数据根据这些属性进行划分,然后建立索引,对 多个元数据服务器(元数据服务器集群)采用同样的方法建立一个树型的索 引;这样在整个系统中建立基于关联感知的元数据索引树。索引结构的查 询包括三部分操作,一是元数据服务器间的查询请求的分发,二是元数据 服务器内部的查询处理,三是查询结果的组收集和转发,通过对索引结构 的查询操作可以得到查询的初始结果集;该树型索引的维护需要注意元数 据的添加和删除、元数据服务器的添加和系统失效以及组的维护。

图5是本发明方法中关系图查询的流程图,具体包括以下子步骤:

(4-1-1)通过步骤(3)得到种子结果集S,启动本查询工作流程;

(4-1-2)判断S是否为空,如果为空,则返回查询结果并结束流程; 否则转入(4-1-3);

(4-1-3)从S中选取种子节点A,在关系图中根据查询方式选取A的临 近节点Ni(i=1,2,…,n),n由查询方式决定,并计算查询节点与Ni这关系 值;

(4-1-3)根据这些关系值判断这些临近节点是否满足查询条件,如果 是则加入结果集RS,转入步骤(4-1-2).

(4-1-4)关系值的计算,引入两个新的参数:关系的时间参数p,反映 了历史关系和当前关系的权衡,以及文件的活跃性参数q,反映了文件重要 性和关系重要性的比例。

本步骤的优点是在关系值的计算中引入了关系的时间衰减性和节点重 要性这两个参数来更加精准的描述文件相关程度。提高了元数据查询的效 率。

图6是本发明点查询过程的流程图,具体包括以下子步骤:

(5-1-1)接收点查询请求,确定该查询请求对应的元数据的多维属性, 在基于关联感知的元数据索引树中进行查询;

(5-1-2)如果查询成功,则将查询结果返回用户,如果查询不成功,则 转入近似最近邻查询,给出最相似的结果。

图7是本发明范围查询过程的流程图,具体包括以下子步骤:

(5-2-1)接收范围查询请求,确定该查询请求对应的元数据的多维属 性。根据给定属性的上下限,在基于关联感知的元数据索引树中进行查询。

(5-2-2)将结果查询结果返回用户。

图8是本发明skyline查询过程的流程图,具体包括以下子步骤:

(5-3-1)接收skyline查询请求,确定该查询请求对应的元数据的多 维属性,在基于关联感知的元数据索引树中进行查询;

(5-3-2)将结果查询结果返回用户。

基于关联感知的元数据索引树可以高效的支持上述三种非近似查询, 主要是因为索引树这中空间索引结构具有在元数据维度空间快速定位的功 能,可以很快的定位到与查询节点最近的子树,查找到这三种查询的最终 结果。

图9是本发明Top K查询过程的流程图,具体包括以下子步骤:

(5-4-1)接收Top K查询请求,确定该查询请求对应的元数据的多维 属性,在基于关联感知的元数据索引树中进行查询,得到种子结果集;

(5-4-2)将(5-4-1)得到的查询结果作为输入,转入步骤(4)的关系图 查询,跟据每一个种子,查询最靠近的K个结果,处理得到初始结果集;

(5-4-3)对初始结果集进行排序,选取最好的K个结果作为最终结果;

(5-4-4)将生成最终的查询结果集返回用户。

图10是本发明近似最近邻ANN查询过程的流程图,具体包括以下子步 骤:

(5-5-1)接收ANN查询请求,确定该查询请求对应的元数据的多维属 性,在基于关联感知的元数据索引树中进行查询,得到种子结果集;

(5-5-2)将(5-5-1)得到的查询结果作为输入,转入步骤(4)的关系图 查询,跟据每一个种子,根据查询条件设置查询距离,查找离种子节点在 这个距离内的所有节点,处理得到初始结果集;

(5-5-3)对初始结果集进行精简和排序,得到最终结果;

(5-5-4)将生成最终的查询结果集返回用户。

上述两种查询实现方式的优点是利用了通过溯源分析获取的关系图的 更精准的文件相关特性描述的特点,可以根据查询节点最近的几个节点快 速而且低功耗的找到满足查询条件的其它的结果,最后通过排序,潜在的 提高了查询准确率,得到最终结果。

图11是本发明基于溯源信息的文件元数据查询系统的模块示意图。所 述查询系统包括溯源信息收集模块、关系图生成和维护模块、基于关联感 知的元数据索引结构生成模块、基于关联感知的元数据索引结构查询模块、 关系图查询模块、初始查询结果集处理模块以及用户查询处理模块。其中:

所述溯源信息收集模块,用于对安装在存储系统的客户端的溯源信息 收集工具,设置溯源信息收集范围,获取初始溯源信息后经过处理分析得 到文件相关性信息,然后将这些文件相关性信息发送到存储系统的元数据 服务器;

所述关系图生成和维护模块,用于根据元数据服务器接收的文件相关 性信息,生成关系图,所述关系图包含节点表和边表两个部分,节点表保 存文件_URI、文件_ID和连通量的数据项,边表保存文件1_ID、文件2_ID、 最后一次发生关系的时间和关系值的数据项;并完成对关系图中节点和边 的添加操作,以及对所述关系图进行更新操作;

所述基于关联感知的元数据索引结构生成模块,用于选择文件属性中 能反映文件相关性的属性,将每台元数据服务器上的元数据根据这些属性 进行划分,然后建立索引,对所有的元数据服务器采用同样的方法建立一 个树型的索引,从而在整个存储系统中建立基于关联感知的元数据索引树;

所述基于关联感知的元数据索引结构查询模块,用于根据用户的查询 请求在基于关联感知的元数据索引树中查询得到种子结果集;

所述关系图查询模块,用于将在关联感知的元数据索引树中得到的种 子节点集代入到关系图中,经过关系图的查询得到初始查询结果集;

所述初始查询结果集处理模块,用于对上述初始查询结果集通过精简 和排序得到最终结果集发送给查询用户;

所述用户查询处理模块,用于接收用户的各种查询请求,并根据查询 请求所提供的查询方式和查询条件调度系统其它模块完成查询任务。

进一步地,所述用户查询处理模块具体包括点查询子模块、范围查询 子模块、skyline查询子模块、Top K查询子模块和近似最近邻查询子模块, 其中:

点查询子模块,用于处理用户的点查询请求,根据点查询请求中给定 的元数据的多维属性进行查询,查询结果返回元数据的具体信息;

范围查询子模块,用于处理用户的范围查询请求,根据范围查询请求 中给定的多维属性的范围进行查询,查询结果返回整个系统中满足范围的 所有元数据信息;

skyline查询子模块,用于处理用户的skyline查询请求,根据skyline 查询请求中给定的一组多维属性和skyline查询准则进行查询,查询结果 返回整个系统中在给定查询点周围不被决定的多条数据;

Top K查询子模块,用于处理用户的Top K查询请求,根据Top K查询 请求中给定的一组多维属性及K值进行查询,查询结果返回整个系统中与 给定多维属性最相近的K条数据;

近似最近邻(Approximate Nearest Neighbors,ANN)查询子模块, 用于处理用户的近似最近邻查询请求,根据近似最近邻查询请求中给定的 一组多维属性,首先找到与查询请求最接近的那条数据,计算这条数据与 查询请求之间的距离d,确定查询半径R为(1+ε)×d,ε为用户输入参数, 用于确定查询半径,查询结果返回整个系统中与给定多维属性在查询半径 内的各条数据。

进一步地,所述溯源信息收集模块具体包括用户应用监听模块、溯源 信息处理模块、溯源信息缓存模块、溯源信息分析模块以及关系信息传输 模块,其中:

用户应用监听模块,用于监听用户对系统中文件的各种操作从而得到 初始溯源信息;

溯源信息处理模块,用于对初始溯源信息进行过滤,包括对溯源信息 进行去重和规整;

溯源信息缓存模块,用于在客户端暂存部分溯源信息;

溯源信息分析模块,用于对原始溯源信息进行分析,得到文件关系项, 所述文件关系项中包含文件1_URI、文件2_URI、产生关系时间和关系值的 数据信息;

关系信息传输模块是将暂存的关系信息周期性的发送给系统中的元数 据服务器。

为验证本发明系统的可行性和有效性,在真实环境下配置本发明系统, 并进行相关查询操作来验证其效果。

本发明系统测试的硬件与软件系统如表1所示:

表1

本发明系统的配置过程如下:首先,将测试的trace文件分发到每个 节点;然后,每个节点运行基于关联感知的元数据索引结构的建立模块和 关系图生成模块,在本测试中50个节点被分成了三个分组,分组中的节点 数目分别为20,10,20;在每个分组中运行关系图查询和维护模块、基于 关联感知的元数据索引结构维护模块、初始查询结果集处理模块以及查询 模块。

对于用户的查询请求,则由基于关联感知的元数据索引结构查询模块 负责接收,先查询基于关联感知的元数据索引结构,确定种子节点集;在 关系图查询模块中查询,确定初始查询结果集;最后通过初始查询结果集 处理模块,得到单MDS中的最终结果,然后汇集这些结果,返回给查询用 户。表2为本发明系统与传统索引树(R-tree)的查询平均时间开销对比。 表3为本发明系统与传统索引树(R-tree)的查询平均空间开销对比。

表2

表3

表4为本发明系统中p的取值与查询准确率之间的关系,通过测试发 现随着p的增大,准确率上涨,反映了历史关系对提高查询效率的重要影 响,同样也验证了利用溯源来优化元数据查询的合理性。

表5为本发明系统中q的取值与查询准确率之间的关系,通过测试发 现随着q的增大,准确率略微下降,反映了节点的重要性在文件相关性的 衡量中需要被谨慎考虑。

表4

查询方式 参数p 查询准确率 top50 10 0.68 top50 100 0.72 top50 1000 0.76 top50 10000 0.78 top50 100000 0.78 ANN 10 0.76 ANN 100 0.8 ANN 1000 0.78 ANN 10000 0.8 ANN 100000 0.82

表5

查询方式 参数q 查询准确率 top50 0.2 0.96 top50 0.4 0.94 top50 0.6 0.9 top50 0.8 0.9 top50 1 0.88

ANN 0.2 0.92 ANN 0.4 0.92 ANN 0.6 0.9 ANN 0.8 0.88 ANN 1 0.86

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号