首页> 中国专利> 挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置

挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置

摘要

本发明实施例公开了挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置,方案包括:确定石窟壁画群中各石窟壁画的第一描述数据,将各石窟壁画确定为一个元组,基于Apriori算法对第一描述数据进行词频统计,得到各石窟壁画的描述词及所对应的词频,确定相应元组的预定类别属性,根据预定类别属性确定相应元组的属性值,以属于描述类属性的各个描述词的属性值,将各个元组关联成复杂网络,利用复杂网络分析算法,将复杂网络分割为多个网络模块,确定符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系,应用本发明实施例可以确定石窟壁画群中石窟壁画的时空关联关系,为研究石窟壁画的整体关联关系提供参考数据。

著录项

  • 公开/公告号CN105488183A

    专利类型发明专利

  • 公开/公告日2016-04-13

    原文格式PDF

  • 申请/专利权人 北京邮电大学世纪学院;

    申请/专利号CN201510864465.6

  • 发明设计人 赵海英;陈洪;

    申请日2015-12-01

  • 分类号G06F17/30;G06K9/34;

  • 代理机构北京柏杉松知识产权代理事务所(普通合伙);

  • 代理人马敬

  • 地址 102101 北京市延庆县康庄镇北京邮电大学世纪学院

  • 入库时间 2023-12-18 15:29:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-04

    授权

    授权

  • 2016-05-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151201

    实质审查的生效

  • 2016-04-13

    公开

    公开

说明书

技术领域

本发明涉及图像处理领域,特别涉及一种挖掘石窟壁画群中石窟壁画时空 关联关系的方法和装置。

背景技术

所谓石窟壁画为绘制在石洞墙壁上的画作,而同一石窟内的多幅石窟壁画 构成石窟壁画群,其中,国内已经发现的石窟壁画群包括:新疆石窟壁画群、 敦煌莫高窟壁画群等等。由于石窟壁画群作为重要的文化遗产,国内外学者发 表了大量关于石窟壁画群的专著文献,以从历史渊源、宗教背景、壁画内容、 艺术风格、建筑风格、壁画原材料等诸多方面对壁画群中单幅壁画进行了大量 深入细致的研究工作。

尽管关于壁画群中单幅壁画的研究能够为石窟壁画领域的提供大量的参考 数据,但是,所提供的参考数据比较单一和分散,因此,为了提供研究石窟壁 画的关于整体关系的参考数据,存在对石窟壁画群中各个石窟壁画间的关联关 系的确定的需求。

发明内容

本发明实施例公开了一种挖掘石窟壁画群中石窟壁画时空关联关系的方法 和装置,以挖掘确定出石窟壁画群中石窟壁画的时空关联关系,为研究石窟壁 画的整体的关联关系提供参考数据。具体方案如下:

一方面,本发明实施例提供了一种挖掘石窟壁画群中石窟壁画时空关联关 系的方法,所述方法包括:

确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅石窟壁画确定为 一个元组,其中,所述石窟壁画的第一描述数据为:从预先获得的该石窟壁画 中的描述信息以及预先获得的关于该石窟壁画的介绍信息中提取得到;

基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计,进而, 获得各石窟壁画所对应的描述词和所述描述词所对应的词频;

将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元组的预 定类别属性,其中,所述预定类别属性包括:时间类属性、空间类属性和描述 类属性;

从各石窟壁画的第一描述数据中,确定所对应元组的属于预定类别属性的 各个描述词所对应的多个描述子数据,并将所述多个描述子数据中出现次数超 过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值;

根据各个元组的属于描述类属性的各个描述词的属性值,将所述各个元组 关联成复杂网络,其中,复杂网络中的节点为所述元组;

利用复杂网络分析算法,将所述复杂网络中的所有元组以模块化参数最大 化的标准分割为多个网络模块,每个网络模块中包括至少一个元组;

将所述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石 窟壁画确定为存在时空关联关系,其中,所述预定条件包括:所包括元组的属 于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同。

较佳的,所述基于Apriori算法对各石窟壁画的第一描述数据进行第一词频 统计,包括:

基于Apriori算法对各石窟壁画的第一描述数据进行除语气助词、数字、语 气词、标点符号以及结构助词之外的第一词频统计。

较佳的,关于该石窟壁画中的描述信息的获得方式,包括:

对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而 获得该石窟壁画中的描述信息;

关于该石窟壁画的介绍信息的获得方式,包括:

对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而 获得该石窟壁画的介绍信息。

较佳的,所述获得各壁画所对应的描述词和所述描述词所对应的词频包括:

利用基于无监督学习的自组织映射算法对所述各壁画所对应的描述词进行 量化分析,以滤除属于噪声的描述词;

获得滤除噪声的描述词的各石窟壁画所对应的描述词和所述描述词所对应 的词频,所述属于噪声的描述词为对所述纸质形式的石窟壁画中的描述信息和/ 或所述纸质形式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别 时,出现的错误识别的描述词;其中,所述自组织映射算法中参数选择六边形 映射格点,初始化码书选择随机码书,训练过程选择批处理batch训练算法,映 射函数选择高斯邻域函数所述高斯邻域函数中σ为邻域半径, rc为单元c的位置,c代表batch训练过程中,对应的各石窟壁画所对应的描述词 训练输出结果索引,nc表示滤除噪声的描述词的各石窟壁画所对应的描述词与 未滤除噪声的描述词间的高斯距离,rc是batch训练过程输出的滤除噪声的描述词 的各石窟壁画所对应的描述词,ri是训练输入的各石窟壁画所对应的描述词, ||rc-ri||表示训练时产生的噪声的一阶原点矩。

较佳的,所述根据各个元组的属于描述类属性的各个描述词的属性值,将 所述各个元组关联成复杂网络,包括:

针对每两个元组,当所述两个元组的属于描述类属性的各个描述词的属性 值相同的数量超过第三预设阈值时,确定所述两个元组相互关联;

依次确定每两个元组间的关联关系,将所述各元组关联成复杂网络。

较佳的,在所述将所述多个网络模块中符合预定条件的目标网络模块所包 括元组对应的石窟壁画确定为存在时空关联关系之后,还包括:

计算所述目标网络模块占所有网络模块的百分比,以定量确定所述石窟壁 画群中各石窟壁画的时空关联关系。

另一方面,本发明实施例还提供了一种挖掘石窟壁画群中石窟壁画时空关 联关系的装置,所述装置包括:

确定单元:用于确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅 石窟壁画确定为一个元组,其中,所述石窟壁画的第一描述数据为:从预先获 得的该石窟壁画中的描述信息以及预先获得的关于该石窟壁画的介绍信息中提 取得到;

词频统计单元:用于基于Apriori算法对各石窟壁画的第一描述数据进行第 一词频统计,进而,获得各石窟壁画所对应的描述词和所述描述词所对应的词 频;

预定类别属性确定单元:用于将各石窟壁画中词频超过第一预设阈值的多 个描述词确定为相应元组的预定类别属性,其中,所述预定类别属性包括:时 间类属性、空间类属性和描述类属性;

属性值确定单元:用于从各石窟壁画的第一描述数据中,确定所对应元组 的属于预定类别属性的各个描述词所对应的多个描述子数据,并将所述多个描 述子数据中出现次数超过预设数量阈值的目标描述子数据确定为相应描述词所 对应的元组的属性值;

复杂网络关联单元:用于根据各个元组的属于描述类属性的各个描述词的 属性值,将所述各个元组关联成复杂网络,其中,复杂网络中的节点为所述元 组;

网络模块分割单元:用于利用复杂网络分析算法,将所述复杂网络中的所 有元组以模块化参数最大化的标准分割为多个网络模块,每个网络模块中包括 至少一个元组;

时空关联关系确定单元:用于将所述多个网络模块中符合预定条件的目标 网络模块所包括元组对应的石窟壁画确定为存在时空关联关系,其中,所述预 定条件包括:所包括元组的属于时间类属性的描述词的属性值不同和/或空间类 属性的描述词的属性值不同。

较佳的,关于该石窟壁画中的描述信息的获得方式,包括:

对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而 获得该石窟壁画中的描述信息;

关于该石窟壁画的介绍信息的获得方式,包括:

对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而 获得该石窟壁画的介绍信息。

较佳的,所述词频统计单元具体用于:

利用基于无监督学习的自组织映射算法对所述各壁画所对应的描述词进行 量化分析,以滤除属于噪声的描述词;

获得滤除噪声的描述词的各石窟壁画所对应的描述词和所述描述词所对应 的词频,所述属于噪声的描述词为对所述纸质形式的石窟壁画中的描述信息和/ 或所述纸质形式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别 时,出现的错误识别的描述词;其中,所述自组织映射算法中参数选择六边形 映射格点,初始化码书选择随机码书,训练过程选择批处理batch训练算法,映 射函数选择高斯邻域函数所述高斯邻域函数中σ为邻域半径, rc为单元c的位置,c代表batch训练过程中,对应的各石窟壁画所对应的描述词 训练输出结果索引,nc表示滤除噪声的描述词的各石窟壁画所对应的描述词与 未滤除噪声的描述词间的高斯距离,rc是batch训练过程输出的滤除噪声的描述词 的各石窟壁画所对应的描述词,ri是训练输入的各石窟壁画所对应的描述词, ||rc-ri||表示训练时产生的噪声的一阶原点矩。

较佳的,还包括时空关联关系定量确定单元;

所述时空关联关系定量确定单元:用于在所述时空关联关系确定单元将所 述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确 定为存在时空关联关系之后,计算所述目标网络模块占所有网络模块的百分比, 以定量确定所述石窟壁画群中各石窟壁画的时空关联关系。

本方案中,首先确定石窟壁画群中各石窟壁画的第一描述数据,并将各石 窟壁画确定为一个元组,基于Apriori算法对该第一描述数据进行第一词频统计, 得到各石窟壁画的描述词及其所对应的词频,进而确定相应元组的预定类别属 性,根据该预定类别属性确定相应元组的属性值,以属于描述类属性的各个描 述词的属性值,将各个元组关联成复杂网络,然后利用复杂网络分析算法,以 模块化参数最大化的标准将该复杂网络分割为多个网络模块,挖掘确定所包括 元组的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性 值不同的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系, 为研究石窟壁画的整体关联关系提供了参考数据。当然,实施本发明的任一产 品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种挖掘石窟壁画群中石窟壁画时空关联关系 的方法的流程示意图;

图2为本发明实施例提供的一种挖掘石窟壁画群中石窟壁画时空关联关系 的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种挖掘石窟壁画群中石窟壁画时空关联关系的方法 和装置,以挖掘确定石窟壁画群中石窟壁画的时空关联关系,为研究石窟壁画 的整体的关联关系提供参考数据。

下面首先对本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空关 联关系的方法进行介绍。

需要说明的是,本发明实施例所提供了一种挖掘石窟壁画群中石窟壁画时 空关联关系的方法可以应用于电子设备中,该电子设备可以为终端设备或服务 器,举例而言:该终端设备可以为台式电脑、笔记本电脑、平板电脑和智能手 机。

如图1所示,本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空 关联关系的方法,可以包括如下步骤:

S101:确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅石窟壁画 确定为一个元组;

需要说明的是,确定该石窟壁画群中石窟壁画时空关联关系,要基于该石 窟壁画群中各石窟壁画的具体内容,如石窟壁画中的文字描述信息,以及现有 的对该石窟壁画群中各石窟壁画的介绍信息,那么,该石窟壁画的第一描述数 据可以为:从预先获得的该石窟壁画中的描述信息以及预先获得的关于该石窟 壁画的介绍信息中提取得到。

需要说明的是,对于现有的该石窟壁画中的描述信息以及关于该石窟壁画 的介绍信息的存在形式,可以为纸质形式的,也可以为电子文档形式,为了便 于对石窟壁画群中石窟壁画的时空关联关系的确定,对于纸质形式的石窟壁画 中的描述信息以及纸质形式的该石窟壁画的介绍信息,要首先转换成电子文档 形式,具体的,关于该石窟壁画中的描述信息的获得方式,可以包括:

对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而 获得该石窟壁画中的描述信息;

关于该石窟壁画的介绍信息的获得方式,可以包括:

对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而 获得该石窟壁画的介绍信息。

S102:基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计, 进而,获得各石窟壁画所对应的描述词和该描述词所对应的词频;

可以理解的是,在大量的关于该石窟壁画群中各石窟壁画的第一描述数据 中,可能存在很多非关键性的描述信息,那么就需要对该第一描述数据进行处 理分析,得到关于该石窟壁画群中各石窟壁画的主要的描述信息。对于该第一 描述数据而言,其包括的词不会单独存在,大部分会以句子的形式存在于该第 一描述数据中,对于存在大量数据中的所有词,采用穷举的方法的运算量非常 大,因此在统计关于该石窟壁画群中各石窟壁画的主要的描述信息时,可以利 用数据挖掘方法中统计频繁集的Apriori算法。

可以理解的是,在进行词频统计时,希望统计得到对各石窟壁画的关键角 度的描述词,然而在实际情况中,在关于该石窟壁画的描述信息和/或关于该石 窟壁画的介绍信息中会存在一些语气助词、数字、语气词、标点符号以及结构 助词的辅助性的词,对于这些词不会存在关于该石窟壁画的重要信息,它们主 要起到保证描述语句的完整与合理性,对关于该石窟壁画的时空关联关系的确 定起到的作用很小,但是其存在的数量可能会很大,所以在统计词频时可以不 考虑该类性的词,具体的,所述基于Apriori算法对各石窟壁画的第一描述数据 进行第一词频统计,可以包括:

基于Apriori算法对各石窟壁画的第一描述数据进行除语气助词、数字、语 气词、标点符号以及结构助词之外的第一词频统计。

可以理解的,对各石窟壁画的第一描述数据进行除语气助词、数字、语气 词、标点符号以及结构助词之外的第一词频统计,所获得的各石窟壁画所对应 的描述词和该描述词所对应的词频可以认为是包括关于该石窟壁画群中各石窟 壁画的主要的描述信息。

可以理解的是,基于Apriori算法,其基本原理为:对于长度为l的词,若其 词频满足fw(i)>fT,其中,fw(i)表示第i幅石窟壁画的词w的词频,fT表示门限值, 则其包含的所有长度为l'=1,...,l-1的词,其词频均满足fc(i)>fT。此处,若记一个 由l个汉字wi=(ci1,ci2,...,cil)组成的词,即长度为l的词,则其包含的长度为l'=1,...,l-1 的词是指(cim,...,ci(m+l')),m=1,...,l-l'。因此,一个长度l的词wi=(ci1,ci2,...,cil),若其 词频满足fc(i)>fT,则其必然是由一个长度为l-1的词(ci1,ci2,...,cil-1)和一个长度为1 的汉字cil组成,且词(ci1,ci2,...,cil-1)和汉字cil的词频均超过门限fT。故可以采用迭代 的方法,统计所有满足fw(i)>fT的词。若统计到长度为l的词时,不存在满足 fc(i)>fT的词,则算法停止。

可以理解的是,在本发明中,针对每幅石窟壁画,选择其第一描述数据中 的1个汉字ci作为词频统计的对象,获得词频fc(i)>fT的全部汉字,其中fT表示词 频门限值,i表示壁画索引,ci表示第i幅石窟壁画的词c。假设得到N1个汉字。 则可利用Apriori算法,进一步统计词频fw(i)>fT包含2个汉字的词的词频,依次 增加词所包含的汉字的个数,直至不满足fw(i)>fT的条件,结束统计过程。

可以理解的是,对于关于该石窟壁画的介绍信息一般可以从对该石窟壁画 的相关专著文献中获得,然而,相关专著文献的作者在描述介绍石窟壁画时, 可能只会侧重于一个或几个该石窟壁画的主要的角度进行描述,很可能较少描 述甚至忽略一些各石窟壁画间共有的属性。同时,由于历史原因、气候环境原 因的影响,相当数量的石窟壁画内容遭到破坏,以使石窟壁画内容模糊或丢失, 或者其中一部分石窟壁画的内容在历史文献中失于记载,并且在对纸质形式的 石窟壁画中的描述信息以及纸质形式的该石窟壁画的介绍信息进行扫描和光学 字符识别时,也会存在较多的识别错误。因此,在对各石窟壁画的第一描述数 据进行第一词频统计,获得各石窟壁画所对应的描述词和该描述词所对应的词 频时,可能会存在偏离真实性的情况,然而,考虑到上述因素的随机性与非必 要性,在石窟壁画数量非常庞大时,可以将上述因素对石窟壁画的第一描述数 据的影响视为噪声。

在对各石窟壁画的第一描述数据进行第一词频统计,获得各石窟壁画所对 应的描述词和该描述词所对应的词频时,对于该噪声的描述词的滤除,可以利 用无监督学习的自组织映射算法,具体的,所述获得各壁画所对应的描述词和 该描述词所对应的词频包括:

利用基于无监督学习的自组织映射算法对该各壁画所对应的描述词进行量 化分析,以滤除属于噪声的描述词;

获得滤除噪声的描述词的各石窟壁画所对应的描述词和该描述词所对应的 词频,该属于噪声的描述词为对该纸质形式的石窟壁画中的描述信息和/或该纸 质形式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别时,出现的 错误识别的描述词;其中,该自组织映射算法中参数选择六边形映射格点,初 始化码书选择随机码书,训练过程选择批处理batch训练算法,映射函数选择高 斯邻域函数该高斯邻域函数中σ为邻域半径,rc为单元c的位 置,c代表batch训练过程中,对应的各石窟壁画所对应的描述词训练输出结果索 引,nc表示滤除噪声的描述词的各石窟壁画所对应的描述词与未滤除噪声的描 述词间的高斯距离,rc是batch训练过程输出的滤除噪声的描述词的各石窟壁画所 对应的描述词,ri是训练输入的各石窟壁画所对应的描述词,||rc-ri||表示训练时 产生的噪声的一阶原点矩,根据该高斯距离可以依据现有技术得到滤除噪声的 描述词的各石窟壁画所对应的描述词,该描述词得到后,其对应的词频也相应 得到;依据现有技术,自组织映射获得的最佳匹配单元(BMU,BestMatchingUnits) 可表示为其中,x代表输入的预设的词频值,mi表示各石窟 壁画所对应的描述词所对应的词频,mc表示最佳匹配的各石窟壁画所对应的描 述词所对应的词频,该公式可以表示为最佳匹配的单元的欧拉距离,等于各石 窟壁画所对应的描述词所对应的词频与该预设词频值的欧拉距离的最小值。

S103:将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元 组的预定类别属性,其中,该预定类别属性包括:时间类属性、空间类属性和 描述类属性;

需要说明的是,该描述类属性中包含了除时间类属性和空间类属性以外的 所有关于该石窟壁画的描述角度的词频超过第一预设阈值的描述词,根据描述 词的描述角度进行了分类,其中,该第一预设阈值与门限值意义相同。该描述 类属性可以包括风格类属性、色彩类属性和主题类属性等等;该空间类属性可 以包括描述该石窟壁画为第几窟的描述词,可以为该石窟壁画所属的地理位置 的描述词等等;该时间类属性可以包括该石窟壁画为某某年间所著的描述词, 也可以为该石窟壁画所描述的某某年间的情景的描述词等等。

经无监督学习的自组织映射算法得到词wk,l的词频记为fk,l,进一步可得到的

S104:从各石窟壁画的第一描述数据中,确定所对应元组的属于预定类别 属性的各个描述词所对应的多个描述子数据,并将该多个描述子数据中出现次 数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性 值;

需要说明的是,针对各石窟壁画的第一描述数据,确定所对应元组的属于 预定类别属性的各个描述词所对应的多个描述子数据,取该多个描述子数据中 出现次数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组 的属性值,具体的该属性值也相应的可以分为时间类、空间类和描述类,其中, 描述类还可以根据该目标描述子数据的描述角度再进行分类。

S105:根据各个元组的属于描述类属性的各个描述词的属性值,将该各个 元组关联成复杂网络,其中,复杂网络中的节点为该元组;

需要说明的是,根据社会学相关理论,一个被广泛接受的假设是:关联元 组具有相同的属性值。根据这一假设,可以选择具有相同属性值的元组建立关 联,从而将该石窟壁画群关联成为一个复杂网络。进一步考虑到最终目的是要 确定各石窟壁画间的时空关联关系,故而在关联复杂网络时可以暂时排除对时 间类属性值、空间类属性值的考虑,而仅考虑描述类属性值是否相同,进而关 联成复杂网络。

具体的,所述根据各个元组的属于描述类属性的各个描述词的属性值,将 该各个元组关联成复杂网络,可以包括:

针对每两个元组,当该两个元组的属于描述类属性的各个描述词的属性值 相同的数量超过第三预设阈值时,确定该两个元组相互关联;

依次确定每两个元组间的关联关系,将该各个元组关联成复杂网络。

举例而言,记为元组Il的除时间类属性值、空间类属性值外的描述 类属性值,其中,分别表示元组Il的除时间类属性值、空间类属性值外 的描述类属性值,则当两个元组Il和Ik间属性满足e≥fn,时,即可 认为两个元组Il和Ik是具有关联关系的,其中,分别表示元组Ik的除时间 类属性值、空间类属性值外的描述类属性值,分别表示元组Il的除时间 类属性值、空间类属性值外的描述类属性值,fn表示关联关系门限即第三预设 阈值。

进一步,对于复杂网络,对建立关联关系的元素(即各元组),可以利用加 权邻接矩阵A表示,所有的连接关系。加权邻接矩阵的第l行、第k列元素可表示 为:

A(l,k)=wl,k,||{i:ulni=ukni}||fn0,else,

其中wl,k≠0代表网络中顶点l和k之间的有边连通,且边的权为wl,k(例如, 取权值为两个元组Il和Ik的相同属性个数,即wl,k表示两个元 组Il和Ik的相同属性个数,若取wl,k=1,即为一般的邻接矩阵。

S106:利用复杂网络分析算法,将该复杂网络中的所有元组以模块化参数 最大化的标准分割为多个网络模块,每个网络模块中包括至少一个元组;

需要说明的是,以模块化参数最大化的标准分割该由元组关联成的复杂网 络,模块化参数最大时,其模块内部的元组具有较强的关联关系。

具体的,以模块化参数最大化的标准分割为多个网络模块,其中,模块化 参数可以定义为:

Q=12AΣkΣl(ak,l-akal2A)δ(Ik,Il),

其中,Q表示模块化参数,δ(Ik,Il)为克罗内克delta函数(theKroneckerdelta function),定义为

wk,l表示加权邻接矩阵A的第k行、第l列元素即表示两个元组Il和Ik的相 同属性个数,ak=Σlakl,A=12Σkak;

其中,ak表示加权邻接矩阵A的第l列的第k个元素的和,akl表示加权邻接矩 阵A的第l列的第k个元素。

要搜索最大化的Q值,一种可行的方法是利用塔布(Tabu)搜索。该算法认为 网络是一个马尔可夫链,元组代表马尔科夫链的状态,塔布搜索的过程即状态 转换的过程。塔布搜索过程从一个假设的初始的网络模块结构P_Init(即随机选 取一个元组)开始,进行迭代搜索。迭代搜索从网络模块结构P_Iter开始,将该 网络模块结构P_Iter在迭代开始时认为是当前迭代过程中具有最大模块化参数 的网络模块结构P_Best,遍历所有元组,执行塔布移动过程,即随机决定该元组 所属的网络模块(也可以由该元组新建网络模块),塔布移动后产生的网络模块 结构为P_Neig。若P_Neig的模块化参数比P_Best的模块化参数大,则更新P_Neig 为P_Best。下次迭代起始时,取P_Iter=P_Best。迭代过程中,P_Best没有更新的 次数用变量Num_Idle表示。若迭代进行过程中,Num_Idle=MT,MT为迭代次数 门限,则可认为P_Best已经是最优的网络模块结构,即P_Best为模块化参数最大 的网络模块。其中,随着MT的逐渐增大,所取网络模块结构P_Best以概率1收敛 于最优网络模块结构。

S107:将该多个网络模块中符合预定条件的目标网络模块所包括元组对应 的石窟壁画确定为存在时空关联关系,其中,该预定条件包括:所包括元组的 属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不 同。

由于在关联复杂网络时回避了时间类属性值和空间类属性值,故网络模块 的选取与时间类属性和空间类属性无关。另一方面,从网络模块化参数最大化 的角度出发,网络模块内部的元组具有较强的关联关系。因而,可以考虑元组 包含时间类属性和空间类属性在内的所有属性的属性值其中, 分别表示元组Il的除时间类属性值、空间类属性值外的描述类属性值,tl表示元组Il的时间类属性值、sl表示元组Il的空间类属性值。若同一网络模块内包 含具有不同时间类属性值或空间类属性值的元组,则说明不同时间、空间的壁 画之间存在时空关联特性即存在时空关联关系。

可以理解的是,为了更好的对该石窟壁画群中各石窟壁画的整体分析,可 以进行定量的确定该石窟壁画群中各石窟壁画的时空关联关系,具体的,在所 述将该多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁 画确定为存在时空关联关系之后,还可以包括:

计算该目标网络模块占所有网络模块的百分比,以定量确定该石窟壁画群 中各石窟壁画的时空关联关系。

应用本发明实施例,首先确定石窟壁画群中各石窟壁画的第一描述数据, 并将各石窟壁画确定为一个元组,基于Apriori算法对该第一描述数据进行词频 统计,得到各石窟壁画的描述词及其所对应的词频,进而确定相应元组的预定 类别属性,根据该预定类别属性确定相应元组的属性值,以属于描述类属性的 各个描述词的属性值,将各个元组关联成复杂网络,利用复杂网络分析算法, 将该复杂网络分割为多个网络模块,确定符合预定条件的目标网络模块所包括 元组对应的石窟壁画确定为存在时空关联关系,可以挖掘确定石窟壁画群中石 窟壁画的时空关联关系,为研究石窟壁画的整体关联关系提供了参考数据。

相应于上述方法实施例,如图2所示,本发明实施例还提供了一种挖掘石窟 壁画群中石窟壁画时空关联关系的装置,该装置可以包括:

确定单元201:用于确定石窟壁画群中各石窟壁画的第一描述数据,并将每 幅石窟壁画确定为一个元组,其中,该石窟壁画的第一描述数据为:从预先获 得的该石窟壁画中的描述信息以及预先获得的关于该石窟壁画的介绍信息中提 取得到;

词频统计单元202:用于基于Apriori算法对各石窟壁画的第一描述数据进行 第一词频统计,进而,获得各石窟壁画所对应的描述词和所述描述词所对应的 词频;

预定类别属性确定单元203:用于将各石窟壁画中词频超过第一预设阈值的 多个描述词确定为相应元组的预定类别属性,其中,该预定类别属性包括:时 间类属性、空间类属性和描述类属性;

属性值确定单元204:用于从各石窟壁画的第一描述数据中,确定所对应元 组的属于预定类别属性的各个描述词所对应的多个描述子数据,并将该多个描 述子数据中出现次数超过预设数量阈值的目标描述子数据确定为相应描述词所 对应的元组的属性值;

复杂网络关联单元205:用于根据各个元组的属于描述类属性的各个描述词 的属性值,将该各个元组关联成复杂网络,其中,复杂网络中的节点为该元组;

网络模块分割单元206:用于利用复杂网络分析算法,将该复杂网络中的所 有元组以模块化参数最大化的标准分割为多个网络模块,每个网络模块中包括 至少一个元组;

时空关联关系确定单元207:用于将该多个网络模块中符合预定条件的目标 网络模块所包括元组对应的石窟壁画确定为存在时空关联关系,其中,该预定 条件包括:所包括元组的属于时间类属性的描述词的属性值不同和/或空间类属 性的描述词的属性值不同。

应用本发明实施例,首先确定石窟壁画群中各石窟壁画的第一描述数据, 并将各石窟壁画确定为一个元组,基于Apriori算法对该第一描述数据进行词频 统计,得到各石窟壁画的描述词及其所对应的词频,进而确定相应元组的预定 类别属性,根据该预定类别属性确定相应元组的属性值,以属于描述类属性的 各个描述词的属性值,将各个元组关联成复杂网络,利用复杂网络分析算法, 将该复杂网络分割为多个网络模块,确定符合预定条件的目标网络模块所包括 元组对应的石窟壁画确定为存在时空关联关系,可以挖掘确定石窟壁画群中石 窟壁画的时空关联关系,为研究石窟壁画的整体关联关系提供了参考数据。

具体的,该词频统计单元202基于Apriori算法对各石窟壁画的第一描述数据 进行第一词频统计时,可以包括:

基于Apriori算法对各石窟壁画的第一描述数据进行除语气助词、数字、语 气词、标点符号以及结构助词之外的第一词频统计。

具体的,关于该石窟壁画中的描述信息的获得方式,可以包括:

对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而 获得该石窟壁画中的描述信息;

关于该石窟壁画的介绍信息的获得方式,可以包括:

对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而 获得该石窟壁画的介绍信息。

具体的,所述词频统计单元202具体用于:

利用基于无监督学习的自组织映射算法对该各壁画所对应的描述词进行量 化分析,以滤除属于噪声的描述词;

获得滤除噪声的描述词的各石窟壁画所对应的描述词和该描述词所对应的 词频,该属于噪声的描述词为对该纸质形式的石窟壁画中的描述信息和/或该纸 质形式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别时,出现的 错误识别的描述词;其中,该自组织映射算法中参数选择六边形映射格点,初 始化码书选择随机码书,训练过程选择批处理batch训练算法,映射函数选择高 斯邻域函数该高斯邻域函数中σ为邻域半径,rc为单元c的位 置,c代表batch训练过程中,对应的各石窟壁画所对应的描述词训练输出结果索 引,nc表示滤除噪声的描述词的各石窟壁画所对应的描述词与未滤除噪声的描 述词间的高斯距离,rc是batch训练过程输出的滤除噪声的描述词的各石窟壁画所 对应的描述词,ri是训练输入的各石窟壁画所对应的描述词,||rc-ri||表示训练时 产生的噪声的一阶原点矩。

具体的,该复杂网络关联单元205根据各个元组的属于描述类属性的各个描 述词的属性值,将该各个元组关联成复杂网络,可以包括:

针对每两个元组,当该两个元组的属于描述类属性的各个描述词的属性值 相同的数量超过第三预设阈值时,确定该两个元组相互关联;

依次确定每两个元组间的关联关系,将该各元组关联成复杂网络。

具体的,本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空关联 关系的装置,还包括时空关联关系定量确定单元;

该时空关联关系定量确定单元:用于在所述时空关联关系确定单元207将该 多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定 为存在时空关联关系之后,计算该目标网络模块占所有网络模块的百分比,以 定量确定该石窟壁画群中各石窟壁画的时空关联关系。

对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比 较简单,相关之处参见方法实施例的部分说明即可。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些 实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含” 或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过 程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他 要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有 更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要 素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤 是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读 取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。 凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在 本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号