首页> 中国专利> 一种基于知识图谱的网站性能拨测度量方法和装置

一种基于知识图谱的网站性能拨测度量方法和装置

摘要

本发明公开一种基于知识图谱的网站性能拨测度量方法和装置,包括:步骤1、构建基于网络拨测的知识图谱;步骤2、根据所述知识图谱,采用基于图卷积网络的网站性能智能推理,实现网站性能拨测度量。采用本发明的技术方案,通过知识图谱推理当前网站的各个性能指标,得出具有强解释性的评估报告。

著录项

  • 公开/公告号CN113824707A

    专利类型发明专利

  • 公开/公告日2021-12-21

    原文格式PDF

  • 申请/专利权人 厦门吉快科技有限公司;

    申请/专利号CN202111067717.4

  • 发明设计人 许渊培;茅剑;林金良;

    申请日2021-09-13

  • 分类号H04L29/06(20060101);H04L29/08(20060101);H04L12/26(20060101);H04L12/24(20060101);G06F16/958(20190101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);G06N5/02(20060101);

  • 代理机构11562 北京东方盛凡知识产权代理事务所(普通合伙);

  • 代理人李娜

  • 地址 361002 福建省厦门市集美区软件园三期诚毅北大街62号109单元0837号

  • 入库时间 2023-06-19 13:46:35

说明书

技术领域

本发明属于互联网技术领域,尤其涉及一种基于知识图谱的网站性能拨测度量方法和装置。

背景技术

随着信息技术的发展和相关需求的高涨,互联网上的网站数量飞速增长。然而,许多网站出于运营成本、管理意识等各方面原因,没有做好网站的安全防护工作、网站的性能也得不到保证。若网站存在严重的性能问题没有解决,将可能导致用户无法访问、数据丢失等一系列问题,这值得引起重视。

目前能够影响网站性能的方式有很多,如拒绝服务攻击(Denial of Service,DoS)、DNS劫持、DNS污染等。传统方式对于网站的性能度量和检测往往基于一套固定的程序和模块,需要人工干预。传统方式极度依赖于经验,带有较强的主观性,且灵活性和鲁棒性较差,容易受单个或少量因素的影响。因此,如何度量、从哪些方面度量网站的性能是目前急迫要解决的问题。

发明内容

本发明要解决的技术问题是,提供一种基于知识图谱的网站性能拨测度量方法和装置。

为实现上述目的,本发明采用如下的技术方案:

一种基于知识图谱的网站性能拨测度量方法,包括以下步骤:

步骤1、构建基于网络拨测的知识图谱

步骤2、根据所述知识图谱,采用基于图卷积网络的网站性能智能推理,实现网站性能拨测度量。

作为优选,步骤1具体包括:

步骤11、采用网络拨测方式得到关于网站性能的结构化数据、半结构化数据、非结构化数据;

步骤12、对所述网站性能半结构化数据和非结构化数据进行知识抽取;

步骤13、对知识抽取的结果进行实体对齐、实体消歧、属性对齐,以修正网站性能知识库内的知识。

作为优选,所述知识抽取包含实体抽取、关系抽取和属性抽取。

作为优选,步骤12中,采用基于文本卷积神经网络进行关系抽取,所述文本卷积神经网络由一个卷积层、一个池化层和一个全连接层构成,具体包括:

步骤121、对网站性能的半结构化数据和非结构化数据进行预处理,将数据中的每个单词转化为一个k维词向量;对于一个包含n个单词的网站性能半结构化数据或非结构化数据,采用一个n*k的矩阵表示,并将n*k的矩阵作为文本卷积神经网络的输入;

步骤122、通过卷积层对输入的n*k的网站性能数据矩阵提取高维语义特征,卷积计算的公式为:

其中,N是神经网络中每层的层号,L

步骤123、对高维语义特征通过最大池化约减特征图的维度,将池化后的特征与最后一层的m个分类神经元进行全连接,得到一个m维向量;使用Softmax函数对m维向量进行计算,得到m个类别分别对应的概率值,取概率值最大的类别,即网站性能关系抽取的结果,Softmax的计算公式如下:

其中,z

作为优选,步骤2具体包括:

步骤21、将网站性能知识划分子项目,作为图卷积网络的输入;

步骤22、对图的每个节点采用发射、接收和变换以进行图卷积,再通过激活函数ReLU的非线性变换,完成一层计算变换;

步骤23、重复步骤22,将ReLU层的输出再输入到图卷积层,重复使用图卷积计算和非线性变换,不断提取网站性能的特征;

步骤24、在多次提取特征后,完成最终的网站性能综合知识推理,给出经过知识推理后网站性能的度量结果。

本发明还包括一种基于知识图谱的网站性能拨测度量装置,包括:

构建模块,用于构建基于网络拨测的知识图谱

推理模块,用于根据所述知识图谱,采用基于图卷积网络的网站性能智能推理,实现网站性能拨测度量。

作为优选,所述构建模块包括:

处理单元,用于采用网络拨测方式得到关于网站性能的结构化、半结构化、非结构化数据;

抽取单元,用于对所述网站性能半结构化数据和非结构化数据进行知识抽取;

融合单元,用于对知识抽取的结果进行实体对齐、实体消歧、属性对齐,以修正网站性能知识库内的知识。

作为优选,所述知识抽取包含实体抽取、关系抽取和属性抽取。

作为优选,抽取单元采用基于文本卷积神经网络进行关系抽取,所述文本卷积神经网络由一个卷积层、一个池化层和一个全连接层构成,具体包括:

预处理组件,用于对网站性能的半结构化数据和非结构化数据进行预处理,将数据中的每个单词转化为一个k维词向量;

提取组件,用于通过卷积层对输入的n*k的网站性能数据矩阵提取高维语义特征,其中,n*k代表包含n个单词的网站性能半结构化数据或非结构化数据;

抽取组件,用于对高维语义特征通过最大池化约减特征图的维度,将池化后的特征与最后一层的m个分类神经元进行全连接,得到一个m维向量,使用Softmax函数对的m维向量进行计算,得到m个类别分别对应的概率值,即网站性能关系抽取的结果。

作为优选,度量模块包括:

划分单元,用于将网站性能知识划分子项目,作为图卷积网络的输入;

第一计算单元,用于对图的每个节点采用发射、接收和变换以进行图卷积,再通过激活函数ReLU的非线性变换,完成一层计算变换;

第二计算单元,用于将ReLU层的输出再输入到图卷积层,重复使用图卷积计算和非线性变换,不断提取网站性能的特征;

度量单元,用于在多次提取特征后,完成最终的网站性能综合知识推理,给出经过知识推理后网站性能的度量结果。

本发明的网站性能拨测度量方法,通过知识图谱推理当前网站的各个性能指标,得出具有强解释性的评估报告。

附图说明

图1为网站性能度量知识图谱基本关系图;

图2为网站ping信息映射为知识图谱三元组示例图;

图3为网站性能知识图谱构建流程图;

图4为基于文本卷积神经网络的关系抽取示意图;

图5为网站性能知识推理过程示意图;

图6为局部子图构建示意图;

图7为图卷积计算原理示意图;

图8为拉普拉斯矩阵示意图;

图9为基于再学习的智能优化;

图10为基于知识图谱的网站性能拨测度量方法流程图;

图11为基于知识图谱的网站性能拨测度量装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

如图10所示,本发明提供一种基于知识图谱的网站性能拨测度量方法包括:

步骤S1、构建基于网络拨测的知识图谱

本发明通过知识图谱技术完成网站性能的度量,并给出可靠的评估报告。网站性能知识图谱构建途径为:基于网络拨测技术对网站进行全方面度量获取实测数据,通过信息抽取等过程逐步构建网站性能度量知识图谱。

以在DNS服务器上的跳转为例,知识图谱的构建从域名的访问出发,将其映射为基本的知识图谱三元组,如图1所示。以图1中所示的网站性能关系图为基础,不断输入关于网站性能的数据,即可逐步扩展知识图谱中的节点。

通过抽取网络拨测项目作为网站性能知识图谱中的实体,网络拨测的测量指标、测试地点、测试结果等相关信息作为实体的属性,从而实现知识图谱的映射,如图2所示。

如图3所示,构建网站性能知识图谱包括:网站性能知识表达、网站性能知识抽取和网站性能知识融合。

所述网站性能知识表达具体为:

由以网络拨测方式得到关于网站性能的结构化、半结构化、非结构化数据。

1)结构化数据

通过网络拨测技术,可测量当前时刻关于特定网站的各项性能指标,包括PING、DNS、路由、IPv6等,生成相应的结构化数据。网站性能指标的结构化数据可直接融合到知识图谱中。

2)半结构化数据和非结构化数据

在理想状态下,基于结构化的网站性能数据的支撑,可逐步构建网站性能知识图谱。但在实际知识图谱的构建中,不仅要考虑结构化网站性能数据,也应同时考虑到半结构化和非结构化的网站性能数据,它是不可或缺的组成部分,可作为结构化网站性能数据的有力补充。此外,少量的非结构化网站性能数据也可以被提取利用,以增强知识图谱的完整性。因此,构建知识图谱需要对多种数据进行判别和处理。

网站性能知识抽取具体为:

半结构化和非结构化数据中各项之间可能存在着不明确的关系名称和关系对应,所以对其进行知识抽取,包括实体抽取、关系抽取和属性抽取。本发明基于文本卷积神经网络(Text Convolutional Neural Networks)进行关系抽取,如图4所示。

1)数据预处理

在使用文本卷积神经网络进行关系抽取之前,先要对网站性能的半结构化数据和非结构化数据进行预处理,将数据中的每个单词转化为一个k维词向量。对于一个包含n个单词的网站性能半结构化数据或非结构化数据,可用一个n*k的矩阵表示,并将n*k的矩阵作为文本卷积神经网络的输入。

2)文本卷积神经网络

本发明提出的文本卷积神经网络由一个卷积层、一个池化层和一个全连接层构成。首先通过卷积层对输入的n*k的网站性能数据矩阵提取高维语义特征,卷积计算的公式为:

其中,N是神经网络中每层的层号,L

为了保留最具有区分度的特征,使用最大池化约减特征图的维度。将池化后的特征与最后一层的m个分类神经元进行全连接,得到一个m维向量。最后使用Softmax函数对上一步得到的m维向量进行计算,得到m个类别分别对应的概率值,取概率值最大的类别,即网站性能关系抽取的结果,Softmax的计算公式如下:

其中,z

本发明将关系抽取问题视为分类任务,并使用随机梯度下降法训练用于网站性能关系抽取的卷积神经网络模型,使关系抽取更为智能化,并且可不断学习。

网站性能知识融合具体为:

在网站性能知识库的知识融合过程中,由于无法保证知识表达获取的数据和知识抽取获取的三元组是完全正确的,所以本发明进行了实体对齐、实体消歧、属性对齐,修正网站性能知识库内的知识。

1)实体对齐

在知识图谱中使用实体对齐判断两个或者多个不同信息来源的实体是否属于现实世界中的同一实体,将表征同一对象的实体聚集在一起,在实体间构建对齐关系,同时对实体包含的信息进行融合。

2)实体消歧

实体消歧根据数据中上下文信息消除一词多义的歧义现象。

3)属性对齐

属性对齐判断两个或多个属性是否可以表示同一个属性,把不同来源或不同名字但表征相同的属性进行信息融合,从而获得更丰富、更准确的信息。

步骤S2、基于知识图谱的网站性能智能推理

2.1、基于图卷积网络的网站性能智能推理

本发明在上一步构建的网站性能知识图谱的基础上,结合图卷积网络(GraphConvolutional Networks)方法,对智能提取的关于各项性能指标的网站性能知识进行推理,如图5所示。

2.1.1划分子项目

对于图谱的知识推理,相较于基于全局结构的推理,引入局部结构的推理使图神经网络中的特征粒度更细且计算代价低。以网络拨测技术为主体,划分子项目,得到网站性能知识图谱局部子图,作为图卷积网络的输入,局部子图的构建如图6所示。

2.1.2图卷积网络

对图的每个节点进行发射(send)、接收(receive)、变换(transform),进行图卷积,再通过激活函数(ReLU)的非线性变换,完成一层计算变换。

1)图卷积计算

图卷积的计算是将处于空域的图信号进行图傅里叶变换,再对变换后数据与卷积核进行逐点乘积,然后使用反傅里叶变换将数据恢复到原来的图信号所在的空域中,从而完成了对图信号特征提取,具体过程如图7所示。

图傅里叶变换通过将图信号在拉普拉斯矩阵的特征向量上进行投影,从而得到图信号的频谱图,图的拉普拉斯矩阵由图的度矩阵和邻接矩阵相减而得来,如图8所示。

经过图卷积之后的数据使用ReLU函数将小于零的值变为零,而正值不变,实现单侧抑制,ReLU的函数为:

ReLU=max(0,x)

2.1.3多层特征提取

重复2.1.2,将ReLU层的输出再输入到图卷积层,对数据重复使用图卷积计算和非线性变换,不断提取网站性能的特征,直到收敛,使特征更加高级、抽象。

最后,在多次提取特征后,图卷积神经网络的输出结果为一张图,图中预测出图谱中所缺失的关系,将给出经过知识推理后的网站性能的全面度量结果,完成最终的网站性能综合知识推理。

2.2、基于再学习的智能优化

如图9所示,考虑到可以通过开放API接口与第三方网站性能知识库共享数据,本发明设计了一个具有开放性的网站性能知识图谱。通过融合不同来源的网站性能知识,可持续补充更新网站性能知识图谱,再通过图卷积神经网络的计算,增强智能推理网站性能的能力,实现基于再学习的智能优化。由于第三方知识库的网站性能数据通常是结构化的,因此本发明使其直接进入知识融合阶段。

在网站性能知识图谱不断更新的过程中,不仅更新和新增了网站性能知识,同时也可能导致新增知识和旧知识的冲突。由于网站性能知识具有非常强的时效性,因此本发明将优先倾向于新增的网站性能知识,进行知识图谱内在的知识更新。

如图11所示,本发明还提供一种基于知识图谱的网站性能拨测度量装置,包括以下步骤:

构建模块,用于构建基于网络拨测的知识图谱

推理模块,用于根据所述知识图谱,采用基于图卷积网络的网站性能智能推理,实现网站性能拨测度量。

进一步,所述构建模块包括:

处理单元,用于采用网络拨测方式得到关于网站性能的结构化、半结构化、非结构化数据;

抽取单元,用于对所述网站性能半结构化数据和非结构化数据进行知识抽取,所述知识抽取包含实体抽取、关系抽取和属性抽取;

融合单元,用于对知识抽取的结果进行实体对齐、实体消歧、属性对齐,以修正网站性能知识库内的知识。

进一步,抽取单元采用基于文本卷积神经网络进行关系抽取,所述文本卷积神经网络由一个卷积层、一个池化层和一个全连接层构成,具体包括:

预处理组件,用于对网站性能的半结构化数据和非结构化数据进行预处理,将数据中的每个单词转化为一个k维词向量;

提取组件,用于通过卷积层对输入的n*k的网站性能数据矩阵提取高维语义特征,其中,n*k代表包含n个单词的网站性能半结构化数据或非结构化数据;

抽取组件,用于对高维语义特征通过最大池化约减特征图的维度,将池化后的特征与最后一层的m个分类神经元进行全连接,得到一个m维向量,使用Softmax函数对的m维向量进行计算,得到m个类别分别对应的概率值,即网站性能关系抽取的结果。

进一步,度量模块包括:

划分单元,用于将网站性能知识划分子项目,作为图卷积网络的输入;

第一计算单元,用于对图的每个节点采用发射、接收和变换以进行图卷积,再通过激活函数ReLU的非线性变换,完成一层计算变换;

第二计算单元,用于将ReLU层的输出再输入到图卷积层,重复使用图卷积计算和非线性变换,不断提取网站性能的特征;

度量单元,用于在多次提取特征后,完成最终的网站性能综合知识推理,给出经过知识推理后网站性能的度量结果。

本发明的基于知识图谱的网站性能拨测度量方法和装置综合网站IP、测速、DNS信息,建立网站安全知识图谱,提升网站劫持、被墙及污染检测能力。此外,本发明支持多种网站性能数据的输入,可提高知识图谱中知识库的更新效率,确保网站性能知识的时效性和准确性,以给出更加精确的评估报告。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号