首页> 中国专利> 指挥信息系统状态监控方法、系统、介质、设备及终端

指挥信息系统状态监控方法、系统、介质、设备及终端

摘要

本发明属于指挥信息系统技术领域,公开了一种指挥信息系统状态监控方法、系统、介质、设备及终端,利用样本集进行SVM预训;利用支持向量在预分类面附近产生有潜力的新样本;通过分带过采样的思想,根据距离以分类超平面为中心进行分带,逐带生成均匀分布在当前带内的新样本以保持各类样本数量的平衡。本发明通过对历史监控样本的过采样处理,消除正/异常状态样本数量不平衡造成的影响;通过修正模型更新的触发条件并引入样本的保留和遗忘机制,减少增量学习过程中样本的训练数量以降低时间开销。实验结果证明在真实系统状态样本集中的分类效果,并在不同不平衡数据集中对比现有算法,充分表现出了在增量学习过程中应对不平衡数据的能力。

著录项

  • 公开/公告号CN112508068A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 中国人民解放军空军工程大学;

    申请/专利号CN202011360318.2

  • 申请日2020-11-27

  • 分类号G06K9/62(20060101);G06Q10/06(20120101);

  • 代理机构61227 西安长和专利代理有限公司;

  • 代理人黄伟洪

  • 地址 710051 陕西省西安市长乐东路甲字1号空军工程大学

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本发明属于指挥信息系统技术领域,尤其涉及一种指挥信息系统状态监控方法、系统、介质、设备及终端。

背景技术

目前:针对系统状态的监控问题,许多云服务提供商已经将资源运行状态数据作为一种关键服务向用户开放,并开发了相应的云环境下资源监控工具,例如,Amazon的CloudWatch、Microsoft的Azure Monitor等。这些工具通过对CPU/RAM利用率、网络流量、响应时间等指标的监控和处理,分析用户订购服务的运行状态并为用户进行预警。在这个背景下,系统状态的监控问题在民用领域涌现出了大量研究。使用外部MAPE-K(Monitor,Analyze,Plan,and Execute,with a Knowledge Base common to all components)环路扩展现代自适应系统(Self-Adaptive Systems,SAS)的逻辑,从而对参与SAS监视服务的自适应过程进行管理,并对可重用架构进行开发以用于在监视服务中制定相适应决策。但该项工作侧重于对自适应的监控架构的探索,而对监控服务中具体的异常检测方法的研究不够深入。针对系统在进行功能交互时,由于冲突影响造成的系统运行状态无法正确反映的问题。提出了一种模型检测方法以在运行时监控可能失败的要素,从而触发相适应的更新。该方法被应用于包含多个子系统的汽车制动系统,并取得了良好的效果。但该方法在实时自适应方面的能力还有待进一步加强。针对SAS中潜在的不确定性进行了讨论,分析了SAS运行过程中可能出现的两类影响系统性能不确定性:监视数据的不准确和异常状态匹配的不准确。通过引入模糊理论和语义距离技术进行在线处理,提出了一种SAS状态监控方法,该方法在Bookstore系统中表现出了不错的性能。但该方法性能的优劣与状态本体有着密切联系,对状态本体的建立有着较高的要求。针对状态监视时出现的系统资源的浪费问题,在考虑了操作环境不确定性的影响的基础上,提出了一种基于“检测-识别”机制的事件识别方法。该方法采用朴素贝叶斯分类算法对系统状态进行检测,如果判断系统出现异常情况,则通过规则推理和模糊推理来识别当前发生事件,从而减少实时事件识别带来的资源开销。由于朴素贝叶斯算法假设了样本属性之间是相互独立的,而该条件在现实情况下很难满足,当属性之间出现相互关联的情况时,该方法的分类效果将会受到影响。与此同时,针对指挥信息系统状态监控的研究还处于起步阶段。考虑了监控系统在监控图生成、集中监控和扩展性等方面的不足,为了能够实现在已有系统上实施系统监控,提出了一种基于分层式插件化架构的一站式综合监控系统,并对该系统的总体架构进行了论述,分析了其中的插件设计、通用结构树和虚拟图元等关键技术。从故障整段的角度出发,利用监控代理对系统相关数据进行收集和分析,提出了故障诊断专家系统的总体结构,但并未对具体方法做深入的研究。分析了指挥控制网络存在的问题,提出了建立实时流量监控系统的思路,并基于WinPcap体系结构设计了面向指控网络的流量监控系统架构。可以看到,已有研究偏重于对指挥信息系统状态监控总体结构的构建,而针对其特点在方法层面的研究还有待进一步深入。

指挥信息系统作为军事信息系统,其部署的空间更为分散,对状态监控的实时性要求也更为苛刻。同时,由于系统状态数据的保密性问题,历史监控数据不能像民用系统一样进行分享和传播,因此在初期可能无法拥有足够多的训练样本。此外,就状态监控问题本身而言,其正常状态的样本数量肯定大于异常状态的样本数量,这种样本类别间的不平衡将有可能造成漏警率偏高的情况出现,这些都对指挥信息系统的状态监控造成了困难。从技术手段上看,系统状态监控本质上是一种分类问题,即通过各类指标数据将当前状态分为正常或是异常。常见的方法有:基于贝叶斯后验概率的统计分析方法;基于最近邻的分类方法;基于支持向量机的分类方法;基于深度学习的分类方法等。

指挥信息系统的状态监控本质上是一个分类问题,即根据数据采集系统得到的各类参数对系统当前状态做出判断。下面首先对SVM过程进行简单介绍。

SVM的核心思想就是在样本空间中找到一个最优的分类超平面,根据样本点相对于分类超平面的位置将样本集分为不同的类别。假设给定的样本集为:

{(x

其中,x

在给定样本集后S,分类超平面可以用以下线性方程来描述:

ω

其中,ω∈R

优化问题1:

当样本集线性不可分时,则可以通过定义软间隔来对问题进行求解,即通过引入松弛变量

优化问题2:

其中,C∈R

为了求解优化问题2引入拉格朗日系数a,并将优化问题2转化为对偶形式:

优化问题3:

其中,Q

需要注意的是,在计算b时可以选取任意在最大间隔边界上的支持向量进行计算。

现有技术缺点体现在:

一是对于系统状态监控问题而言,系统处于正常状态的可能性要远高于非正常状态的可能性。因而样本中的两类数据很有可能处于不平衡的状态,即正常状态的样本数量要高于非正常状态的样本数量。

针对这个问题,现有的工作通过减少或增加相应样本的方式来处理,即欠采样和过采样。欠采样方法会导致一些样本信息的丢失,从而造成模型分类效果的下降。而经典的过采样方法在过采样时具有一定的盲目性,容易导致合成的新样本质量较差。因此,有必要有针对性的生成高质量的新样本以进一步提升模型训练效果。

二是考虑指挥信息系统的特殊性,其系统状态监测数据在初期可能不会非常全面,需要在其运行过程中不断地积累,这就对SVM的增量过程提出了需求。SVM的增量过程即是在原有SVM模型的基础上利用新的样本集对SVM再次进行训练以改善其性能的过程。从理论上看,将新样本集和原有样本集进行合并,然后重新训练SVM将会得到一个最佳的模型。但这样做将会带来较大的计算开销,尤其是处于在线学习场景下,每次都重新训练将会严重影响学习的实时性。此外,随着新样本集的不断增加,重新学习的代价也会越来越大,这都将会对分类器的性能产生不利影响。基于上述考虑,SVM的增量过程应当尽可能少对原样本集的重复处理。

通过上述分析,现有技术存在的问题及缺陷为:

(1)对于系统状态监控问题,现有的工作通过减少或增加相应样本的方式来处理,造成模型分类效果的下降;而经典的过采样方法在过采样时具有一定的盲目性,容易导致合成的新样本质量较差。。

(2)将新样本集和原有样本集进行合并,带来较大的计算开销,尤其是处于在线学习场景下,每次都重新训练将会严重影响学习的实时性;此外,随着新样本集的不断增加,重新学习的代价也会越来越大,都将会对分类器的性能产生不利影响。

解决以上问题及缺陷的难度为:1.如何有针对性的训练样本2.如何设计算法步骤以处理不平衡数据集。

解决以上问题及缺陷的意义为:一是消除正/异常状态样本数量不平衡造成的影响;二是通过修正模型更新的触发条件并引入样本的保留和遗忘机制,减少增量学习过程中样本的训练数量以降低时间开销。

发明内容

针对现有技术存在的问题,本发明提供了一种指挥信息系统状态监控方法、系统、介质、设备及终端。

本发明是这样实现的,一种指挥信息系统状态监控方法,所述指挥信息系统状态监控方法利用样本集进行SVM预训(为后续的过采样做好准备);利用支持向量在预分类面附近产生有潜力的新样本(过采样步骤之一:根据支持向量生成过采样样本);通过分带过采样的思想,根据距离以分类超平面为中心进行分带,逐带生成均匀分布在当前带内的新样本以保持各类样本数量的平衡(过采样步骤之二:基于分带思想生成过采样样本);根据新加入样本判断模型是否需要更新(改进的判断条件,避免过度更新);若需要更新,则利用新样本对SVM分类模型进行更新从而实现增量过程(更加优化的更新过程,缩短更新时间和存储资源开销)。

进一步,所述指挥信息系统状态监控方法具体包括:

输入:初始样本集合S

离线阶段:

(1)设定参数:利用支持向量生成新样本的比率α,分带数q,保留比例γ,遗忘率p,模型更新触发的松弛系数μ;

(2)利用基于支持向量的新样本生成算法生成由支持向量产生的新样本集合S

(3)利用基于分带思想的过采样算法生成由支持向量产生的新样本集合S

(4)对S

(5)利用式

在线阶段:

(6)若i≤T,接受新样本集S

(7)利用式y

(8)利用式y

(9)将S

(10)对S

(11)利用式

(12)算法结束

输出:实时输出SVM分类模型;

所述离线阶段,利用已有样本进行训练以得到一个初始的分类模型;在线阶段,根据新样本集对分类模型不断更新以改善分类效果。

进一步,所述指挥信息系统状态监控方法包括:

定理1:新样本集中如果存在违背KKT条件的样本,则该新样本集中的部分或者全部样本将可能成为新的支持向量;

引理1:新样本集中如果存在违背KKT条件的样本,则历史样本集中的非支持向量可能转变为新的支持向量;

引理2:新样本集中如果不存在违背KKT条件的样本,则该新样本集中的所有样本都不会成为新的支持向量。

进一步,对于优化问题3,样本集中的每个样本都应该满足以下KKT条件:

当新样本x

y

若其大于0,则认为该样本满足KKT条件,模型无需进行更新;否则,需要考虑对SVM进行重新训练,将判定式放宽松为:

y

其中,μ的值应当介于0到1之间,其值越大则触发机制越为宽容,从而减小模型更新的频率;

保留集的选取,对于样本i,将样本i的重要度定义为:

其中,h

增量过程中不平衡数据的处理,使用过采样的方式补充相应样本,新样本的生成,对于S

进一步,所述基于支持向量的新样本生成算法具体包括:

输入:样本集合{(x

(1)利用样本集合{(x

(2)根据α和样本集合中正类样本和负类样本的个数确定需要生成的新样本个数

(3)计算正类支持向量到其类中心的距离csn′

(4)计算每个支持向量应该生成的新样本数

(5)对于每个被选中的支持向量利用式

输出:由支持向量产生的新样本集合S

在进行预分类得到预分类超平面ω′

其中,α∈[0,1]为利用支持向量生成新样本的比率,该值反应对支持向量的信任程度;若初始样本基本能够反映整个样本空间的分布,则选取一个较大的α以尽可能多的生成高质量新样本;对于正类支持向量集合sv′

其中,λ和κ为调整系数,满足λ+κ=1,λ越靠近0.5则新样本的分布越分散;当λ的值趋近1或者0时,新样本将集中于

进一步,所述基于分带思想的过采样算法包括:

输入:样本集合{(x

(1)利用式

(2)利用式

(3)令新样本集合

1)令

2)计算带内样本集合Set

3)利用式

4)将新样本sn加入到当前带内样本集合中,Set

5)令

输出:由非支持向量产生的新样本集合S

根据样本的分布来确定分带间隔:

其中,

基于分带的新样本生成,在执行完分带过程后,需要对每个带内的样本进行过采样;分带数为q,负类样本数量为m

在得到样本对(s

对sn′

其中,d为样本s

本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:利用样本集进行SVM预训;利用支持向量在预分类面附近产生有潜力的新样本;通过分带过采样的思想,根据距离以分类超平面为中心进行分带,逐带生成均匀分布在当前带内的新样本以保持各类样本数量的平衡。

本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:利用样本集进行SVM预训;利用支持向量在预分类面附近产生有潜力的新样本;通过分带过采样的思想,根据距离以分类超平面为中心进行分带,逐带生成均匀分布在当前带内的新样本以保持各类样本数量的平衡。

本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的指挥信息系统状态监控方法。

本发明的另一目的在于提供一种实施所述指挥信息系统状态监控方法的指挥信息系统状态监控系统,所述指挥信息系统状态监控系统包括:

SVM预训模块,用于利用样本集进行SVM预训;

新样本产生模块,用于利用支持向量在预分类面附近产生有潜力的新样本;

分带处理模块,用于通过分带过采样的思想,根据距离以分类超平面为中心进行分带,逐带生成均匀分布在当前带内的新样本以保持各类样本数量的平衡。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明通过对历史监控样本的过采样处理,消除正/异常状态样本数量不平衡造成的影响;通过修正模型更新的触发条件并引入样本的保留和遗忘机制,减少增量学习过程中样本的训练数量以降低时间开销。实验结果证明了本发明算法的有效性,显示了其在真实系统状态样本集中的分类效果,并在不同不平衡数据集中对比现有算法,充分表现出了在增量学习过程中应对不平衡数据的能力。基于上述分析,本发明首先利用样本集进行SVM预训,然后利用支持向量在预分类面附近产生有潜力的新样本,同时借鉴分带过采样的思想,根据距离以分类超平面为中心进行分带,然后逐带生成均匀分布在当前带内的新样本以保持各类样本数量的平衡。

本发明针对系统正常/异常状态样本不平衡的情况,首先利用支持向量生成一部分新样本,然后通过分带的思想逐带产生分布更加均匀的新样本以调节原样本集的不平衡比。针对系统监控实时性要求高且在运行过程中会有新样本不断加入的特点,采用增量学习的方式对分类模型进行持续更新,在放松KKT更新触发条件的基础上,通过定义样本重要度并引入保留率和遗忘率的方式减少了增量学习过程中所需训练的样本数量。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的指挥信息系统状态监控方法流程图。

图2是本发明实施例提供的指挥信息系统状态监控系统的结构示意图;

图2中:1、SVM预训模块;2、新样本产生模块;3、分带处理模块。

图3是本发明实施例提供的基于支持向量的新样本生成过程示意图。

图4是本发明实施例提供的样本空间分带示意图。

图5是本发明实施例提供的带内新样本生成过程示意图。

图6是本发明实施例提供的样本向量长度计算过程示意图。

图7是本发明实施例提供的样本向量的反向过程示意图。

图8是本发明实施例提供的新样本违背KKT条件的三种情况示意图。

图9是本发明实施例提供的正负样本的重要度排序示意图。

图10是本发明实施例提供的各算法的三种指标比较示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种指挥信息系统状态监控方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。

如图1所示,本发明提供的指挥信息系统状态监控方法包括以下步骤:

S101:利用样本集进行SVM预训;

S102:利用支持向量在预分类面附近产生有潜力的新样本;

S103:通过分带过采样的思想,根据距离以分类超平面为中心进行分带,逐带生成均匀分布在当前带内的新样本以保持各类样本数量的平衡。

本发明提供的指挥信息系统状态监控方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的指挥信息系统状态监控方法仅仅是一个具体实施例而已。

如图2所示,本发明提供的指挥信息系统状态监控系统包括:

SVM预训模块1,用于利用样本集进行SVM预训;

新样本产生模块2,用于利用支持向量在预分类面附近产生有潜力的新样本;

分带处理模块3,用于通过分带过采样的思想,根据距离以分类超平面为中心进行分带,逐带生成均匀分布在当前带内的新样本以保持各类样本数量的平衡。

下面结合附图对本发明的技术方案作进一步的描述。

1.不平衡数据的处理

1.1基于支持向量的新样本生成

在进行预分类得到预分类超平面ω′

其中,α∈[0,1]为利用支持向量生成新样本的比率,该值反应了对支持向量的信任程度。若初始样本基本能够反映整个样本空间的分布,则可以选取一个较大的α以尽可能多的生成高质量新样本。对于正类支持向量集合sv′

其中,λ和κ为调整系数,满足λ+κ=1。上述新样本的生成过程如图3所示,可以看到,λ越靠近0.5则新样本的分布越分散;当λ的值趋近1或者0时,新样本将集中于

本发明提出的基于支持向量的新样本生成算法如下:

算法1:基于支持向量的新样本生成算法

为了使新产生的样本更加均匀的散布在当前带内,本发明提出了一种基于分带的过采样方法。该方法利用分带的思想对样本空间进行划分,并根据样本所处的分布选择相应的样本以在样本分布稀疏的区域生成新样本。

2.样本空间的分带过程

图4显示了一种分带情况,六角形表示各类中心,h

其中,

3.基于分带的新样本生成

在执行完分带过程后,需要对每个带内的样本进行过采样。假设分带数为q,负类样本数量为m

以图4中第一带中的样本为例,其中正类集有2个样本,负类集有3个样本,因此需要在正类集中的第1带中增加1个样本。在利用原有样本产生新样本时,为了使新样本能够更好的散布在当前带内,可以先对当前样本的分布情况进行分析,即以类中心为起点,每个样本为终点,将样本视为向量,对于单个样本s

在图5中的(a)中可以看到,θ

在得到样本对(s

这里,为了保证新样本sn′

其中,d为样本s

综上,基于分带思想的过采样算法如下:

算法2:

2.SVM增量过程

从SVM过程中不难发现,分类超平面与支持向量是之间相关的。对于一个样本集而言,支持向量可以代表该集合的所有样本。从这个角度上看,SVM模型的训练本质上也是寻找支持向量的过程。而对于增量学习过程中的支持向量有如下定理和引理:

定理1:新样本集中如果存在违背Karush-Kuhn-Tucker(KKT)条件的样本,则该新样本集中的部分或者全部样本将可能成为新的支持向量。

引理1:新样本集中如果存在违背KKT条件的样本,则历史样本集中的非支持向量可能转变为新的支持向量。

引理2:新样本集中如果不存在违背KKT条件的样本,则该新样本集中的所有样本都不会成为新的支持向量。

基于上述定理和引理,许多工作得以进行展开,并出现了大量的增量SVM方法。这些方法大多是基于以下流程:首先判断新样本集中是否存在违反KKT条件的样本,在此基础上分析有可能成为新支持向量的样本并组成待训练样本集S

2.1模型更新的触发机制

对于优化问题3,样本集中的每个样本都应该满足以下Karush-Kuhn-Tucker(KKT)条件:

当新样本x

y

若其大于0,则认为该样本满足KKT条件,模型无需进行更新;否则,需要考虑对SVM进行重新训练。这里,为了减少在线学习时模型的频繁更新的情况,可以考虑将判定式放宽松为:

y

其中,μ为模型更新触发的松弛系数。从图8中可以看到,新样本A(μ∈[2,+∞)),B(μ∈[1,2))和C(μ∈[0,1))均违反了KKT条件,这说明此时的分类超平面理论上不是最优的,需要进行模型的更新。但如果只从分类结果上看,样本C的分类结果还是正确的,因而这里可以考虑不对模型进行更新。当然,由于样本C的特殊性,其距离当前分类超平面很近,后续成为支持向量的可能性非常大,样本C应当被加入到保留集中,待下次模型更新时再做考虑。需要注意的是,若出现了类似样本A和B情况的样本,则当前模型必须进行更新。综上,μ的值应当介于0到1之间,其值越大则触发机制越为宽容,从而减小模型更新的频率。

2.2保留集的选取

对于样本i,其重要度反应了其后续可能成为支持向量的可能性,这里可以将样本i的重要度定义为:

其中,h

在得到排序的样本集后,保留集S

这里需要注意的是,该遗忘策略的执行是有前提条件的,即当前样本数量足够多并且已经能够基本体现出总体样本的分布情况。在这个前提下,后续新样本的加入对于分类面的影响将会比较小,分类超平面面也不会出现太大的偏移和旋转,被遗忘的样本成为支持向量的可能性也就将维持在一个很低的水平。

2.3增量过程中不平衡数据的处理

在SVM的增量过程中,可能成为新支持向量的样本集S

综上所述,本发明提出的基于SVM增量学习的C4ISR系统状态监测算法总体流程如下:

算法3:

其中,步骤a-e属于离线阶段,利用已有样本进行训练以得到一个初始的分类模型。步骤f-k属于在线阶段,根据新样本集对分类模型不断更新以改善分类效果。由于SVM在小样本情况下也能够表现出良好的性能,因此算法3能在初始样本集中样本数量较少的情况下获得不错的分类效果。此外,该算法在离线和在线两个阶段都存在着样本的过采样操作,能够在线处理系统监控过程中样本集的不平衡问题。

下面结合实验对本发明的技术效果作详细的描述。

本发明利用真实系统(Bookstore系统)中的数据对算法进行测试以验证本发明所提算法的有效性和优越性。Bookstore系统是具有B/S架构的分布式系统,主要功能包括:用户注册和登录,商品搜索和显示,广告推荐以及线上支付等功能。Bookstore结构逻辑较为复杂,且运行环境动态,且需要为数量庞大的用户群提供服务,因此其容易出现异常,方便收集到相应的异常状态信息,适合作为监控的对象。

在本实验中,主要对Bookstore系统的五项参数进行监控,即响应时间、错误率、中央处理器利用率、内存利用率以及存储负载,并通过这些参数对系统的状态进行判断。在此基础上,样本集合可以表示为:

{(x

x

其中,ResponseTime为系统响应时间,ErrorRate为错误率,CPU为中央处理器的利用率、RAM为内存利用率,Load为系统负载。

通过运行和收集Bookstore系统运行过程中的相关参数,本发明得到了500个带标签的样本,其中系统状态正常的样本320个,系统异常的样本180个。为了充分体现算法的持续学习能力,这里选取200个样本作为初始学习样本集合,100个作为测试样本,其余200个样本则平均分为10组,用于验证算法的学习过程。需要注意的是,为了反映算法应对不平衡数据的能力,初始学习样本中,正常状态样本数量设定为150,异常状态样本数量设定为50。为了更好地对分类算法的性能进行评估,这里采用G-means和F-measure两种指标对本发明所提算法进行评价。其中,G-mean指标侧重于算法的分类准确性的评价,而F-measure则侧重于算法在数据不平衡情况下对少数类个体分类能力的评价。G-means指标和F-measure指标的定义如下:

其中,TP为分类过程中实际为正类,预测为正类的数量;FN为分类过程中实际为正类,预测为负类的数量;FP为分类过程中实际为负类,预测为正类的数量;TN为分类过程中实际为负类,预测为负类的数量。显然,当TP=0时,Recall和Precision都将归零从而造成F-measure无法计算。为了处理这种情况,当分类器将测试集中的所有正类样本都预测为负类时,本发明认为本次分类失败,分类器的F-measure记为零,并对失败的次数进行统计为后续计算分类的成功率提供依据。

由于训练集、测试集以及学习集中的样本是随机选取的,本发明通过蒙特卡洛模拟的方式进行1000次随机实验以测试算法的性能。同时,为了体现本发明所提算法在增量学习和处理不平衡数据上的优越性,实验将本发明所提出的算法与SVM、SVM+INV、SVM+UB算法进行了比较。其中,SVM即为不带学习策略的经典支持向量机算法;SVM+INV为带有学习机制的支持向量机算法;SVM+UB为带有不平衡数据的处理过程的支持向量机算法。SVM和SVM+UB算法由于没有学习机制,在每次新增样本集到来时直接与已有样本集合并进行重新训练,实验结果如下所示。图10显示了SVM、SVM+INV、SVM+UB和本发明算法的G-means指标、F-measure指标和分类准确率。可以看到,SVM和SVM+INV算法由于不具备不平衡数据的处理机制,在G-means、F-measure和分类准确率三个指标上的表现较差;SVM-UB和本发明算法则通过对不平衡数据的处理机制,在各个指标上均获得了更好的效果。此外,可以看到具备学习机制的算法(SVM+INV和本发明算法)的G-means、F-measure和分类准确率三个指标相比于每次都使用全部样本进行训练的算法(SVM和SVM-UB)将略有下降,这是由学习机制中保留率和遗忘率的存在使得每次参与训练的样本个数减少所造成的,但这同时也降低了单次训练的复杂程度。在表1中可以发现,具有学习机制的算法在训练样本个数上要明显少于对应的非学习算法。表2显示了各算法的平均训练时间,具备不平衡数据的处理机制的算法的运行时间要高于不备不平衡数据的处理机制的算法。这里需要注意的是,从理论上看,算法的运行时间应当与参与训练的样本个数成正比关系。由于具有学习机制的算法需要每次对保留集进行选取,这部分时间也将被计算在总训练时间内,因此在表1中SVM+INV的训练样本个数虽然小于SVM算法,而在表2中其训练时间却高于SVM算法。但样本总数量的上升,在SVM训练过程中节约下来的时间将会弥补这一额外的时间开销,以SVM-UB与本发明算法的时间开销为例,在初始阶段本发明算法的时间开销略高于SVM-UB,但随着学习过程的进行,到第10次学习阶段时本发明算法的时间开销明显低于了SVM-UB算法。

表1各算法训练样本数量比较

表2各算法训练时间比较(ms)

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号