首页> 中国专利> 基于预算支持向量集的LS-SVMs在线学习方法

基于预算支持向量集的LS-SVMs在线学习方法

摘要

本发明涉及一种基于预算支持向量集的LS?SVMs在线学习方法,在训练集上确定预算范围,选择初始支持向量集合,建立LS?SVMs模型,采用共轭帝都发求解LS?SVMs模型,并利用低秩矩阵校正方法以及Sherman?Morrison?Woodbury公式更新LS?SVMs模型得到在线预测器,实现了对数据流的在线预测,该方法采用固定预算策略,能有效控制在线学习模型的规模、节约存储空间、计算复杂度低、易于实现。本发明在线学习方法,能够灵活处理具有数据流特征的在线应用问题,数据可以以数据块的形式收集,与传统批处理方式以及当前的在线学习方法相比,大幅度降低了计算复杂难度和模型运行时间,可以同时处理回归问题和分类问题,能够高效处理LS?SVMs模型选择问题。

著录项

  • 公开/公告号CN105787507A

    专利类型发明专利

  • 公开/公告日2016-07-20

    原文格式PDF

  • 申请/专利权人 中国石油大学(华东);

    申请/专利号CN201610087343.5

  • 发明设计人 渐令;宋允全;申淑谦;梁锡军;

    申请日2016-02-16

  • 分类号G06K9/62(20060101);

  • 代理机构37227 青岛联信知识产权代理事务所;

  • 代理人徐艳艳;高洋

  • 地址 266580 山东省青岛市黄岛区长江西路66号

  • 入库时间 2023-06-19 00:08:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-01

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20170630 终止日期:20180216 申请日:20160216

    专利权的终止

  • 2017-06-30

    授权

    授权

  • 2016-08-17

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20160216

    实质审查的生效

  • 2016-07-20

    公开

    公开

说明书

技术领域

本发明属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地 说,涉及一种基于预算支持向量集的LS-SVMs在线学习方法。

背景技术

LS-SVMs是在结构风险最小化原则基础上建立的典型核学习模型。作为具有良好 光滑化结构的凸优化问题,LS-SVMs模型的KKT条件可以转化为(2,2)块为1阶的特殊鞍点系 统。当前求解LS-SVMs模型的主流方法主要包括:(一)利用预处理子将上述鞍点系统等价转 化为两个正定系统,并使用经典的共轭梯度算法求解正定系统;(二)将鞍点系统表示为两 个线性方程组,并采用零空间法方法进行求解;(三)采用最小残差法直接求解鞍点系统。这 些方法都属于批处理技术,算法的计算复杂度为O(n3),其中n为样本个数。然而,许多实际 应用问题面向的数据具有数据流的特性,如动态工业生产过程、垃圾邮件处理系统等,采集 的样本都是以数据流的形式随时间推移不断出现的。批处理算法由于计算复杂度太高,不 适合处理上述数据流问题。为此,国内外的学者们开始研究LS-SVMs的在线学习算法,以降 低计算复杂度,减少模型运行时间,标志性成果是H.M.Chi和O.K.Ersoy提出的LS-SVMs递归 更新算法。该方法利用Sherman-Morrison-Woodbury公式迭代更新LS-SVMs模型的鞍点系 统,将计算复杂度从O(n3)降到O(n2)。由于采集样本量将随时间线性增长,LS-SVMs模型的规 模、存储空间、运行时间都将随之不断增加。为解决上述问题,亟需建立一种固定预算的在 线LS-SVMs学习方法,在保证模型精度的同时有效控制模型的存储空间和训练时间,以适应 数据流环境。

发明内容

本发明的目的在于针对现有LS-SVMs在线学习方法无法有效控制模型规模等上述 不足,提供了一种基于预算支持向量集的LS-SVMs在线学习方法,该方法能够降低模型存储 空间,减少运行时间,满足应用问题的实时性需求。

根据本发明一实施例,提供了一种基于预算支持向量集的LS-SVMs在线学习方法, 含有以下步骤:

(一)利用训练样本确定预算范围。

(二)按照预算随机选取初始支持向量集合,建立LS-SVMs模型,通过KKT条件将LS- SVMs模型转化为鞍点系统,将鞍点系统等价转化为两个正定系统并采用共轭梯度法进行求 解,得到预测器。

(三)以mini-batch的形式采集数据流,采用预测器对数据流中的样本进行预测。

(四)将错误预测样本加入支持向量集,并按照最大相似性或时间准则剔除相应数 量支持向量,维持预算稳定。

(五)利用低秩矩阵校正方法以及Sherman-Morrison-Woodbury公式更新LS-SVMs 模型,得到在线预测器,通过在线预测器对数据流进行在线预测。

在根据本发明实施例的学习方法中,步骤(一)中,确定预算范围的具体步骤为:

(1)确定训练样本集合和测试样本集合;为降低各个输入特征在数量级上的差异 对模型性能所产生的影响,采用如下标准化处理方式i=1,…,n;j=1,…, d对样本数据进行预处理,其中表示原始采集数据,m(xj)表示第j个特征的平均值,σ(xj) 表示第j个采集变量的标准差。

(2)根据实际问题特征确定待测预算集合。

(3)依次选取预算n,按照预算n在训练样本集合中随机选取相应数目的样本,建立 LS-SVMs模型,并应用测试样本集合测试该预算n的精度。

(4)执行步骤(3)10次,并计算各个预算的平均测试精度及平均测试时间。

(5)利用平均测试精度和平均测试时间绘制双纵轴曲线,综合考虑时间成本和LS- SVMs模型精度确定合理预算。

在根据本发明实施例的学习方法中,步骤(二)中,得到预测器的具体步骤为:

按照确定的预算n随机选取训练样本构造支持向量集合,建立LS-SVMs模型,LS- SVMs模型表示为:

min12wTw+12vΣi=1nei2---(1)

其中,w为分类超平面的法向量,b为分类超平面的截距项,ei为误差项,v为模型正 则化参数,表示特征映射,通过指定核函数的方式隐式确定。

通过KKT条件将LS-SVMs模型转化为鞍点系统,表示为:

Kij+vIn1n1nT0αb=y0---(2)

其中,k(·,·)为核函数,由用户指定。

将鞍点系统等价转化为两个正定系统,表示为:

Hμ=yHη=1n---(3)

采用共轭梯度法求解所述两个正定系统,得到决策系数α和偏置系数b为:

α=μ-bηb=1nTμ/11Tη---(4)

进而获得预测器为:

f(x)=Σi=1nαiK(xi,x)+b---(5)

在根据本发明实施例的学习方法中,作为优选,步骤(四)中,当采集到样本真实标 签后,对比预测器的预测输出,忽略正确预测样本,记录错误预测样本并将错误预测样本加 入支持向量集,按照最大相似性准则从支持向量集合中剔除相应数量 支持向量以维持向量预算稳定。

在根据本发明实施例的学习方法中,步骤(五)中,利用低秩矩阵校正方法以及 Sherman-Morrison-Woodbury公式更新LS-SVMs模型,得到在线预测器的具体步骤为:

(1)采用数据流中的样本取代原支持向量结合的样本

(2)构造校正矩阵U∈Rn+1,m,具体表示为:Ukj=1,k=ij,j=1,m0,otherwise;以及构造矩阵V∈ Rn+1,m,具体表示为:

(3)将校正矩阵U∈Rn+1,m和校正矩阵V∈Rn+1,m与鞍点矩阵相加,即:

UTV+VTU+K+vIn1n1nT0---(7)

通过上述公式(7)进行鞍点矩阵的更新。

(4)利用Sherman-Morrison-Woodbury公式得到更新后鞍点矩阵的逆矩阵为:

Q-1-Q-1V(I+UTQ-1V)-1UTQ-1(8)

式中,Q-1=A-1-A-1U(I+VA-1U)-1VTA-1,A=K+vIn1n1nT0.

(5)根据支持向量集合更新鞍点系统的右端向量y0,并计算出新的可得决策系数 和偏置系数,获得更新后的预测器,更新后的预测器即为在线预测器。

本发明提出的基于预算支持向量集的LS-SVMs在线学习方法,在训练集上确定预 算范围,选择初始支持向量集合,建立LS-SVMs模型,采用共轭梯度法求解LS-SVMs模型,并 利用低秩矩阵校正方法以及Sherman-Morrison-Woodbury公式更新LS-SVMs模型得到在线 预测器,实现了对数据流的在线预测,该方法采用固定预算策略,能有效控制在线学习模型 的规模、节约存储空间、计算复杂度低、易于实现。通过根据本发明实施例的基于预算支持 向量集的LS-SVMs在线学习方法,能够灵活处理具有数据流特征的在线应用问题,数据可以 以数据块的形式收集,与传统批处理方式以及当前的在线学习方法相比,大幅度降低了计 算复杂难度和模型运行时间,可以同时处理回归问题和分类问题,能够高效处理LS-SVMs模 型选择问题,特别是处理留一法交叉验证问题时计算复杂难度仅为O(n3),而传统方法的计 算复杂度为O(n4)。

附图说明

附图1为本发明实施例基于预算支持向量集的LS-SVMs在线学习方法示意图。

附图2a为本发明实施例中预算BudgetSize对模型精度和运行时间的影响分析 图。

附图2b为本发明实施例中数据块规模ChunkSize对模型精度和运行时间的影响 分析图。

附图3为本发明实施例中双螺旋分类图。

附图4为本发明实施例中利用滑动窗口方法建立在线预报模型。

附图5为本发明学习方法和已有学习方法在基准数据集german上平均在线测试精 度比较示意图。

附图6为本发明学习方法和已有学习方法在基准数据集spambase上的平均在线测 试精度比较示意图。

附图7为本发明学习方法和已有学习方法在基准数据集adult9上的平均在线测试 精度比较示意图。

附图8为本发明学习方法和已有学习方法在基准数据集ijcnn1上的平均在线测试 精度比较示意图。

具体实施方式

以下结合附图对本发明实施例作进一步说明。

实施例1:以双螺旋分类问题为例进行说明。如图1所示为根据本发明实施例提供 的一种基于预算支持向量集的LS-SVMs在线学习方法的示意图,该在线学习方法含有以下 步骤:

步骤一:利用训练样本确定预算范围。其具体步骤为:

(1)选择待处理数据集合,本实施例中,以基准数据集Adult9为例进行说明。取样 本块规模为1,从Adult9中随机选取2000个样本点构造训练集并选取1000个样本点构造测 试集,应用标准化公式对样本点进行预处理。选择Gaussian径向基函数 作为核函数,核宽参数σ取默认值,即样本点的维数。

(2)确定预算集合为{5,10,15,…,995,1000}。

(3)从上述步骤(2)的集合中依次选取预算,按照预算在训练样本集中随机选取相 应数目的样本建立LS-SVMs模型,并应用测试集测试该预算的精度。

(4)依次执行上述步骤(3)10次,并计算各个预算的平均测试精度以及运行时间。

(5)利用平均测试时间和平均测试精度绘制双纵轴曲线,如图2(a)所示,综合考虑 时间成本与模型精度以确定预算范围为550-650之间。

本实施例中,为了不失一般性,选择预算为600。确定样本块规模集合为{1,2, 3,…,19,20},从该集合中一次选取样本块规模,预算设定为600,在训练样本集中随机选取 600个样本建立LS-SVMs模型,测试样本依次以样本块的形式输入LS-SVMs模型进行精度测 试。依次执行上述步骤10次,并计算各样本块规模对应的平均测试精度以及运行时间。利用 平均测试时间和平均测试精度绘制双纵轴曲线,如图2(b)所示,综合考虑时间成本与模型 精度以确定样本块规模为3。

步骤二:按照预算随机选取初始支持向量集合,建立LS-SVMs模型,通过KKT条件将 LS-SVMs模型转化为鞍点系统,将鞍点系统等价转化为两个正定系统并采用共轭梯度法进 行求解,得到预测器。其具体步骤为:

按照预算随机选取初始支持向量集合,建立LS-SVMs模型,LS-SVMs模型表示为:

min12wTw+12vΣi=1nei2---(1)

其中,w为分类超平面的法向量,b为分类超平面的截距项,ei为误差项,v为模型正 则化参数,表示特征映射,通过指定核函数的方式隐式确定。

通过KKt条件将LS-SVMs模型转化为鞍点系统,表示为:

Kij+vIn1n1nT0αb=y0---(2)

其中,k(·,·)为核函数,由用户指定。

将鞍点系统等价转化为两个正定系统,表示为:

Hμ=yHη=1n---(3)

采用共轭梯度法求解所述两个正定系统,得到决策系数α和偏置系数b为:

α=μ-bηb=1nTμ/11Tη---(4)

进而获得预测器为:

f(x)=Σi=1nαiK(xi,x)+b---(5)

步骤三:如图3所示,以mini-batch的形式采集数据流,采用预测器对数据流中的 样本进行预测。

步骤四:将错误预测样本加入支持向量集,并按照最大相似性或时间准则剔除相 应数量支持向量,维持预算稳定。

当采集到样本真实标签后,对比预测器的预测输出,忽略正确预测样本,记录错误 预测样本并将错误预测样本加入支持向量集,如图3中的b图所示两个菱形标识样本点是错 分样本,将其加入支持向量集合,并按照最大相似性准则从支持向量 集合中剔除相应数量支持向量以维持向量预算稳定。

步骤五:利用低秩矩阵校正方法以及Sherman-Morrison-Woodbury公式更新LS- SVMs模型,得到在线预测器,通过在线预测器对数据流进行在线预测。如图3中d图所示,经 过4次更新后LS-SVMs模型可以正确实现分类。

实施例二:以应用滑动窗口技术为例。与实施例一不同的是,在本实施例中,步骤 三中,数据流以one-by-one的形式采集数据流,采用预测器对数据流中的样本进行预测;步 骤四中,当采集到样本真实标签后对比预测器的预测输出,忽略正确预测样本,记录错误预 测样本,将错误预测样本加入支持向量集,并按照时间准则将支持向量集合中采样时间最 早的一个支持向量剔除以维持预算稳定。

图5至8为采用本发明在线学习方法与现有随机预算感知机方法和在线梯度下降 方法对基准数据集german、基准数据集spambase、基准数据集adult9和基准数据集ijcnn1 四种数据集进行处理后的平均在线测试精度比较示意图,由图5至8可以看出,本发明在线 学习方法在上述4个基准数据集合上的测试精度一致优于其它两种方法。

上述实施例用来解释本发明,而不是对本发明进行限制,在本发明的精神和权力 要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号