技术领域
本发明涉及数据分析领域,具体涉及一种基于FLearnNSE-Pruned-Age(正向补充机制的 多分类器时序集成)的分类模型构建方法及终端设备。
背景技术
由于典型应用场景众多,如天气预测、垃圾邮件分类、用户差异化商品推荐等,如何针 对非稳定环境中逐步累积的大数据进行增量分类挖掘处理,受到了广泛的重视。在该类型环 境中,数据生成的分布概率是不断变化的,会产生概念漂移甚至概念改变的情况,这里统称 为非稳定环境NSE(Non-Stationary Environments)。
在针对非稳定环境中的累积大数据进行分类挖掘的处理方法中,LearnNSE是一种有效的 处理方法。LearnNSE对分批出现的数据集分别建立基分类器,考虑每个基分类器在所有历经 环境中的性能表现之后,进行加权集成,投票构造最终的分类模型。在大量的生成数据集以 及真实数据集上,LearnNSE处理方法都取得了显著的成效,大幅提高了分类预测的准确率。
为了适用于对大数据分类挖掘处理实时性要求较高的领域,LearnNSE还提供了一种修剪 版本的处理方法LearnNSE-Pruned-Age。然而,研究发现,当前修剪版本的LearnNSE-Pruned-Age方法所采用的修剪策略会丢失已学分类知识,丧失了LearnNSE核心的 对已学分类知识再利用能力,降低了分类结果的准确率。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于FLearnNSE-Pruned-Age的分类模型 构建方法及终端设备,旨在提高分类模型的构建效率与分类准确率。
一种基于FLearnNSE-Pruned-Age的分类模型构建方法,包括步骤:
S1,参数预设
一个组成集成分类器的基分类器;参数a、b,用于设置sigmoid加权函数的形态;预设 基分类器容量参数ensembleSize;设置保留追踪数据产生变化的基分类器集合current_experts, 所有的基分类器集合all_experts,被选中的基分类器集合all_experts_chosen以及被选中的基 分类器集合的容量上限chosenUpper;
S2,等待第t次需处理的训练数据集d
训练数据集d
S3,判断训练数据集是否到达,若训练数据集未到达,返回S2;否则判断t是否等于1: 当t=1时,实例权重
S4,计算由基分类器集合current_experts构成的集成分类器H
S5,利用B
S6,用训练数据集d
S7,如果集成分类器H
S8,在训练数据集d
S9,对所有基分类器集合all_experts中的基分类器按照
S10,计算被选中的基分类器all_experts_chosen以及current_experts中基分类器的投票权 重
S11,得到最终的集成分类模型;
S12,t=t+1,跳转到S2。
所述错误率E
所述实例权重
所述加权错误率
所述最优加权错误率为:
所述投票权重
所述集成分类模型为:
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行 的计算机程序,所述处理器执行上述分类模型构建方法的步骤。
本发明的有益效果为:
本发明计算由当前基分类器集合current_experts构成的集成分类器H
附图说明
图1为本发明所述基于FLearnNSE-Pruned-Age的分类模型构建方法运行设备结构示意图;
图2为本发明所述基于FLearnNSE-Pruned-Age的分类模型构建方法流程图;
图3(a)为利用本发明分类模型构建方法的实施例1中的旋转棋盘(α=0°)示意图,图3(b)为利用本发明分类模型构建方法的实施例1中的旋转棋盘(α=45°)示意图;
图4为利用本发明分类模型构建方法的实施例1中的不同修剪方法的错误率对比图;
图5为利用本发明分类模型构建方法的实施例1中与LearnNSE方法的错误率对比分析 图;
图6为利用本发明分类模型构建方法的实施例1中与LearnNSE方法的运行时间对比分 析图;
图7为利用本发明分类模型构建方法的实施例2中的不同修剪方法的错误率对比图;
图8为利用本发明分类模型构建方法的实施例2中与LearnNSE方法的错误率对比分析 图;
图9为利用本发明分类模型构建方法的实施例2中与LearnNSE方法的运行时间对比分 析图;
图中:1001-处理器,1002-存储器,1003-网络模块,1004-操作系统,1005-并行计算引 擎,1006-用户接口,1007-通信线路。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于 此。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明基于FLearnNSE-Pruned-Age的分类模型构建方法涉及的硬件运 行环境的设备结构示意图。本发明实施例涉及的设备可以是PC(Personal Computer,个人计 算机)、笔记本电脑、服务器等具有显示和处理功能的终端设备。
如图1所示,终端设备可以包括:处理器1001;存储器1002;网络模块1003;操作系统1004;并行计算引擎1005;用户接口1006;通信线路1007。其中处理器1001,如中央处 理器CPU(Central Processing Unit)、图形处理器GPU(Graphics Processing Unit)等。存储器1002 可以是高速随机存取存储器(Random Access Memory,RAM),也可以是稳定的存储器 (Non-Volatile Memory),例如磁盘存储器、分布式文件系统(DFS)等;存储器1002可选的还可以是独立于前述处理器1001的存储装置。网络模块1003可以是多种网络通信协议,如IPv4、IPv6等,可选的可以包括标准的有线接口、无线接口(如无线保真Wireless-Fidelity 即Wi-Fi接口)。操作系统1004可以是多种管理计算机硬件与软件资源的计算机程序,如 windows、Linux、Unix等。并行计算引擎1005可以是多种提供任务集群并发运行的环境, 如火花引擎Spark、映射-化简引擎(MapReduce)等。用户接口1006可以包括显示屏(Display)、 输入单元比如键盘(Keyboard),可选的用户接口1006还可以包括标准的有线接口、无线接 口。本领域技术人员可以理解,图1中示出的终端并不构成对分类模型构建方法运行的设备 的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机存储介质的存储器1002中可以包括网络模块1003、 操作系统1004、并发计算引擎1005。在图1中,网络模块1003可用于连接服务器,以及集 群服务器之间相互通信;而处理器1001可以用于调用存储器1002中存储的分类模型构建方 法,并执行本发明实施例提供的分类模型构建方法的流程。
如图2所示,一种基于FLearnNSE-Pruned-Age的分类模型构建方法,具体包括如下步骤:
步骤1),参数预设
一个组成集成分类器的基分类器;设置sigmoid加权函数形态的参数a、b;基分类器容 量ensembleSize;保留追踪数据产生变化的当前基分类器集合current_experts,所有的基分类 器集合all_experts,被选中的基分类器集合all_experts_chosen以及被选中的基分类器集合的 容量上限chosenUpper。
步骤2),等待第t次需处理的训练数据集d
训练数据集d
步骤3),判断训练数据集是否到达,若训练数据集未到达,返回步骤2),否则判断t是 否等于1,当t=1时,实例权重
步骤4),计算由当前基分类器集合current_experts构成的集成分类器H
步骤5),更新、规范化实例权重
步骤6),用训练数据集d
步骤7),如果集成分类器H
步骤8),在训练数据集d
步骤9),对所有基分类器集合all_experts中的基分类器按照
步骤10),计算被选中的基分类器all_experts_chosen以及current_experts中基分类器的 投票权重
步骤11),得到最终的集成分类模型
步骤12),t=t+1,跳转到步骤2)。
分类模型构建方法的实施例中,不同处理方法均遵循以下规定:(1)累积大数据由非稳 定环境产生,数据的产生分布、产生规律,各分类学习方法事先均不知。(2)分类模型构建 方法均采用相同的基分类器(即CART决策树),CART的参数均为mergeleaves=on、minleaf=1、 prune=on、surrogate=off;Sigmoid函数的参数均为a=0.5、b=10;保留的基分类器个数为ensemble Size=10,被选中的基分类器all_experts_chosen的容量上限为chosenUpper=10。(3)处理方法 均依托火花引擎(Spark)对可并行部分进行了并行化。(4)每种处理方法进行10次,记录 下每次的分类错误率以及处理时间。(5)为了体现分类模型构建方法的效用,仅利用最新数 据进行训练与预测的处理方法newest也作为修剪方法之一加入对比分析之中。
实施例1
从一个典型的异或问题中抽取了一个非高斯数据集,该数据集代表了一个旋转的棋盘 (Checker board),参数α表示抽样窗口中旋转棋盘左下角的旋转角度,图3(a)为α=0°的 旋转棋盘,图3(b)为α=45°的旋转棋盘。该数据集作为实施例1所用数据集。
该数据集的分类问题是一个典型的异或二类分类问题,原本较为简单,但是由于本实施 例中增加了棋盘的旋转,形成了一个具有挑战性的分类问题。该分类问题是一种非稳定周期 性环境下的分类问题,分类场景每隔π旋转角度重复出现。为了增加每次分类的差异性与复 杂度,贴近真实环境,整个训练数据集中加入了10%的噪音数据。每批数据由抽样窗口中抽 取的1024个实例组成,每次的测试数据集由同批次窗口,按照32*32的解析度抽取的1024 个带有真实类标签的数据点组成,共抽取200批次的数据集。
将200批次数据存储于存储器,处理器调用分类模型构建方法读取所述200批次数据进 行处理,获得以下处理结果。
表1 Checkerboard数据集上不同处理方法的错误率
从图4所示的处理结果可以看出,本发明所述分类模型构建方法取得了3种修剪处理方 法:仅训练最新数据集的分类模型构建方法(newest)、LearnNSE修剪版本处理方法(LearnNSE-Pruned-Age)和本发明所述分类模型构建方法(用FLearnNSE-Pruned-Age在图中表示,图5-9均与此处相同)中最低的分类错误率。可以发现,在棋盘旋转[π~2π]产生的101至200批次数据中,本发明所述分类模型构建方法取得了相比旋转[0~π]产生的1至100批次数据中更低的分类准确率,而newest以及LearnNSE-Pruned-Age两种处理方法均没有显 示出这样的特性。这表明了本发明所述分类模型构建方法在周期性的分类场景中,具有类似 LearnNSE方法非常重要的对已学分类知识再利用的核心能力。
特别值得关注的是,从图5及表1所示结果可以看出,在Checkerboard数据集上,本发 明所述分类模型构建方法取得了低于LearnNSE处理方法的分类错误率,分类性能优异。
由图6所示的针对不同批次数据集,FLearnNSE-Pruned-Age与LearnNSE的分类学习的 处理时间可知,当数据集批次增加后,本发明所述分类模型构建方法的处理时间逐步小于 LearnNSE方法,且随着数据集批次的增多,呈现出扩大之势,体现出了FLearnNSE-Pruned-Age 处理方法的优势,是一种高效且有效的分类模型构建方法。
实施例2
实施例2所用的Weather数据集是一个长期累积的天气大数据集,是利用全球范围内数 百个地区的传感器收集而成,包含了这些地区自1930年以来的风速、温度、湿度、气压等天 气特征属性值以及一个表示是否下雨的分类标签。该数据集是一个真实世界的数据集,用于 测试不同的分类挖掘处理方法的分类性能,如准确率、学习效率等。
选取了Weather数据集的一个子集进行分类挖掘处理,该子集是一个长期的、有周期特 性的累积大数据集。数据集中缺失率超过15%的属性没有被选用,剩余的8个属性作为训练 集的特征值。该数据集一共包含18159条记录,其中31%的数据的类别标签为rain=yes,69% 的数据的类别标签为rain=no。
以年为跨度划分数据集,每365条记录组成1个年度天气数据集。每次数据处理时,第 一批次数据用于训练,紧接着的第二批次数据用于测试,以此类推,共分析47批次数据集。
将该47批次数据存储于存储器,处理器调用分类模型构建方法读取所述47批次数据进 行处理,获得以下处理结果。
从图7所示的处理结果可以看出,针对该真实世界的数据集,FLearnNSE-Pruned-Age处 理方法取得了3种修剪处理方法中的最低分类错误率。这表明该修剪处理方法针对人工生成 数据集以及真实世界数据集均有效。此外,LearnNSE-Pruned-Age处理方法的分类错误率低于 newest处理方法,这体现出了集成方法的优势。而FLearnNSE-Pruned-Age处理方法相较于 LearnNSE-Pruned-Age分类错误率更低,这证明了FLearnNSE-Pruned-Age处理方法可以克服 LearnNSE-Pruned-Age无法对已学分类知识进行再利用的不足,适用于针对长期累积大数据的 快速分类学习,且可以进一步提高分类模型的准确率。
表2 Weather数据集上不同处理方法的错误率
由图8、图9及表2可知,此实施例中,在取得非常接近于LearnNSE处理方法的分类准 确率时,FLearnNSE-Pruned-Age处理方法分类学习的时间相当于LearnNSE的1/2,体现出了 该处理方法的优势。此结果表明了FLearnNSE-Pruned-Age处理方法可以在对分类学习实时性 要求较高的应用场景中,作为一种LearnNSE的高效且有效的修剪方法,扩大了时序分类挖 掘处理方法的应用场景。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借 助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更 佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部 分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台设备(可以是手机,计算机,服 务器,空调器,或者网络设备等)以及多台设备构成的集群执行本发明各个实施例所述的方 法。
需要说明的是,在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明 书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域, 均同理包括在本发明的专利保护范围内。
机译: 一种基于AI的帕金森氏病诊断信息方法,该方法使用机器学习对NIGROSOME-1区域进行分类,并通过多种学习模型对多种预测结果进行分类
机译: 一种构建心律分类模型的方法
机译: 基于半监督学习构建用于图像分类的生成对抗网络模型的系统和方法