首页> 中国专利> 一种可扩展的自适应宽度神经网络学习方法

一种可扩展的自适应宽度神经网络学习方法

摘要

本发明属于人工智能技术领域,公开了一种可扩展的自适应宽度神经网络学习方法,可用于图像分类任务。它由多个多通道宽RBF神经网络(MWRBF)组成,每个MWRBF神经网络可以把重点放在不同的数据上,并且使用高斯核执行非线性变换。可扩展的自适应宽度神经网络中的MWRBF网络数量由学习任务自身的规模和难度决定。该网络采用了可分离的迭代最小二乘训练方法,从而可以高效地处理高维和大量样本的数据;本发明的可扩展的自适应宽度神经网络具有可以进行并行测试的特点。

著录项

  • 公开/公告号CN112966761A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 长安大学;

    申请/专利号CN202110278923.3

  • 申请日2021-03-16

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);

  • 代理机构61218 西安睿通知识产权代理事务所(特殊普通合伙);

  • 代理人惠文轩

  • 地址 710061 陕西省西安市南二环中段33号

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明涉及人工智能和机器学习技术领域,具体涉及一种可扩展的自适应宽度神经网络学习方法。

背景技术

深度卷积神经网络在图像、视频和语音任务方面表现出色,但其他学习模型,例如支持向量机、随机森林等的应用仍然发挥着重要作用。对于复杂的学习任务,学习模型层数多且具有大量参数,使其具有良好的性能和通用性。但是,深度学习模型由于高度非凸的行为,很难描述其中间的工作原理,而且具有参数量大,训练时间长的特点。

对于现有深度学习模型,神经网络训练好以后,如果输入数据中含有没有训练过的新数据,其很难做出正确的判断;或者又要对所有数据重新进行学习,使其无法快速有效的进行学习。

增量学习能力作为学习模型的一个重要特征可以克服灾难性遗忘。通常,学习模型好的设计目标包括:(1)高效,快速地学习和测试,其中意味着可以用更少的数量来优化架构参数,可以减少和加快训练时间,测试过程可以并行进行;(2)稳健的泛化能力,这意味着学习模型具有良好的测试以前看不见的数据的性能;(3)通过增量学习来克服灾难性的遗忘,其意味着它在学习新知识的同时不会忘记学到的知识(可以终身学习)。

发明内容

针对现有技术存在的问题,本发明的目的在于提供一种可扩展的自适应宽度神经网络学习方法,能够处理高维图像或矢量输入样本,多通道宽度径向基函数网络(MWRBF)在宽度方向上对输入样本进行扩展,并对输出的多通道求和以减少数据,节省训练时间;对于较大和较高的高维数据集,该方法可以从数据组织到模型实施应用进行并行学习,大大提高高维数据的学习效率。

为了达到上述目的,本发明采用以下技术方案予以实现。

(一)一种可扩展的自适应宽度神经网络学习方法,所述自适应宽度神经网络包括P个MWRBF网络,对应对待学习数据集学习P次;

第一个MWRBF网络学习待学习数据集的标签,第二个MWRBF网络在相同的待学习数据集上学习第一个MWRBF网络的剩余误差,以此类推,直到第P个MWRBF网络在相同的待学习数据集上学习第(P-1)个MWRBF网络的剩余误差;在自适应宽度神经网络中,每个MWRBF网络分别对应不同的学习任务,不同MWRBF网络之间以级联方式组织学习过程。

进一步地,对于某一学习阶段的P个MWRBF网络h

Y=ΦW=[Φ

其中,W=[W

进一步地,所述学习方法的具体过程为:设训练周期为N

对于每个训练周期,按以下步骤进行:

(1)对待学习数据集中的数据进行清洗操作即随机排序,再把待学习数据集X按顺序划分为N

(2)将第一个训练子集输入第一个MWRBF网络中,以对应的数据标签为期望输出,对第一个MWRBF网络的网络权值进行更新,并得到其网络输出对应的第一剩余误差;将该第一剩余误差作为第二个MWRBF网络的期望输出,同时将第一个训练子集输入第二个MWRBF网络中,对第二个MWRBF网络的网络权值进行更新,并得到其网络输出对应的第二剩余误差;将该第二剩余误差作为第二个MWRBF网络的期望输出,同时将第一个训练子集输入第三个MWRBF网络中;以此类推,直到得到第P个MWRBF网络输出对应的第P剩余误差,完成一次迭代过程;

(3)将前一次迭代得到的剩余误差作为下一次迭代中的第一个MWRBF网络的期望输出,重复步骤(2)的迭代过程,直到达到迭代终止条件;

(4)对于剩余的(N

更进一步地,所述迭代终止条件为训练后的网络对验证集的识别精度连续ε次均不再增长。

更进一步地,所述验证集为在学习任务开始前从原始待学习数据集中按比例取出的数据,即原始待学习数据集按比例划分为训练集和验证集,训练集即为待学习数据集。

进一步地,当P个MWRBF网络提取的特征矩阵Φ大于待学习数据集中的样本数量的ξ倍时,沿着特征维对特征矩阵Φ进行分割,使特征维与样本数量接近;即设分割数为Q,则将输出矩阵重写为:

Y=ΦW=[Ψ

然后,采用[Ψ

进一步地,所述学习方法根据当前自适应宽度神经网络训练得到的剩余误差与目标阈值的差距,逐步添加新的MWRBF网络和新的训练子集X

将X

其中,上标+表示矩阵的逆;Φ

进一步地,每个MWRBF网络的内部数据处理过程为:

(a)设输入数据集为

(b)采用多通道滑动窗口对输入数据从左到右、从上到下依次进行局部区域划分,局部区域大小为r

(c)设定r=r

(d)所述数据立方体采用

其中,

(e)得到各通道输出后进行通道求和,得到输出总和为:

(f)Φ

(g)对降序排列后的数据进行二次抽样,得到二次抽样后结果:

Φ

其中,N

则总的高斯响应输出矩阵为:

Φ=[Φ

设全连接层权值为W,则MWRBF网络的输出矩阵为:

Y=[Y

其中,C为总的类别数。

(二)一种可扩展的自适应宽度神经网络,包括P个MWRBF网络,在学习阶段,P个MWRBF网络依次级联;在应用阶段,P个MWRBF网络并行对待处理数据进行处理。

进一步地,所述自适应宽度神经网络根据当前训练得到的剩余误差与目标阈值的差距,逐步添加新的MWRBF网络和新的训练子集X

与现有技术相比,本发明的有益效果为:

(1)本发明的自适应宽度神经网络(SWNN)由多个多通道宽RBF(径向基函数)神经网络即MWRBF组成。每个MWRBF神经网络把学习重点放在不同的数据上,并且使用高斯核执行非线性变换。自适应宽度神经网络中的MWRBF网络的数量由学习任务自身的规模和难度决定。

(2)本发明能够实现增量学习,克服灾难性遗忘;具有高效、快速地学习和测试,也就是可以用更少的数量来优化架构参数,减少训练时间,应用过程可以并行进行;具有稳健的泛化能力,意味着学习模型具有良好的测试以前看不见的数据的性能。

(3)本发明能够处理图像或矢量输入样本,逐步生成多个MWRBF网络,在充分学习数据的同时避免过度拟合。MWRBF在宽方向上对输入实例进行扩展,作为RBF内核的输入,并对输出的多通道求和以减少数据,排序和二次采样减少高斯基函数的输出数量。

(4)本发明使用迭代方法以快速训练SWNN,在特征和样本维度上使用可划分的最小二乘方,以节省训练时间并处理较大和较高维度的数据集。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1为本发明的多通道宽度神经网络的结构图;

图2是本发明一种实施例的可扩展的自适应宽度神经网络结构图;

图3是本发明实施例中由灰度手写数据集MNIST生成彩色手写数据集的流程图;其中,(a)为MNIST数据集,(b)为生成的三通道MNIST数据集;(c)灰度数据集转换成彩色数据集的流程。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述,但是本领域的技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。

参考图2,本发明提供的一种可扩展的自适应宽度神经网络学习方法,所述自适应宽度神经网络包括P个MWRBF网络,对应对待学习数据集学习P次;

第一个MWRBF网络学习待学习数据集的标签,第二个MWRBF网络在相同的待学习数据集上学习第一个MWRBF网络的剩余误差,以此类推,直到第P个MWRBF网络在相同的待学习数据集上学习第(P-1)个MWRBF网络的剩余误差;在自适应宽度神经网络中,每个MWRBF网络分别对应不同的学习任务,不同MWRBF网络之间以级联方式组织学习过程。

本实施例采用基于MNIST生成的彩色图像数据集来测试SWNN的性能。选择10种不同的颜色作为主要颜色,使用均匀分布将这些颜色随机分配给实例,具体如图3所示。然后,将彩色实例从RGB转换为HSI颜色模型;使用灰度图像作为HSI模型的强度成分,最后将HSI转换为RGB颜色模型。生成的图像大小为28×28,3通道,总共10类,有60000张原始训练集图像,其中,随机选择6000张作为验证集,剩余的54000张作为训练数据集;10000张测试集图像。

1)依据训练集中的样本,设计多通道宽度径向基函数,其结构如图1所示:

首先,假设输入数据集为彩色MNIST图像数据

其次,多通道滑动窗口从左到右,从上到下使用大小为r

其中,

最后,在得到各通道输出后,为了减少数据量,进行以下处理:

(a)通道求和:输出总和为:

(b)响应排序:Φ

(c)二次抽样:

Φ

其中,N

则所有径向基函数的输出矩阵为:

Φ=[Φ

假设全连接层权值W,则有:

Y=[Y

2)可扩展的宽度神经网络学习过程:

根据学习任务的复杂性,设可扩展的自适应神经网络SWNN由P=96个MWRBF网络组成,该网络可以学习数据集96次。

首先训练第一个MWRBF,学习训练数据的标签,然后第二个MWRBF是在相同的训练集上学习第一个MWRBF的剩余误差,以此类推。在可扩展自适应神经网络中,每个MWRBF都有对应的学习任务,以级联方式组织学习过程,学习误差可以经过每个MWRBF逐次减少。

假设在相应阶段的MWRBF网络是h

Y=ΦW=[Φ

在训练时,首先在样本空间(训练数据集)中进行数据随机划分。假设训练周期为Nc,对于每个训练周期,首先对数据进行清洗操作(随机排序),再把训练数据X按顺序划分为N

在第一个训练周期,训练数据分割为

N

当前输出为:

以SWNN包含两个MWRBF神经网络为例,第一个MWRBF网络h

MWRBF网络h

即:

h

剩余的误差为:

接着,添加第二个MWRBF网络h

h

h

h

对于第一个训练子集的第二次迭代过程如下:

h

第二次迭代地输出为:

第二次迭代h

第二次迭代h

第二次迭代h

第二次迭代h

剩余的迭代过程以上述相同方式执行。本实施例在第一次迭代处理完所有MWRBF之后,将过程迭代M=100次以继续减少学习误差。每次迭代结束后使用验证集对当前迭代次数训练得到的网络性能进行验证,具体为将验证集并行输入P个MWRBF,验证输出的分类精度,本实施例中,当连续5次迭代过程的验证分类精度均不再增长,则停止迭代。

之后,以相同的方式使用具有重叠比例划分的第二个训练子集(以较少的旧知识来学习新知识)。对于每次迭代,都会评估验证性能,并将其与上一次迭代的结果进行比较。如果性能下降了给定次数(根据任务要求进行了调整),则训练过程将停止以避免过度拟合。依次类推,对所有训练子集均进行以上训练过程,得到第一个训练周期的剩余误差。

在使用完所有划分的训练子集后,基于第一训练周期的剩余误差,对训练数据集进行数据清洗和子集划分,开始第二个训练周期的训练过程。这个过程一直持续到达到最大训练周期数或验证性能停止提高为止。

对于本发明学习好的网络模型,将待分类数据并行输入网络,即可得到对应的分类结果,由于本发明的多个MWRBF是针对数据的不同部分进行学习和分类的,因此,能够对并行的输入数据进行不同部分的同时学习,加快分类速度。

分别采用本发明上述SWNN网络与目前主流的学习模型,包括多层感知器(MLP)、层叠自动编码器(SAE)、传统径向基函数网络(RBF)、支持向量机(SVM)、卷积神经网络(CNN)、径向基函数网络(RBF)集成学习模型(5个RBF)和卷积神经网络集成模型(5个CNN)等学习模型,其分类精度结果如表1所示。

表1不同学习模型在彩色手写数据集MNIST的精度对比

*:c-卷积核个数,s-下采样层;

从表1结果可以看出,相比于目前主流的学习模型,本发明学习模型具有最好的分类精度,最终的分类精度达到98.52%。

综合以上结果,本发明的学习模型和学习方法,具有以下特点:(1)高效、快速地学习和测试,意味着可以用更少的数量来优化架构参数,可以加快训练过程,测试过程可以并行进行;(2)稳健的泛化能力,这意味着学习模型具有良好的测试以前看不见的数据的性能;(3)通过增量学习来克服灾难性的遗忘,其意味着它在学习新知识的同时不会忘记学到的东西知识,即可以终身学习。

虽然,本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号