首页> 中国专利> 一种神经网络架构选择方法、装置和电子设备

一种神经网络架构选择方法、装置和电子设备

摘要

本申请提供了一种神经网络架构选择方法中,基于架构池中的架构建立隐特征空间,在隐特征空间中精度高的第一区域进行采样,将采样结果中的隐特征进行解码得到新的架构,并从中选择目标结构,通过对于隐特征空间中精度高的第一区间的隐特征进行采样,并基于隐特征解码得到精度更高的新架构,以实现基于精度选择目标结构,相对于现有技术中在候选架构中只能通过在海量的架构中随机选择的方式寻找目标结构,处理过程更加迅速。

著录项

  • 公开/公告号CN112990436A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 联想(北京)有限公司;

    申请/专利号CN202110307991.8

  • 发明设计人 郑欣悦;王鹏;尚雨薇;

    申请日2021-03-23

  • 分类号G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人王欢

  • 地址 100085 北京市海淀区上地西路6号2幢2层201-H2-6

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本申请涉及人工智能领域,更具体的说,是涉及一种神经网络架构选择方法、装置和电子设备。

背景技术

利用深度学习技术在诸如图像分类与检测、语音识别、自然语言处理等任务上均取得了前所未有的成功,近几年广泛落地于安防、医疗、广告传媒等诸多领域。NAS(NeuralArchitecture Search,神经网络架构搜索)方法开始在各个领域展现的巨大潜力。

但是,NAS方法中设计搜索空间较复杂,NAS算法需要在百万或千万级的候选架构中采样随机采样的方式,寻找目标结构以达到高性能,导致消耗极大的时间及计算资源。

发明内容

有鉴于此,本申请提供了一种神经网络架构选择方法,解决现有技术中NAS方法中寻找目标结构的过程复杂,消耗大量时间以及计算资源的问题。

为实现上述目的,本申请提供如下技术方案:

一种神经网络架构选择方法,包括:

获取架构池中的第一架构,所述架构池中包括至少两个第一架构;

依据所述至少两个第一架构建立隐特征空间;

在隐特征空间的第一区间进行采样,得到采样结果,所述采样结果中包括至少两个隐特征,所述隐特征空间的第一区间中隐特征精度高于隐特征空间第一区间外的隐特征精度;

对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;

从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。

可选的,上述的方法,所述在隐特征空间的第一区间进行采样,得到采样结果,包括:

以第一采样概率在第一区间进行采样,以第二采样概率在隐特征空间进行采样,得到采样结果,第一采样概率与第二采样概率之和为1。

可选的,上述的方法,所述依据所述至少两个第一架构建立隐特征空间,包括:

依据所述至少两个第一架构对于控制器的预设参数进行训练,得到满足预设训练要求的控制器;

基于训练后的控制器对于所述至少两个第一架构进行编码,得到隐特征;

基于所述隐特征建立隐特征空间。

可选的,上述的方法,所述对于所述采样结果中的隐特征进行解码,得到至少两个第二架构之前,还包括:

基于所述采样结果进行优化,优化后的隐特征精度高于所述优化前的隐特征精度。

可选的,上述的方法,所述依据所述至少两个第一架构对于控制器的预设参数进行训练,得到满足预设训练要求的控制器,包括:

基于控制器对于所述至少两个第一架构进行评估,产生至少两个架构与精度的对应关系;

基于所述至少两个架构与精度的对应关系,训练所述控制器的预设参数,得到满足预设训练要求的控制器。

可选的,上述的方法,所述基于所述隐特征建立隐特征空间,包括:

基于至少两个架构与精度的对应关系,获取与任一第一架构的隐特征相应的精度,得到精度与隐特征的对应关系;

基于所述精度与隐特征的对应关系建立隐特征空间,所述隐特征空间包括第一区间和第二区间,所述第一区间中隐特征的精度高于第二区间中隐特征的精度。

可选的,上述的方法,所述对于所述采样结果中的隐特征进行解码,得到至少两个第二架构之后,还包括:

判断对于隐特征进行解码的次数是否满足预设次数,得到判断结果;

基于所述判断结果表征对于隐特征进行解码的次数满足预设次数,执行所述从所述至少两个第二架构中选择符合预定条件的架构作为目标架构步骤;

基于所述判断结果表征对于隐特征进行解码的次数不满足预设次数,将所述至少两个第二架构作为第一架构放入所述架构池;并循环执行后续获取架构池中的第一架构的步骤。

一种神经网络架构选择装置,包括:

获取模块,用于获取架构池中的第一架构,所述架构池中包括至少两个第一架构;

建立模块,用于依据所述至少两个第一架构建立隐特征空间;

采样模块,用于在隐特征空间的第一区间进行采样,得到采样结果,所述采样结果中包括至少两个隐特征,所述隐特征空间的第一区间中隐特征精度高于隐特征空间第一区间外的隐特征精度;

处理模块,用于对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;

选择模块,用于从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。

可选的,上述的装置,所述采样模块,具体用于:

以第一采样概率在第一区间进行采样,以第二采样概率在隐特征空间进行采样,得到采样结果,第一采样概率与第二采样概率之和为1。

一种电子设备,包括:存储器、处理器;

其中,存储器存储有处理程序;

所述处理器用于加载并执行所述存储器存储的所述处理程序,以实现如上述任一项所述的神经网络架构选择方法的各步骤。

经由上述的技术方案可知,与现有技术相比,本申请提供了一种神经网络架构选择方法,包括:获取架构池中的第一架构,所述架构池中包括至少两个第一架构;依据所述至少两个第一架构建立隐特征空间;在隐特征空间的第一区间进行采样,得到采样结果,所述采样结果中包括至少两个隐特征,所述隐特征空间的第一区间中隐特征精度高于隐特征空间第一区间外的隐特征精度;对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;从所述至少两个第二架构中选择符合预定条件的架构作为目标结构。本方案中,基于架构池中的架构建立隐特征空间,分别在隐特征空间中精度高的第一区域进行采样,得到采样结果,并将采样结果中的隐特征进行解码得到新的架构,并从中选择精度最高的架构作为目标结构,通过对于隐特征空间中精度高的第一区间的隐特征进行采样,并基于隐特征解码得到精度更高的新架构,以实现基于精度选择目标结构,相对于现有技术中在候选架构中只能通过在海量的架构中随机选择的方式寻找目标结构,处理过程更加迅速。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种神经网络架构选择方法实施例1的流程图;

图2为本申请提供的一种神经网络架构选择方法实施例1中隐特征空间示意图;

图3为本申请提供的一种神经网络架构选择方法实施例2的流程图;

图4为本申请提供的一种神经网络架构选择方法实施例3的流程图;

图5为本申请提供的一种神经网络架构选择方法实施例4的流程图;

图6为本申请提供的一种神经网络架构选择方法实施例5的流程图;

图7为本申请提供的一种神经网络架构选择方法中控制器的处理流程示意图;

图8为本申请提供的一种神经网络架构选择装置实施例的结构示意图;

图9为本申请提供的一种电子设备实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

神经网络是机器学习中的一种模型,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。

神经网络架构是指神经网络的结构,神经网络包括:输入层、卷积层、全连接层、……、输出层等,其中,卷积层中卷积核大小和/或卷积层数不同、全连接层的层数不同等各种因素的不同使得神经网络可以具有各种架构。

为了选择性能最优的神经网络架构,现有技术中,是列举出海量的架构,并从中随机选择一个进行评估,并从中确定精度最高(性能最好)的一个作为最优的架构,该过程中,可能需要进行选择海量的次数,导致消耗极大的时间及计算资源。

因此,本申请中公开的神经网络架构选择方法中,基于有限个数的第一架构进行构建隐特征空间,从该隐特征空间中隐特征精度高的第一区域进行采样,得到精度高的隐特征,进而对于该隐特征进行解码得到精度高的第二架构,理论上来讲,由于该第一区域是连续的区域,从第一区域中进行采样,其采样得到的隐特征与该第一架构的隐特征不同,且精度更高,即该多个第二架构是与多个第一架构至少部分不同的架构,其精度高于第一架构的,因此,从该第二架构中选择的性能最好的架构即为性能最好的架构,简化了处理过程。

如图1所示的,为本申请提供的一种神经网络架构选择方法实施例1的流程图,该方法应用于一电子设备,该方法包括以下步骤:

步骤S101:获取架构池中的第一架构;

其中,所述架构池中包括至少两个第一架构;

其中,该至少两个第一架构不同,二者的性能不同,当相同的输入内容经过该至少两个第一架构处理输出的结果不同,这是由于精度不同(即性能不同)导致,而且,该第一架构的精度可能均较低。

具体实施中,该架构池中第一架构的数目有限,如可以为几十、甚至上百个,相对于现有技术中的百万或者千万级的候选架构,数目很少。

步骤S102:依据所述至少两个第一架构建立隐特征空间;

其中,基于该多个第一架构建立隐特征空间,该隐特征空间中包含了该多个第一架构的隐特征。

具体的,基于控制器对于多个第一架构分别进行编码得到多个隐特征,进而基于该多个隐特征建立隐特征空间。

需要说明的是,控制器对于第一架构进行编码,其是将架构映射至高层特征(即隐特征空间),而该高层特征空间是含有语义信息的,从该高层特征空间采样,可以直观的理解哪类的架构表征容易取得好的性能,增强可解释性。

后续实施例中会针对建立隐特征空间的具体过程进行详细说明,本实施例中不做详述。

步骤S103:在隐特征空间的第一区间进行采样,得到采样结果;

其中,所述采样结果中包括至少两个隐特征,所述隐特征空间的第一区间中隐特征精度高于隐特征空间第一区间外的隐特征精度;

其中,该采样结果中的隐特征个数与建立隐特征空间的第一架构的个数相同。

其中,该隐特征空间的第一区间的隐特征精度高于其他区域的隐特征精度,因此,从该第一区间进行采样,得到的隐特征的精度均是较高的精度。

如下图2所示的为隐特征空间示意图,灰色区域表示第一区间,其中横轴表示隐特征的取值,纵轴表示隐特征的精度。

结合上图2所示的,其中左图表示了z

其中,该第一区间为连续的区间,在该连续的区间中进行采样得到隐特征与第一架构的隐特征完全不同或者不完全相同。

具体的,该采样为随机采样,其采样得到的隐特征有较小可能存在与第一架构编码得到的隐特征为同一隐特征的情况,大概率不是同一隐特征。

需要说明的是,该隐特征是包含了若干维度的,该多个第一架构得到的隐特征分别对应该若干维度。

具体的,该隐特征空间是包含了若干维度的隐特征空间,如上述图2所示的为隐特征空间的某两个维度的情况,其中图2中的左图表示了某一维度的隐特征分布情况,右图表示了另一维度的隐特征分布情况。

具体的,该步骤S103,包括:

以第一采样概率在第一区间进行采样,以第二采样概率在隐特征空间进行采样,得到采样结果,第一采样概率与第二采样概率之和为1。

具体的,为了避免遗漏一些独特的优秀架构,在隐特征空间整体也进行随机采样,即,在第一区间和隐特征空间整体分别进行采样,得到采样结果。

采样的公式如下:

其中,R

其中,先选择精度最高的k个点(如3或5个等),以左右取值σ的空间范围作为第一区间。

例如,隐特征i维度的最高精度的3个架构的取值分别为0.3、0.4、0.35,σ取值±0.02,则可以选择0.3±0.02的范围作为第一区间。

具体的,以ε

步骤S104:对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;

其中,对采样得到隐特征进行解码,得到第二架构。

由于采样得到的隐特征,每个隐特征包括了若干维度(如i个),相应的,该解码是对于包含该若干维度的隐特征进行解码,得到第二架构。

其中,该采样结果是对于精度高的隐特征进行采样,因此,对于该精度高的隐特征进行解码得到第二架构的精度也是较高的。

步骤S105:从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。

从该精度较高的至少两个第二架构中选择特定的架构作为目标架构。

具体的,该预定条件可以是精度最高/性能最优的,即本申请中,是选择精度最高的架构作为目标架构,或者说是最优架构。

具体的,对于该第二架构进行编码解码的处理,得到其精度,将精度从高到低的排序,从中确定精度最高的架构作为目标架构。

综上,本实施例提供的一种神经网络架构选择方法,包括:获取架构池中的第一架构,所述架构池中包括至少两个第一架构;依据所述至少两个第一架构建立隐特征空间;在隐特征空间的第一区间进行采样,得到采样结果,所述采样结果中包括至少两个隐特征,所述隐特征空间的第一区间中隐特征精度高于隐特征空间第一区间外的隐特征精度;对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;从所述至少两个第二架构中选择符合预定条件的架构作为目标结构。本方案中,基于架构池中的架构建立隐特征空间,分别在隐特征空间中精度高的第一区域进行采样,得到采样结果,并将采样结果中的隐特征进行解码得到新的架构,并从中选择精度最高的架构作为目标结构,通过对于隐特征空间中精度高的第一区间的隐特征进行采样,并基于隐特征解码得到精度更高的新架构,以实现基于精度选择目标结构,相对于现有技术中在候选架构中只能通过在海量的架构中随机选择的方式寻找目标结构,处理过程更加迅速。

如图3所示的,为本申请提供的一种神经网络架构选择方法实施例2的流程图,该方法应用于一电子设备,该方法包括以下步骤:

步骤S301:获取架构池中的第一架构;

其中,步骤S301与实施例1中的步骤S101一致,本实施例中不做赘述。

步骤S302:依据所述至少两个第一架构对于控制器的预设参数进行训练,得到满足预设训练要求的控制器;

其中,本实施例中,对于控制器的预设参数(如定义为θ)进行训练,以实现训练控制器的编解码以及性能预测。

其中,该控制器包括如下组成部分:编码器、解码器和预测器,该编码器具体对于架构通过编码实现映射至高层连续隐特征空间,该高层连续隐特征空间是含有语义信息的,能够建立高层隐特征与性能之间的关系,解码器用于对隐特征空间的隐特征进行解码得到相应的架构,而预测器是预测隐特征的精度,分析可能产生高精度架构的隐特征,以此确定隐特征空间中第一区间的分布情况。

因此,控制器进行预设参数的训练,可以其能够更加精确的预测第一区间的分布区域,使得后续经过采样解码得到的第二架构的精度更高、且稳定性较高。

步骤S303:基于训练后的控制器对于所述至少两个第一架构进行编码,得到隐特征;

经过训练后,该控制器对于输入的第一架构进行编码,得到相应的隐特征。

需要说明的是,一个第一架构经过编码得到的隐特征是包含若干维度的,具体的维度设置可以根据实际情况进行设置,本申请中不对于维度的数量以及具体内容做限制。

步骤S304:基于所述隐特征建立隐特征空间;

具体的,基于该多维度的隐特征建立隐特征空间,该隐特征空间中包含了若干维度的信息。

步骤S305:在隐特征空间的第一区间进行采样,得到采样结果;

步骤S306:对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;

步骤S307:从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。

其中,步骤S305-307与实施例1中的步骤S103-105一致,本实施例中不做赘述。

综上,本实施例提供的一种神经网络架构选择方法中,该依据所述至少两个第一架构建立隐特征空间,包括:依据所述至少两个第一架构对于控制器的预设参数进行训练,得到满足预设训练要求的控制器;基于训练后的控制器对于所述至少两个第一架构进行编码,得到隐特征;基于所述隐特征建立隐特征空间。本方案中,对于控制器的预设参数进行训练,以使得基于训练后的控制器对于第一架构进行编码得到隐特征,基于该隐特征建立隐特征空间,控制器进行预设参数的训练,可以其能够更加精确的预测第一区间的分布区域,使得后续经过采样解码得到的第二架构的精度更高、且稳定性较高。

如图4所示的,为本申请提供的一种神经网络架构选择方法实施例3的流程图,该方法应用于一电子设备,该方法包括以下步骤:

步骤S401:获取架构池中的第一架构;

步骤S402:依据所述至少两个第一架构对于控制器的预设参数进行训练,得到满足预设训练要求的控制器;

步骤S403:基于训练后的控制器对于所述至少两个第一架构进行编码,得到隐特征;

步骤S404:基于所述隐特征建立隐特征空间;

步骤S405:在隐特征空间的第一区间进行采样,得到采样结果;

其中,步骤S401-405与实施例2中的步骤S301-305一致,本实施例中不做赘述。

步骤S406:基于所述采样结果进行优化,优化后的隐特征精度高于所述优化前的隐特征精度;

其中,基于采样结果进行优化处理,即对于采样的隐特征进行优化处理。

需要说明的是,步骤S402中对于控制器进行训练时,对于其中预测器训练,能够使得在优化隐特征过程中,预测器预测出的精度更高。

而在本步骤中,对于采样结果进行优化的过程,其是由该预测器实现的。

其中,可以采用梯度优化方式,如梯度上升方式,将采样结果中的隐特征网精度高的方向优化。

步骤S407:对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;

步骤S408:从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。

其中,步骤S407-408与实施例2中的步骤S306-307一致,本实施例中不做赘述。

综上,本实施例提供的一种神经网络架构选择方法中,还包括:基于所述采样结果进行优化,优化后的隐特征,所述优化后的隐特征精度高于所述优化前的隐特征精度。本方案中,对于采样的隐特征进行优化处理,以得到更高精度的隐特征,进而后续解码得到的第二架构的精度更高,最终选择的目标架构的准确度跟高。

如图5所示的,为本申请提供的一种神经网络架构选择方法实施例4的流程图,该方法应用于一电子设备,该方法包括以下步骤:

步骤S501:获取架构池中的第一架构;

其中,步骤S501与实施例2中的步骤S301一致,本实施例中不做赘述。

步骤S502:基于控制器对于所述至少两个第一架构进行评估,产生至少两个架构与精度的对应关系;

其中,该控制器对于第一架构进行评估的过程是控制器对于第一架构进行编码和解码,将输出的结果与输入的架构进行比对,得到相应架构与精度的对应关系。

具体的,本步骤中对于每个第一架构进行评估,得到每个第一架构与其精度的对应关系。

步骤S503:基于所述至少两个架构与精度的对应关系,训练所述控制器的预设参数,得到满足预设训练要求的控制器;

具体的,该控制器包括了编码器、解码器和预测器三个组成部分,其中该编码器是用于对输入的架构进行编码(评估),解码器用于对隐特征进行解码得到架构,预测器用于预测输入控制器的架构对应的精度。

其中,架构输入到编码器实现评估得到了架构与精度的对应关系,预测器预测该架构对应的精度,预测的精度与评估的精度进行平方差的损失函数(loss)处理得到损失函数结果,基于损失函数结果采用梯度返传的方式更新预测器的预设参数θ。

而且,从架构输入到编码到解码的过程,将解码出的架构与最初输入的架构进行交叉熵损失函数(loss)处理得到损失函数结果,基于该损失函数结果采用梯度返传的方式更新编码器和解码器的预设参数θ。

步骤S504:基于训练后的控制器对于所述至少两个第一架构进行编码,得到隐特征;

其中,步骤S504与实施例2中的步骤S303一致,本实施例中不做赘述。

步骤S505:基于所述隐特征建立隐特征空间;

具体的,该步骤S505,包括:

步骤S5051:基于至少两个架构与精度的对应关系,获取与任一第一架构的隐特征相应的精度,得到精度与隐特征的对应关系;

具体的,该第一架构的隐特征包括若干维度,针对该隐特征的每个维度均确定其对应的精度。

步骤S5052:基于所述精度与隐特征的对应关系建立隐特征空间,所述隐特征空间包括第一区间和第二区间,所述第一区间中隐特征的精度高于第二区间中隐特征的精度。

其中,针对每个隐特征与其精度的对应关系,针对每个隐特征的维度建立对应的隐特征的隐特征分布情况的二维图,若干二维图组成了隐特征空间。

其中,每个维度的隐特征及其精度对应的二维图中,包括了第一区间和第二区间,其中第一区间的隐特征精度高,第二区间的隐特征精度较低。

后续步骤S506中进行采样时,在在每个隐特征维度的二维图中采集相应维度的精度高的隐特征采样,因此,最终是对于该若干维度的采样结果进行组合得到包含该若干维度的隐特征。

步骤S506:在隐特征空间的第一区间进行采样,得到采样结果;

步骤S507:对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;

步骤S508:从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。

其中,步骤S506-508与实施例2中的步骤S305-307一致,本实施例中不做赘述。

具体实施中,为了提高选择的准确度,防止漏选,可以将该第二架构与第一架构的精度均进行排序,从中确定精度最高的架构作为目标架构。

由于第一架构的精度是在训练控制器过程中已知的,具体实施中也可以是直接获取第一架构的精度,对于第二架构的精度进行评估得到精度,然后将第一架构和第二架构的精度排序,得到目标结构。

综上,本实施例提供的一种神经网络架构选择方法中,该基于所述隐特征建立隐特征空间,包括:基于至少两个架构与精度的对应关系,获取与任一第一架构的隐特征相应的精度,得到精度与隐特征的对应关系;基于所述精度与隐特征的对应关系建立隐特征空间,所述隐特征空间包括第一区间和第二区间,所述第一区间中隐特征的精度高于第二区间中隐特征的精度。本方案中,基于第一架构与其精度之间的对应关系建立隐特征空间,隐特征空间中包含了隐特征的多个维度的精度分布情况,则该隐特征空间的每个维度中均涉及有精度高的隐特征维度,后续可以从每个维度中采样精度高的隐特征,将各个维度中精度高的隐特征组合,得到采样结果中的隐特征,该隐特征是各个维度精度高的隐特征,因此,其解码得到的第二架构的精度高,最终选择的目标架构的准确度跟高。

如图6所示的,为本申请提供的一种神经网络架构选择方法实施例5的流程图,该方法包括以下步骤:

步骤S601:获取架构池中的第一架构;

步骤S602:基于控制器对于所述至少两个第一架构进行评估,产生至少两个架构与精度的对应关系;

步骤S603:基于所述至少两个架构与精度的对应关系,训练所述控制器的预设参数,得到满足预设训练要求的控制器;

步骤S604:基于训练后的控制器对于所述至少两个第一架构进行编码,得到隐特征;

步骤S605:基于所述隐特征建立隐特征空间;

步骤S606:在隐特征空间的第一区间进行采样,得到采样结果;

步骤S607:对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;

其中,步骤S601-607与实施例4中的步骤S501-507一致,本实施例中不做赘述。

步骤S608:判断对于隐特征进行解码的次数是否满足预设次数,得到判断结果;

基于所述判断结果表征对于隐特征进行解码的次数满足预设次数,执行步骤610;

步骤S609:基于所述判断结果表征对于隐特征进行解码的次数不满足预设次数,将所述至少两个第二架构作为第一架构放入所述架构池;并循环执行步骤S601。

为了提高最终得到的目标架构的精度,可以多次执行上述训练、采样的过程,该执行的次数可以为预设的,如3次、5次等。

其中,在解码得到第二架构后,记录解码的次数,并且在判断解码的次数满足预设次数时,则表征经过足够的训练采样,其得到的第二架构的精度足够高,则从第二架构中选择目标架构,执行步骤S610;而在该解码的次数不满足预设次数时,则表征没有经过足够的训练采样,其得到的第二架构精度可能不够高,则将该第二架构作为第一架构放入架构池中,并循环步骤S601-607步骤。

具体实施中,还可以将实施例4中解码之前的优化步骤作为循环的内容。

步骤S610:从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。

其中,步骤S610与实施例4中的步骤S508一致,本实施例中不做赘述。

综上,本实施例提供的一种神经网络架构选择方法中,还包括:判断对于隐特征进行解码的次数是否满足预设次数,得到判断结果;基于所述判断结果表征对于隐特征进行解码的次数满足预设次数,执行所述从所述至少两个第二架构中选择符合预定条件的架构作为目标架构步骤;基于所述判断结果表征对于隐特征进行解码的次数不满足预设次数,将所述至少两个第二架构作为第一架构放入所述架构池;并循环执行后续获取架构池中的第一架构的步骤。本方案中,通过多次循环训练控制器以及进行采样的过程,经过足够的训练以及采样,其得到的第二架构的精度高,则从第二架构中选择的目标架构精度很高。

与上述本申请提供的一种神经网络架构选择方法实施例相对应的,本申请还提供了应用该神经网络架构选择方法的应用场景。

如图7所示的为控制器的处理流程示意图,该控制器包括编码器、解码器和预测器;

其中编码器的输入包括了架构池中的架构(包括了原始的架构以及采样得到的架构),编码器对输入的架构进行编码得到隐特征(也可称为潜在表征)Z,在隐特征空间进行第一区间采样得到采样结果,该采样结果经过预测器进行预测精度采用梯度上升方式进行优化后,经由解码器进行解码,得到优化后的架构,该优化后的架构是相对于输入的架构而言,其精度更高。

与上述本申请提供的一种神经网络架构选择方法实施例相对应的,本申请还提供了应用该神经网络架构选择方法的装置实施例。

如图8所示的,为本申请提供的一种神经网络架构选择装置实施例的结构示意图,该装置包括如下组成部分:获取模块801、建立模块802、采样模块803、处理模块804和选择模块805;

获取模块801,用于获取架构池中的第一架构,所述架构池中包括至少两个第一架构;

建立模块802,用于依据所述至少两个第一架构建立隐特征空间;

采样模块803,用于在隐特征空间的第一区间进行采样,得到采样结果,所述采样结果中包括至少两个隐特征,所述隐特征空间的第一区间中隐特征精度高于隐特征空间第一区间外的隐特征精度;

处理模块804,用于对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;

选择模块805,用于从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。

可选的,所述采样模块,具体用于:

以第一采样概率在第一区间进行采样,以第二采样概率在隐特征空间进行采样,得到采样结果,第一采样概率与第二采样概率之和为1。

可选的,所述建立模块,包括:

依据所述至少两个第一架构对于控制器的预设参数进行训练,得到满足预设训练要求的控制器;

基于训练后的控制器对于所述至少两个第一架构进行编码,得到隐特征;

基于所述隐特征建立隐特征空间。

可选的,还包括:

优化模块,用于基于所述采样结果进行优化,优化后的隐特征精度高于所述优化前的隐特征精度。

可选的,所述建立模块具体用于:

基于控制器对于所述至少两个第一架构进行评估,产生至少两个架构与精度的对应关系;

基于所述至少两个架构与精度的对应关系,训练所述控制器的预设参数,得到满足预设训练要求的控制器。

可选的,所述建立模块具体用于:

基于至少两个架构与精度的对应关系,获取与任一第一架构的隐特征相应的精度,得到精度与隐特征的对应关系;

基于所述精度与隐特征的对应关系建立隐特征空间,所述隐特征空间包括第一区间和第二区间,所述第一区间中隐特征的精度高于第二区间中隐特征的精度。

可选的,还包括:

判断模块,用于判断对于隐特征进行解码的次数是否满足预设次数,得到判断结果;

基于所述判断结果表征对于隐特征进行解码的次数满足预设次数,触发选择模块;

基于所述判断结果表征对于隐特征进行解码的次数不满足预设次数,将所述至少两个第二架构作为第一架构放入所述架构池;并触发获取模块。

综上,本实施例提供的一种神经网络架构选择装置,包括:获取模块,用于获取架构池中的第一架构,所述架构池中包括至少两个第一架构;建立模块,用于依据所述至少两个第一架构建立隐特征空间;采样模块,用于在隐特征空间的第一区间进行采样,得到采样结果,所述采样结果中包括至少两个隐特征,所述隐特征空间的第一区间中隐特征精度高于隐特征空间第一区间外的隐特征精度;处理模块,用于对于所述采样结果中的隐特征进行解码,得到至少两个第二架构;选择模块,用于从所述至少两个第二架构中选择符合预定条件的架构作为目标架构。本方案中,基于架构池中的架构建立隐特征空间,分别在隐特征空间中精度高的第一区域进行采样,得到采样结果,并将采样结果中的隐特征进行解码得到新的架构,并从中选择精度最高的架构作为目标结构,通过对于隐特征空间中精度高的第一区间的隐特征进行采样,并基于隐特征解码得到精度更高的新架构,以实现基于精度选择目标结构,相对于现有技术中在候选架构中只能通过在海量的架构中随机选择的方式寻找目标结构,处理过程更加迅速。

与上述本申请提供的一种神经网络架构选择方法实施例相对应的,本申请还提供了应用该神经网络架构选择方法的电子设备实施例。

如图9所示的为本申请提供的一种电子设备实施例的结构示意图,该电子设备包括以下结构:存储器901和处理器902;

其中,存储器存储有处理程序;

所述处理器用于加载并执行所述存储器存储的所述处理程序,以实现如上述任一项所述的神经网络架构选择方法的各步骤。

具体的,该存储器可以采用ROM(只读存储器)、RAM(随机读写存储器)、FlashMemory(闪存)等,本申请不对于存储器的具体结构做限制。

具体的,该处理器可以采用具有信息处理能力的部件,如CPU(centralprocessing unit,中央处理器)、EC(Embedded Controller,嵌入式控制器)。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所提供的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所提供的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号