首页> 中国专利> 一种基于正交实验的模型调参方法、设备和存储介质

一种基于正交实验的模型调参方法、设备和存储介质

摘要

本发明提供了一种基于正交实验的模型调参方法,旨在降低深度学习模型训练过程中的实验执行次数,以节约训练时间和训练成本,包括以下步骤:选择影响模型输出结果的参数,并确定参数的因素水平;根据选定参数和因素水平选用合适的正交表,确定正交实验方案;对正交实验结果进行分析,确定最优或较优因素水平的参数组合,所述分析包括极差分析和方差分析;将筛选过的参数组合输入模型,完成模型的优化。

著录项

  • 公开/公告号CN112541588A

    专利类型发明专利

  • 公开/公告日2021-03-23

    原文格式PDF

  • 申请/专利权人 上海卓繁信息技术股份有限公司;

    申请/专利号CN202011420530.3

  • 发明设计人 张琦;张平平;刘凤余;

    申请日2020-12-07

  • 分类号G06N3/08(20060101);G06N20/00(20190101);

  • 代理机构31287 上海容慧专利代理事务所(普通合伙);

  • 代理人于晓菁

  • 地址 200030 上海市徐汇区番禺路1028号202室

  • 入库时间 2023-06-19 10:21:15

说明书

技术领域

本发明涉及深度学习技术领域,具体涉及一种基于正交实验的模型调参方法、设备和存储介质。

背景技术

在深度学习技术领域,模型参数的调整对模型输出的结果影响巨大,但是个深度学习模型中有参数的调节具有不确定性,有时候仅对某些参数进行微小改动就会对模型的输出结果产生巨大影响。模型中的参数是数值化的,想要通过调整参数使得网络的效果达到极致效果几乎难以实现的,参数的无限可能性导致任何一个网络都无法保证被调节到最佳的参数设置。因此,利用数理统计的一个分支学科——试验设计,在想要尝试的多种不同类型参数的不同数值上进行实验的时候,尽可能减少实验次数,从而降低模型训练所需要消耗的计算资源。

发明内容

本发明的目的是提供一种基于正交实验的模型调参方法、设备和存储介质,以降低深度学习模型训练过程中的实验执行次数,以节约训练时间和训练成本。

为了达到上述目的,本发明一方面提供一种基于正交实验的模型调参方法,包括:

选择影响模型输出结果的参数,并确定参数的因素水平;

根据选定参数和因素水平选用合适的正交表,确定正交实验方案;

对正交实验结果进行分析,确定最优或较优因素水平的参数组合,所述分析包括极差分析和方差分析;

将筛选过的参数组合输入模型,完成模型的优化。

进一步的,采用多因素方差分析对多个参数的实验结果进行分析,所述分析步骤包括:

提出多因素方差分析的原假设;

分解观测变量方差;

将观测变量的离差平方总和与各观测变量所占比例进行比较,计算检验统计量的观测值和相伴概率值;

给定显著性水平α,并做出决策。

进一步的,本方法还包括

将观测总量的离差平方总和分解为:

SST=SSA+SSB+SSAB+SSE

其中,

SSAB=SST-(SSA+SSB++SSE);

k为第i个控制变量的水平数、r为第j个控制变量的水平数、x

进一步的,在固定效应模型中,各检验统计量F的计算公式为:

进一步的,在随机效应模型中,各检验统计量F的计算公式为:

另一方面,本发明还提供一种设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如上述的一种基于正交实验的模型调参方法的步骤。

另一方面,本发明还提供一种存储介质,其特征在于,其上存储有计算机程序,所述程序被处理器执行时实现如上述的一种基于正交实验的模型调参方法的步骤。

本发明提供了一种基于正交实验的模型调参方法、设备和存储介质,旨在降低深度学习模型训练过程中的实验执行次数,以节约训练时间和训练成本,包括以下步骤:选择影响模型输出结果的参数,并确定参数的因素水平;根据选定参数和因素水平选用合适的正交表,确定正交实验方案;对正交实验结果进行分析,确定最优或较优因素水平的参数组合,所述分析包括极差分析和方差分析;将筛选过的参数组合输入模型,完成模型的优化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于正交实验的模型调参方法的方法流程图。

图2是本发明实施例的多因素方差分析的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。、在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

下面参照附图描述根据本发明实施例提出的一种基于正交实验的模型调参方法。

图1是本发明实施例的一种基于正交实验的模型调参方法的方法流程图。如图1所示,该调参方法包括以下步骤:

S1,选择影响模型输出结果的参数,并确定参数的因素水平。即首先确定想要调节的超参数有哪些,分别需要将这些超参数调整到什么数值。

S2,根据选定参数和因素水平选用合适的正交表,确定正交实验方案。

具体的,正交表具有以下两个特点,正交表必须满足这两个特点,有一条不满足,就不是正交表。首先每列中不同数字出现的次数相等。这一特点表明每个因素的每个水平与其它因素的每个水平参与实验的几率是完全相同的,从而保证了在各个水平中最大限度地排除了其它因素水平的干扰,能有效地比较试验结果并找出最优的试验条件;其次在任意2列其横向组成的数字对中,每种数字对出现的次数相等。这个特点保证了试验点均匀地分散在因素与水平的完全组合之中,因此具有很强的代表性。

在本实施例中,采用的正交表是L

S3,对正交实验结果进行分析,确定最优或较优因素水平的参数组合,所述分析包括极差分析和方差分析。

具体的,本方法需要调参的个数为多个时,采用多因素方差分析方法对正交试验的结果进行分析。

图2是本发明实施例的多因素方差分析的方法流程图。如图2所示,本发明实施例的多因素方差分析方法包括以下步骤:

S301,提出多因素方差分析的原假设。

具体的,多因素方差分析的原假设是:各控制变量不同水平下观测变量各总体的均值无显著性差异,控制变量各效应和交互作用效应同时为0,即控制变量和它们的交互作用没有对观测变量产生显著影响。假设检验的基本思想是小概率反证法思想,即原则上保护原假设,将备择假设视为小概率事件,若是在保护原假设的前提下依旧有理由拒绝原假设的话,则备择假设成立。

S302,分解观测变量方差。

具体的,在将观测变量总的离差平方和分解为:

SST=SSA+SSB+SSAB+SSE

其中,SST为观测变量的总离差平方和;SSA、SSB分别为不控制变量A、B独立作用引起的变差;SSAB为控制变量A、B两两交互作用引起的变差,SSE为随机因素引起的变差。

其中,其中,

SSAB=SST-(SSA+SSB++SSE);

k为第i个控制变量的水平数、r为第j个控制变量的水平数、x

S303,将观测变量的离差平方总和与各观测变量所占比例进行比较,计算检验统计量的观测值和相伴概率值。

其中,固定效应模型中,各F检验统计量为:

在随机效应模型中,FAB统计量同上式,其他两个F检验统计量为:

通过查找F分布表可以找到对应于F值的P值。

S304,给定显著性水平α,并做出决策。

S4,将筛选过的参数组合输入模型,完成模型的优化。

在本发明的另一个实施例中,本发明还提供一种设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如上述的一种基于正交实验的模型调参方法的步骤。

另一方面,本发明还提供一种存储装置所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述方法中的步骤。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号