首页> 中国专利> 决策树剪枝优化方法、装置、设备及计算机存储介质

决策树剪枝优化方法、装置、设备及计算机存储介质

摘要

本发明涉及金融科技(Fintech)技术领域,公开了一种决策树剪枝优化方法、装置、设备及计算机存储介质,该方法包括以下步骤:获取待剪枝决策树;对待剪枝决策树的待剪非叶子节点进行预剪枝,生成第一预剪枝决策树;获取第一预剪枝决策树的模型效果;若第一预剪枝决策树的模型效果优于待剪枝决策树,则确认对待剪非叶子节点执行剪枝操作,生成第一决策树;获取第一决策树的稳定性指标;若稳定性指标满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树。本发明解决了缺乏对剪枝后的决策树的稳定性的衡量的问题,实现了在衡量模型效果的基础上,加入对稳定性指标的检测以优化决策树剪枝方法。

著录项

  • 公开/公告号CN112651501A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利权人 深圳前海微众银行股份有限公司;

    申请/专利号CN202011637385.4

  • 发明设计人 要卓;陈婷;吴三平;庄伟亮;

    申请日2020-12-31

  • 分类号G06N3/08(20060101);G06N3/04(20060101);

  • 代理机构44287 深圳市世纪恒程知识产权代理事务所;

  • 代理人张志江

  • 地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本发明涉及金融科技(Fintech)的决策树优化领域,尤其涉及一种决策树剪枝优化方法、装置、设备及计算机存储介质。

背景技术

现有GBDT(Gradient Boosting Decision Tree,梯度提升决策树算法)集成学习算法主要是利用现有数据源对设定的模型目标进行拟合。为了防止模型过拟合,即模型因为拟合过多噪声导致模型的训练集效果和验证集效果差异过大,GBDT算法通常需要对拟合出的模型进行剪枝。而原有基于测试数据的GBDT的剪枝算法REP(Reduced-Error Pruning,错误率降低剪枝)主要是从每个节点在测试集效果的准确性上进行考虑的,如果剪枝后节点在测试集上准确性优于剪枝前则对该节点进行剪枝。

而在风控领域中对模型优劣的评判标准除了模型预测效果外还包含了模型的稳定性等因素,现有GBDT的REP剪枝算法缺乏了对效果稳定性的衡量标准。

发明内容

有鉴于此,提供一种决策树剪枝优化方法、装置、设计及计算机存储介质,解决了现有技术中缺乏对剪枝后的决策树的稳定性的衡量的问题。

本申请实施例提供了一种决策树剪枝优化方法,所述方法包括:

获取待剪枝决策树;

对所述待剪枝决策树的待剪非叶子节点进行预剪枝,生成第一预剪枝决策树;

获取所述第一预剪枝决策树的模型效果;

若所述第一预剪枝决策树的模型效果优于所述待剪枝决策树,则确认对所述待剪非叶子节点执行剪枝操作,生成第一决策树;

获取所述第一决策树的稳定性指标;

若所述稳定性指标满足预设条件,则确认对所述第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树;其中,所述剪枝操作是将非叶子节点对应的子树替换为叶子节点。

在一实施例中,所述稳定性指标至少包括效果稳定性,若所述第一决策树的所述效果稳定性满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,包括:

取预设数量个月份对应数据作为测试集,利用梯度提升决策树算法拟合生成验证决策树;

获取所述验证决策树中非叶子节点信息值中最大值与最小值的极差;

若所述极差大于所述第一决策树中对应的待剪非叶子节点的信息值的预设倍,则确定对所述待剪非叶子节点执行剪枝操作。

在一实施例中,所述稳定性指标至少包括分布稳定性,若所述第一决策树的所述分布稳定性满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,包括:

基于所述第一决策树,获得建模月份非叶子节点的预设变量的分布以及最新月份非叶子节点的预设变量的分布的第一群体稳定性指标值;

若所述第一群体稳定性指标值大于或等于第一预设值,且基于第二预剪枝决策树对应的建模月份非叶子节点的预设变量的分布以及最新月份非叶子节点的预设变量的分布获得的第二群体稳定性指标值小于第二预设值,则确定对待剪非叶子节点进行剪枝操作;其中,第二预剪枝决策树是对第一决策树中待剪非叶子节点执行预剪枝操作生成的。

在一实施例中,所述稳定性指标至少包括未来分布稳定性,若所述第一决策树的所述未来分布稳定性满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,包括:

以建模月份为基准,获得未来第一数量个月的模型变量;

基于所述模型变量,分别基于每个月第二预剪枝决策树对应的非叶子节点的预设变量的分布与建模月份非叶子节点的预设变量的分布获得第三群体稳定性指标值;

根据每个月的第三群体稳定性指标值,利用预设拟合方法预测未来第二数量个月后的第四群体稳定性指标值;

若第四群体稳定性指标值大于或等于第三预设值,则确定对待剪非叶子节点进行剪枝操作。

在一实施例中,所述根据每个月的第三群体稳定性指标值,利用预设拟合方法预测未来第二数量个月后的第四群体稳定性指标值,包括:

在一实施例中,所述确认对待剪非叶子节点执行剪枝操作,生成第一决策树:包括:

依次对待剪枝决策树中每个待剪非叶子节点确认执行剪枝操作进行验证;

直至对所述待剪枝决策树中所有待剪非叶子节点完成验证,则剪枝操作结束;

生成第一决策树。

在一实施例中,所述第一预剪枝决策树的模型效果优于所述待剪枝决策树包括:

所述第一预剪枝决策树在测试集中的正确率高于所述待剪枝决策树;其中,所述测试集为预设数量个月份对应数据。

在其中一个实施例中,所述确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树:包括:

依次对第一决策树中每个待剪非叶子节点确认执行剪枝操作进行验证;

直至对所述第一决策树中所有待剪非叶子节点完成验证,则剪枝操作结束;

生成第二决策树。

为实现上述目的,还提供一种决策树剪枝优化装置,所述决策树剪枝优化装置包括:

第一决策树生成模块,用于获取待剪枝决策树;对所述待剪枝决策树的待剪非叶子节点进行预剪枝,生成第一预剪枝决策树;获取所述第一预剪枝决策树的模型效果;当所述第一预剪枝决策树的模型效果优于所述待剪枝决策树时,确认对待剪非叶子节点执行剪枝操作,生成第一决策树;

第二决策树生成模块,用于获取所述第一决策树的稳定性指标;若所述稳定性指标满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树。

为实现上述目的,还提供一种计算机存储介质,所述计算机存储介质上存储有决策树剪枝优化方法程序,所述决策树剪枝优化方法程序被处理器执行时实现上述任一所述的方法的步骤。

为实现上述目的,还提供一种决策树剪枝优化设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的决策树剪枝优化方法程序,所述处理器执行所述决策树剪枝优化方法程序时实现上述任一所述的方法的步骤。

本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:获取待剪枝决策树;通过获取一个泛化能力较强的待剪枝决策树,保持良好的模型效果。对所述待剪枝决策树的待剪非叶子节点进行预剪枝,生成第一预剪枝决策树;通过预剪枝操作后生成的第一预剪枝决策树作为本方法的验证模型,提供正确的验证结果,保证剪枝操作的正确性。获取所述第一预剪枝决策树的模型效果;通过获取的第一预剪枝决策树的模型效果判断模型效果是否有所提升,是后续进行剪枝操作的基础,保证剪枝操作的正确性。若所述第一预剪枝决策树的模型效果优于所述待剪枝决策树,则确认对待剪非叶子节点执行剪枝操作,生成第一决策树;基于模型效果的提升,则确认对待剪非叶子节点进行剪枝操作,从而保证在模型效果提升的基础上,剪枝操作的正确性。获取所述第一决策树的稳定性指标;若所述稳定性指标满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树;在模型效果提升的基础上,通过对第一决策树的稳定性进行判断,优化现有技术中的剪枝方法。本发明解决了缺乏对剪枝后的决策树的稳定性的衡量的问题,实现了在衡量模型效果的基础上,加入对稳定性指标的检测以优化决策树剪枝方法。

附图说明

图1为本申请实施例中涉及的决策树剪枝优化方法的硬件架构示意图;

图2为本申请决策树剪枝优化方法的第一实施例的流程示意图;

图3为本申请决策树剪枝优化方法第一实施例中步骤S160的具体流程示意图;

图4为本申请决策树剪枝优化方法第一实施例中步骤S160的具体流程示意图;

图5为本申请决策树剪枝优化方法第一实施例中步骤S160的具体流程示意图;

图6为为本申请决策树剪枝优化方法步骤S163b的具体流程示意图;

图7为本申请决策树剪枝优化方法第一实施例中步骤S140的具体流程示意图;

图8为本申请决策树剪枝优化方法第一实施例中步骤S160的具体流程示意图。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的主要解决方案是:获取待剪枝决策树;对待剪枝决策树的待剪非叶子节点进行预剪枝,生成第一预剪枝决策树;获取第一预剪枝决策树的模型效果;若第一预剪枝决策树的模型效果优于待剪枝决策树,则确认对待剪非叶子节点执行剪枝操作,生成第一决策树;获取第一决策树的稳定性指标;若稳定性指标满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树。本发明解决了缺乏对剪枝后的决策树的稳定性的衡量的问题,实现了在衡量模型效果的基础上,加入对稳定性指标的检测以优化决策树剪枝方法。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本申请涉及一种决策树剪枝优化设备010包括如图1所示:至少一个处理器012、存储器011。

处理器012可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器012中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器012可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器011,处理器012读取存储器011中的信息,结合其硬件完成上述方法的步骤。

可以理解,本发明实施例中的存储器011可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ReadOnly Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器011旨在包括但不限于这些和任意其它适合类型的存储器。

参照图2,图2为本申请决策树剪枝优化方法的第一实施例,所述方法包括:

步骤S110:获取待剪枝决策树。

待剪枝决策树的构建过程包括:

S1:取预设数量个月份对应数据作为训练集,利用梯度提升决策树算法拟合构建;

在本实施例中,预设数量个月份可以是业务数据中所有月份对应的数据,也可以是业务数据中部分月份对应的数据,在此并不限定,根据业务对应的待剪枝决策树的需求动态调整。

梯度提升决策树算法(Gradient Boosting Decision Tree,GBDT),GBDT是一种迭代的决策树算法,GBDT算法将多棵泛化能力较弱的决策树共同组合成为一个泛化能力较强的集成树。

GBDT具体的拟合方法是:当采用平方误差损失函数时,每一棵回归树学习的是之前对应树的结论和残差,拟合得到一个当前的残差回归树。

S2:生成待剪枝的决策树。

其中,待剪枝的决策树也可以是利用其它的决策树构建方法进行拟合,在此并不限定于GBDT算法,

步骤S120:对所述待剪枝决策树的待剪非叶子节点进行预剪枝,生成第一预剪枝决策树。

预剪枝可以是对待剪枝决策树的待剪非叶子节点进行预先剪枝,若剪枝后的决策树满足预设条件,则确认执行剪枝操作;若剪枝后的决策树不满足预设条件,则不执行剪枝操作,恢复待剪枝决策树中的执行了预剪枝的待剪非叶子节点,即取消预剪枝操作。

具体地,预设条件可以是模型效果的提升,也可以是其他的条件,在此不作限定。

步骤S130:获取所述第一预剪枝决策树的模型效果。

在本实施例中,模型效果可以是第一预剪枝决策树在测试集中的正确率,也可以是第一预剪枝决策树在测试集中的准确率,在此并不限定,根据对应业务需求动态进行调整。

步骤S140:若所述第一预剪枝决策树的模型效果优于所述待剪枝决策树,则确认对待剪非叶子节点执行剪枝操作,生成第一决策树。

剪枝操作是决策树停止分支的方法之一,剪枝有分预先剪枝和后剪枝两种。

预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否进行剪枝,如果剪枝后能引起令人满意的不纯度增长,那么确认执行剪枝操作,并令它们的公共父节点成为新的叶节点。

在本实施例中所提及的剪枝操作主要指后剪枝算法。

确认对待剪非叶子节点执行剪枝操作,可以是对执行了预剪枝的待剪非叶子节点确认执行剪枝操作。

步骤S150:获取所述第一决策树的稳定性指标。

稳定性指标可以是对第一决策树稳定性进行度量的指标,在本实施例中,包括以下至少之一:

效果稳定性、分布稳定性以及未来分布稳定性。

在本实施例中,并不限定于上述的稳定性指标,还可以是其他的稳定性指标,比如基尼指数等。

步骤S160:若所述稳定性指标满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树;其中,所述剪枝操作是将非叶子节点对应的子树替换为叶子节点。

具体地,对稳定性指标的判断可以是对效果稳定性、分布稳定性以及未来分布稳定性的判断,其稳定性指标的判断顺序以及稳定性指标的判断个数并不限定,可以是对效果稳定性、分布稳定性以及未来分布稳定性中的一个或其组合进行判断。

其中,在一实施例中,首先对效果稳定性进行判断,其次对分布稳定性进行判断,再次对未来分布稳定性进行判断。

在上述实施例中,存在的有益效果为:获取待剪枝决策树;通过获取一个泛化能力较强的待剪枝决策树,保持良好的模型效果。对所述待剪枝决策树的待剪非叶子节点进行预剪枝,生成第一预剪枝决策树;通过预剪枝操作后生成的第一预剪枝决策树作为本方法的验证模型,提供正确的验证结果,保证剪枝操作的正确性。获取所述第一预剪枝决策树的模型效果,并判断所述第一预剪枝决策树的模型效果是否优于所述待剪枝决策树;通过获取的第一预剪枝决策树的模型效果判断模型效果是否有所提升,是后续进行剪枝操作的基础,保证剪枝操作的正确性。若所述第一预剪枝决策树的模型效果优于所述待剪枝决策树,则确认对待剪非叶子节点执行剪枝操作,生成第一决策树;基于模型效果的提升,则确认对待剪非叶子节点进行剪枝操作,从而保证在模型效果提升的基础上,剪枝操作的正确性。获取所述第一决策树的稳定性指标;若所述稳定性指标满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树;在模型效果提升的基础上,通过对第一决策树的稳定性进行判断,优化现有技术中的剪枝方法。本发明解决了缺乏对剪枝后的决策树的稳定性的衡量的问题,实现了在衡量模型效果的基础上,加入对稳定性指标的检测以优化决策树剪枝方法。

参照图3,图3为本申请决策树剪枝优化方法第一实施例中步骤S160的具体实施步骤,所述稳定性指标至少包括效果稳定性,若所述第一决策树的所述效果稳定性满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,包括:

步骤S161:取预设数量个月份对应数据作为测试集,利用梯度提升决策树算法拟合生成验证决策树。

步骤S162:获取所述验证决策树中非叶子节点信息值中最大值与最小值的极差。

信息值(Information value,Iv)是一种可以用来衡量自变量的预测能力的指标。

其计算公式为:

步骤S163:若所述极差大于所述第一决策树中对应的待剪非叶子节点的信息值的预设倍,则确定对所述待剪非叶子节点执行剪枝操作。

具体地,预设倍可以是0.5倍,也可以是其他数值的倍数,在此不作限定,根据对应业务需求动态调整。

在上述实施例中,存在的有益效果:保证第一决策树的效果稳定性对剪枝操作的验证效果,从而保证基于效果稳定性执行剪枝操作。

参照图4,图4为本申请决策树剪枝优化方法第一实施例中步骤S160的具体实施步骤,所述稳定性指标至少包括分布稳定性,若所述第一决策树的所述分布稳定性满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,包括:

步骤S161a:基于所述第一决策树,获得建模月份非叶子节点的预设变量的分布以及最新月份非叶子节点的预设变量的分布的第一群体稳定性指标值。

预设变量的分布可以是P值的分布情况,其中P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较;也可以是其他变量的分布,在此并不进行限定。

群体稳定性指标(Population Stability Index,PSI)用来衡量某一分布与基准分布之间的差异。

其定义为:

在本实施例中,pE

步骤S162a:若所述第一群体稳定性指标值大于或等于第一预设值,且基于第二预剪枝决策树对应的建模月份非叶子节点的预设变量的分布以及最新月份非叶子节点的预设变量的分布获得的第二群体稳定性指标值小于第二预设值,则确定对待剪非叶子节点进行剪枝操作;其中,第二预剪枝决策树是对第一决策树中待剪非叶子节点执行预剪枝操作生成的。

具体地,第一预设值可以为0.1,第二预设值可以为0.1,但在此并不限定,根据对应业务需求动态调整。

在上述实施例中,存在的有益效果为:保证第一决策树的分布稳定性对剪枝操作的验证效果,从而保证基于分布稳定性进行剪枝操作,提高第二决策树模型的稳定性。

参照图5,图5为本申请决策树剪枝优化方法第一实施例中步骤S160的具体实施步骤,所述稳定性指标至少包括未来分布稳定性,若所述第一决策树的所述未来分布稳定性满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,包括:

步骤S161b:以建模月份为基准,获得未来第一数量个月的模型变量。

具体地,第一数量为整数,可以为5;若第一数量小于5,则不进行未来稳定性验证,因为不到5个月的模型变量的数据规模不适合进行拟合;在此第一数量并不限定于此,可以是大于或等于5的整数,根据对应业务需求动态调整。

步骤S162b:基于所述模型变量,分别基于每个月第二预剪枝决策树对应的非叶子节点的预设变量的分布与建模月份非叶子节点的预设变量的分布获得第三群体稳定性指标值。

具体地,基于群体稳定性指标的计算公式,pE

其中第三群体稳定性指标值的个数与第一数量相同。

步骤S163b:根据每个月的第三群体稳定性指标值,利用预设拟合方法预测未来第二数量个月后的第四群体稳定性指标值;

具体地,第二数量为整数,可以为10;

若第二数量为10,则利用预设拟合方法预测未来10个月后的第四群体稳定性指标值。

预设拟合方法可以是最小二乘法,也可以是多项式拟合方法,在此并不作限定。

在其中一个实施例中,采用最小二乘法进行拟合。

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和来寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

步骤S164b:若第四群体稳定性指标值大于或等于第三预设值,则确定对待剪非叶子节点进行剪枝操作。

在本实施例中,第三预设值可以是0.1,在此并不作限定,可以根据业务对应需求进行动态调整。

在上述实施例中,存在的有益效果为:保证第一决策树的未来分布稳定性对剪枝操作的验证效果,从而保证基于未来分布稳定性进行剪枝操作,降低第二决策树模型未来发生评分分布不稳定的风险。

在其中一个实施例中,参照图6,图6为本申请决策树剪枝优化方法步骤S163b的具体实施步骤,所述根据每个月的第三群体稳定性指标值,利用预设拟合方法预测未来第二数量个月后的第四群体稳定性指标值,包括:

步骤S163b-1:根据每个月的所述第三群体稳定性指标值,利用最小二乘法拟合线性方程y=a+bx进行拟合。

计算出拟合线性方程的系数如下:

系数

系数

其中x

n为正整数,n小于等于第一数量;

y

步骤S163b-2:根据拟合出的线性方程,预测未来第二数量个月后的第四群体稳定性指标值。

其中,拟合出的线性方程为y=a+bx;

x为正整数,x等于第二数量;

y为未来第二数量个月后的第四群体稳定性指标值。

在上述实施例中,存在的有益效果:保证第四群体稳定性指标值预测的正确性,从而保证未来分布稳定性对剪枝操作的验证效果。

在其中一个实施例中,所述第一预剪枝决策树的模型效果优于所述待剪枝决策树包括:

所述第一预剪枝决策树在测试集中的正确率高于所述待剪枝决策树;其中,所述测试集为预设数量个月份对应数据。

在本实施例中,测试集的正确率可以是分类的正确率或者预测的正确率,在此并不限定,根据业务对应需求动态调整。

在上述实施例中,存在的有益效果为:具体给出模型效果的衡量方法,保证基于稳定性验证剪枝操作的正确性。

参照图7,图7为本申请决策树剪枝优化方法步骤S140的具体实施步骤,所述确认对待剪非叶子节点执行剪枝操作,生成第一决策树:包括:

步骤S141:依次对待剪枝决策树中每个待剪非叶子节点确认执行剪枝操作进行验证。

步骤S142:直至对所述待剪枝决策树中所有待剪非叶子节点完成验证,则剪枝操作结束。

步骤S143:生成第一决策树。

在上述实施例中,存在的有益效果为:保证所有的待剪非叶子节点完成验证,从而保证生成的第一决策树的正确性。

参照图8,图8为本申请决策树剪枝优化方法第一实施例中步骤S160的具体实施步骤,所述确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树:包括:

步骤S161c:依次对第一决策树中每个待剪非叶子节点确认执行剪枝操作进行验证。

步骤S162c:直至对所述第一决策树中所有待剪非叶子节点完成验证,则剪枝操作结束。

步骤S163c:生成第二决策树。

在上述实施例中,存在的有益效果为:保证所有的待剪非叶子节点完成验证,从而保证生成的第二决策树的正确性,即保证决策树剪枝优化方法的正确性。

另外需要说明的是,本申请剪枝优化方法并不限定于决策树中,也可以运用到其他的树模型中,比如随机森林等。

本申请还提供一种决策树剪枝优化装置,所述决策树剪枝优化装置包括:

第一决策树生成模块,用于获取待剪枝决策树;对所述待剪枝决策树的待剪非叶子节点进行预剪枝,生成第一预剪枝决策树;获取所述第一预剪枝决策树的模型效果;当所述第一预剪枝决策树的模型效果优于所述待剪枝决策树时,确认对待剪非叶子节点执行剪枝操作,生成第一决策树;

第二决策树生成模块,用于获取所述第一决策树的稳定性指标;若所述稳定性指标满足预设条件,则确认对第一决策树中的待剪非叶子节点执行剪枝操作,生成第二决策树。

本申请决策树剪枝优化装置的具体实施方式与上述决策树剪枝优化方法各实施例基本相同,在此不再赘述。

本申请还提供一种计算机存储介质,所述计算机存储介质上存储有决策树剪枝优化方法程序,所述决策树剪枝优化方法程序被处理器执行时实现上述任一所述的方法的步骤。

本申请还提供一种决策树剪枝优化设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的决策树剪枝优化方法程序,所述处理器执行所述决策树剪枝优化方法程序时实现上述任一所述的方法的步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号