首页> 中国专利> 一种基于改进的AdaBoost的乳腺癌生存预测方法

一种基于改进的AdaBoost的乳腺癌生存预测方法

摘要

本发明涉及一种基于改进的AdaBoost的乳腺癌生存预测方法,该方法包括以下步骤:数据输入模块、数据预处理模块、AdaBoost训练模块、AdaBoost测试模块、乳腺癌生存预测模块,利用训练好的AdaBoost模型作为最终应用模型,用于乳腺癌的生存状况预测。与现有的相关技术相比,本发明中AdaBoost算法中弱分类器的加权参数不但与错误率有关,还与其对正样本的识别能力有关,改变弱分类器的权重值,同时采用一种弱分类器相似度度量方式,对弱分类器进行选择性集成,组合成强分类器,提高了分类的性能,提高了分类的性能。

著录项

  • 公开/公告号CN114898869A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 哈尔滨理工大学;

    申请/专利号CN202210619505.0

  • 发明设计人 权霜霜;王卫兵;郑岩;

    申请日2022-06-04

  • 分类号G16H50/20(2018.01);G16H50/70(2018.01);G06K9/62(2022.01);G06N20/20(2019.01);

  • 代理机构

  • 代理人

  • 地址 150080 黑龙江省哈尔滨市南岗区学府路52号

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G16H50/20 专利申请号:2022106195050 申请日:20220604

    实质审查的生效

说明书

技术领域:

本发明涉及数据分类的技术,尤其是涉及一种基于改进的AdaBoost的乳腺癌生存预测方法,该方法在预测乳腺癌疾病方面有着很好的应用。

背景技术:

乳腺癌是人类第二常见的肿瘤,占女性癌症的四分之一,据统计,乳腺癌的5年,10年和15年相对生存率分别为89%,83%和78%。在其他类型的癌症中,它被认为是大多数国家妇女死亡的主要原因,一个有效的分类器,准确地帮助医生来预测这一慢性疾病是迫切需要的。许多学者采用集成学习分类技术来解决这一问题,然而,大多数集成学习分类算法都存在着弱分类器的冗余问题,这些技术可能在疾病预测发挥着至关重要的作用,本发明试图通过基于权值改进的选择性集成的AdaBoost算法来解决这一问题,从而来提高AdaBoost的性能。

发明内容:

本发明的目的就是为了解决上述现有相关技术存在的问题而提供的一种基于权值改进的选择性集成的AdaBoost算法的乳腺癌生存预测算法。

为了达到以上目的,本发明提供了如下技术方案:一种基于权值改进的选择性集成的AdaBoost算法的乳腺癌生存预测算法,包括以下步骤:

(1)数据输入模块,用于获取待预测的乳腺癌数据;

(2)数据预处理模块,用于对待预测的乳腺癌数据进行数据的预处理,对缺失数据进行填补,同时删除一些异常值;

(3)AdaBoost训练模块,将权值改进的选择性集成弱分类器的AdaBoost算法处理乳腺癌数据集,同时数据按照7:3的比值分为训练样本集和测试集两组;

(4)AdaBoost测试模块,测试数据用于加载训练好的AdaBoost模型,利用测试样本集对训练好的AdaBoost模型进行测试;

(5)乳腺癌生存预测模块,利用训练好的AdaBoost模型作为最终应用模型,用于乳腺癌的生存状况预测,关于乳腺癌的生存状况预测是一个二分类问题,包括活着和死亡两种状态;

(6)通过构造混淆矩阵,同时用Precision、Recall、F1-score、Accuracy等作为评价指标进行对比。

有益效果:

1.本发明与黑盒分类器相比,在考虑模型精度的同时还考虑了模型的可解释性。

2.本发明的基本思想是弱分类器的加权参数不但与错误率有关,还与其对正样本的识别能力有关,改变弱分类器的权重值,同时采用一种弱分类器相似度度量方式,对弱分类器进行选择性集成,组合成强分类器,提高了分类的性能。

附图说明:

图1为本发明的结构示意图。

图2为本发明实施方式中的基于权值改进的选择性集成的AdaBoost算法的乳腺癌生存预测方法的步骤流程示意图。

图3为本发明实施方式中的传统的AdaBoost和改进的AdaBoost算法在不同数量的弱分类器的准确率图。

具体实施方式:

为了使本发明的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本发明进行进一步的详细说明。

如图1所示,本发明实施例提供一种基于改进的AdaBoost的乳腺癌生存预测方法,包括以下步骤:

步骤1:数据输入模块,用于获取待预测的乳腺癌数据;

步骤2:数据预处理模块,用于对预测的乳腺癌数据进行数据的预处理。

具体为:

步骤2-1对缺失的特征值进行填补;

步骤2-2对异常值进行处理;

经数据预处理之后乳腺癌数据如表1所示:

表1乳腺癌数据集属性描述

本发明实施方式中的基于权值改进的选择性集成的AdaBoost算法的乳腺癌生存预测方法,如图2所示,具体过程如下:

步骤3:AdaBoost训练模块,将权值改进的选择性集成弱分类器AdaBoost算法处理乳腺癌数据集,同时数据按照7:3的比值分为训练样本集和测试集两组,具体为:

步骤3-1从数据中调用训练集Train={(x

步骤3-2初始化训练样本权值:每一个样本初始权重均为

步骤3-3在训练集上训练得到弱分类器h

其中,h

步骤3-4计算当前的弱分类器h

其中,P

步骤3-5如果ε

步骤3-6更新样本权重值。统计第n个样本在前t个弱分类器的组合下能正确分类的概率为:

根据E

其中,Z

步骤3-7返回训练阶段得到的T个弱分类器集合H={h

步骤3-8定义两个弱分类器h

根据两个弱分类器之间的分类结果去除相似性过高的弱分类器,剔除了冗余的弱分类器,得到最终的弱分类器集合H={h

步骤4:AdaBoost测试模块,测试数据用于加载训练好的AdaBoost模型,利用测试样本集对训练好的AdaBoost模型进行测试,具体为:

步骤4-1从数据中调用测试集Train={(x

步骤4-2根据最终得到的弱分类器集合H={h

步骤5:乳腺癌生存预测模块,利用训练好的AdaBoost模型作为最终应用模型,用于乳腺癌的生存状况预测,关于乳腺癌的生存状况预测是一个二分类问题,包括活着和死亡两种状态。

本实施例采用的数据集来源于某肿瘤医院提供的乳腺癌超声数据实例,本发明与传统Adaboost分类进行相比,性能有所提高,选择如下算法评价分类指标:Precision、Recall、F1-score、Accuracy作为算法的分类性能指标,本发明与AdaBoost分类算法的比较如表2所示。

表2结果比较

以上所述是结合附图对本发明的实施例进行的详细介绍,需要指出的是,本文的具体实施方式只是用于帮助理解本发明的方法,对于本技术领域的普通技术人员在依据本发明的前提下,可以做出若干变化和修改,上述变化和修改的技术方案,皆应在由权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号