法律状态公告日
法律状态信息
法律状态
2022-08-30
实质审查的生效 IPC(主分类):G16H50/20 专利申请号:2022106195050 申请日:20220604
实质审查的生效
技术领域:
本发明涉及数据分类的技术,尤其是涉及一种基于改进的AdaBoost的乳腺癌生存预测方法,该方法在预测乳腺癌疾病方面有着很好的应用。
背景技术:
乳腺癌是人类第二常见的肿瘤,占女性癌症的四分之一,据统计,乳腺癌的5年,10年和15年相对生存率分别为89%,83%和78%。在其他类型的癌症中,它被认为是大多数国家妇女死亡的主要原因,一个有效的分类器,准确地帮助医生来预测这一慢性疾病是迫切需要的。许多学者采用集成学习分类技术来解决这一问题,然而,大多数集成学习分类算法都存在着弱分类器的冗余问题,这些技术可能在疾病预测发挥着至关重要的作用,本发明试图通过基于权值改进的选择性集成的AdaBoost算法来解决这一问题,从而来提高AdaBoost的性能。
发明内容:
本发明的目的就是为了解决上述现有相关技术存在的问题而提供的一种基于权值改进的选择性集成的AdaBoost算法的乳腺癌生存预测算法。
为了达到以上目的,本发明提供了如下技术方案:一种基于权值改进的选择性集成的AdaBoost算法的乳腺癌生存预测算法,包括以下步骤:
(1)数据输入模块,用于获取待预测的乳腺癌数据;
(2)数据预处理模块,用于对待预测的乳腺癌数据进行数据的预处理,对缺失数据进行填补,同时删除一些异常值;
(3)AdaBoost训练模块,将权值改进的选择性集成弱分类器的AdaBoost算法处理乳腺癌数据集,同时数据按照7:3的比值分为训练样本集和测试集两组;
(4)AdaBoost测试模块,测试数据用于加载训练好的AdaBoost模型,利用测试样本集对训练好的AdaBoost模型进行测试;
(5)乳腺癌生存预测模块,利用训练好的AdaBoost模型作为最终应用模型,用于乳腺癌的生存状况预测,关于乳腺癌的生存状况预测是一个二分类问题,包括活着和死亡两种状态;
(6)通过构造混淆矩阵,同时用Precision、Recall、F1-score、Accuracy等作为评价指标进行对比。
有益效果:
1.本发明与黑盒分类器相比,在考虑模型精度的同时还考虑了模型的可解释性。
2.本发明的基本思想是弱分类器的加权参数不但与错误率有关,还与其对正样本的识别能力有关,改变弱分类器的权重值,同时采用一种弱分类器相似度度量方式,对弱分类器进行选择性集成,组合成强分类器,提高了分类的性能。
附图说明:
图1为本发明的结构示意图。
图2为本发明实施方式中的基于权值改进的选择性集成的AdaBoost算法的乳腺癌生存预测方法的步骤流程示意图。
图3为本发明实施方式中的传统的AdaBoost和改进的AdaBoost算法在不同数量的弱分类器的准确率图。
具体实施方式:
为了使本发明的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本发明进行进一步的详细说明。
如图1所示,本发明实施例提供一种基于改进的AdaBoost的乳腺癌生存预测方法,包括以下步骤:
步骤1:数据输入模块,用于获取待预测的乳腺癌数据;
步骤2:数据预处理模块,用于对预测的乳腺癌数据进行数据的预处理。
具体为:
步骤2-1对缺失的特征值进行填补;
步骤2-2对异常值进行处理;
经数据预处理之后乳腺癌数据如表1所示:
表1乳腺癌数据集属性描述
本发明实施方式中的基于权值改进的选择性集成的AdaBoost算法的乳腺癌生存预测方法,如图2所示,具体过程如下:
步骤3:AdaBoost训练模块,将权值改进的选择性集成弱分类器AdaBoost算法处理乳腺癌数据集,同时数据按照7:3的比值分为训练样本集和测试集两组,具体为:
步骤3-1从数据中调用训练集Train={(x
步骤3-2初始化训练样本权值:每一个样本初始权重均为
步骤3-3在训练集上训练得到弱分类器h
其中,h
步骤3-4计算当前的弱分类器h
其中,P
步骤3-5如果ε
步骤3-6更新样本权重值。统计第n个样本在前t个弱分类器的组合下能正确分类的概率为:
根据E
其中,Z
步骤3-7返回训练阶段得到的T个弱分类器集合H={h
步骤3-8定义两个弱分类器h
根据两个弱分类器之间的分类结果去除相似性过高的弱分类器,剔除了冗余的弱分类器,得到最终的弱分类器集合H={h
步骤4:AdaBoost测试模块,测试数据用于加载训练好的AdaBoost模型,利用测试样本集对训练好的AdaBoost模型进行测试,具体为:
步骤4-1从数据中调用测试集Train={(x
步骤4-2根据最终得到的弱分类器集合H={h
步骤5:乳腺癌生存预测模块,利用训练好的AdaBoost模型作为最终应用模型,用于乳腺癌的生存状况预测,关于乳腺癌的生存状况预测是一个二分类问题,包括活着和死亡两种状态。
本实施例采用的数据集来源于某肿瘤医院提供的乳腺癌超声数据实例,本发明与传统Adaboost分类进行相比,性能有所提高,选择如下算法评价分类指标:Precision、Recall、F1-score、Accuracy作为算法的分类性能指标,本发明与AdaBoost分类算法的比较如表2所示。
表2结果比较
以上所述是结合附图对本发明的实施例进行的详细介绍,需要指出的是,本文的具体实施方式只是用于帮助理解本发明的方法,对于本技术领域的普通技术人员在依据本发明的前提下,可以做出若干变化和修改,上述变化和修改的技术方案,皆应在由权利要求。
机译: 用于预测患者癌症复发的预后方法,引发剂,扩增子,测试,用途,用于预测无复发的乳腺癌患者的生存时间的方法,用于预测a癌症患者的生存时间的预后模型和没有复发,获得用于靶向治疗乳腺癌的数据的方法。基因集和实验室试剂盒。
机译: 基于YKL-39和CCL18蛋白基因表达的乳腺癌患者五年非转移生存预测方法
机译: 用循环肿瘤细胞治疗转移性乳腺癌患者在每个随访时间点预测无进展生存和总生存的方法