法律状态公告日
法律状态信息
法律状态
2023-01-31
公开
发明专利申请公布
技术领域
本发明属于风险预警领域,涉及一种基于机器学习的子宫内膜癌患者保育治疗决策方法,具体用于评估子宫内膜癌患者是否需要切除子宫。
背景技术
人工智能的应用主要分为两大类。第一类包括机器学习技术,分析结构化数据,对患者特征进行聚类,从而预测疾病结局的概率。第二类包括从非结构化数据(如临床笔记和患者病历)中提取信息的自然语言处理方法,以补充和丰富结构化医疗数据。自然语言处理将文本转换为机器可读的结构化数据,然后机器学习技术可以对这些数据进行分析。机器学习AdaBoost是属于Boosting策略型集成算法的一种,AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法是一种迭代算法,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率。AdaBoost方法能“聚焦于”那些较难分(更富信息)的样本上。相对于大多数其它机器学习算法而言,AdaBoost方法不容易出现过拟合现象。因此选取AdaBoost算法来构建集成分类器以提升不同类别样本的预测准确率。
Borderline-SMOTE在选择近邻时考虑了多数类样本,根据少数类样本周围不同类样本的数量将少数类样本分为noise(近邻样本全部为多数类样本),safe(近邻样本超过一半是少数类样本),danger(近邻样本超过一半是多数类样本)三类样本集,其中danger中的样本是指位于少数类和多数类边界的样本,只对这部分样本集合使用SMOTE算法,从而产生更多的边界少数类样本,使得少数类与对数类样本边界分明,有助后续分类效果的提升。因此首先采用Borderline-SMOTE算法合成更多的少数类样本,解决数据量不平衡的问题。
MICE通过一系列迭代的预测模型来“填充”(插补)数据集中的缺失数据。在每次迭代中,将使用数据集中的其他变量来估算数据集中的每个指定的变量,这些迭代持续运行,直到满足收敛为止。使用MICE对数据进行缺失值处理,保证数据的完整性。
构建的BoderlineSMOTE-Adaboost模型在技术实现时,分为模型训练阶段和模型应用阶段。模型训练阶段是指AdaBoost算法对训练数据进行学习以训练模型的阶段;模型应用阶段是指利用训练好的模型对新数据进行预测。
发明内容
本发明为了对子宫内膜癌患者是否需要进行保育治疗做出决策,提出了一种基于机器学习的子宫内膜癌患者保育治疗决策方法。
本发明是通过以下技术方案实现的:1)对子宫内膜癌患者的基本情况、高危因素、医院实验室检查及辅助检查数据和诊断结果等数据进行处理;2)对数据进行缺失值处理以及对不平衡数据进行数据增强;
3)使用SVM和Adaboost构建模型;4)利用数据对模型进行训练,得到最优超参数;5)通过测试数据检验模型的有效性和准确性。
附图说明
图1是Boosting集成分类器构建示意图;
图2是Borderline-SMOTE算法示意图;
图3是数据增强前后所提出模型评估效果;
图4是基于BoderlineSMOTE-Adaboost的EC患者保育决策模型;
图5是不同模型的结果对比。
具体实施方式
下面结合具体实施方式对本发明对本发明做进一步的详细说明:
1.数据处理:得到的原始数据包括子宫内膜癌及子宫内膜非典型增生患者的基本情况、高危因此、医院实验室及辅助检查数据和诊断结果,利用机器学习将其中的非结构化数据处理为模型可以识别的结构化数据,并将得到的不同数据进行整合,生成数据收集表,并使用pandas对数据进行清洗、准备和数据规整,通过EDA对患者数据进行探索性分析。
2.缺失值处理:通过MICE对数据进行缺失值处理,通过一系列迭代的预测模型来“填充”(插补)数据集中的缺失数据。
3.数据增强:通过Borderline-SMOTE对不平衡数据集中的少数类样本进行数据增强,增加少数类样本,使得少数类样本和多数类样本边界分明。根据数据集中多数类和少数类样本的比例,合理设置少数类样本数量。
4.模型构建和参数选取:利用SVM和Adaboost构建集成分类模型,SVM构建Adaboost集成学习器中的每个基学习器,并利用数据对模型进行训练,调节参数有基学习器的数量、学习率和基学习器的最大迭代次数,利用传统手工搜索方式,通过训练算法手动检查随机超参数集,并选择符合目标的最佳参数。
5.模型测试:通过测试数据检验模型有效性和准确性,采取K折交叉验证将数据分为大小相同的K个分区来评估模型性能,K值的取值一般在[2,10]之间,根据数据集大小合理选取K值。
附图详细说明:
图1为Boosting集成分类器构建示意图,Boosting通过不断迭代来生成多个基学习器,根据前一个基学习器的结果来改变样本分布,使得后一个基学习器更多地关注被错分的样本。如图2所示,先利用原始训练集训练得到第一个基分类器,然后通过一定的策略改变样本分布,使得被错分的样本在第二个基分类器的训练中得到更多关注,之后的基分类器训练亦如此。AdaBoost算法是Boosting算法中的一种算法。
图2是Borderline-SMOTE算法示意图,Borderline-SMOTE在选择近邻时考虑了多数类样本,根据少数类样本周围不同类样本的数量将少数类样本分为noise(近邻样本全部为多数类样本,如图中的样本点C),safe(近邻样本超过一半是少数类样本,如图中的样本点A),danger(近邻样本超过一半是多数类样本,如图中的样本点B)三类样本集,其中danger中的样本是指位于少数类和多数类边界的样本,只对这部分样本集合使用SMOTE算法,从而产生更多的边界少数类样本,使得少数类与对数类样本边界分明,有助后续分类效果的提升。
图3是数据增强前后所提出模型评估效果,利用Adaboost构建了预测模型,并将未经过数据合成的原始数据和经过数据合成的数据导入模型中进行训练和测试,得到数据增强前后模型的不同评估参数。
图4是基于BoderlineSMOTE-Adaboost的EC患者保育决策模型,根据BorderlineSMOTE对数据进行增强,利用Adaboost模型对EC患者是否切除子宫进行预测。
图5时不同模型的结果对比,构建的模型与一些基础模型RF、XGB、SVM、KNN和LSTM的模型评估效果进行对比,计算了构建模型和对比模型在相同测试集中正确率(Acc)、准确率(P)、召回率(R)、F1值(F1)、ROC下曲线面积(AUROC)值,得到结果对比图。
机译: 提供一组患者参数以适应患者治疗的医疗保健决策支持系统,患者治疗系统,医疗保健决策支持方法以及计算机可读非瞬态存储介质
机译: “治疗患有代谢疾病的患者的方法,治疗患者中至少一种非代谢性疾病的方法,治疗患者中至少一种代谢性疾病和至少一种非代谢性疾病的方法,治疗至少一种患者的血管疾病和有效的药物组合物,用于治疗代谢综合征,2型糖尿病,肥胖或糖尿病前期”
机译: 治疗患有代谢紊乱的患者的方法,治疗一名患者的至少一种非代谢性疾病的方法,治疗一名患者的至少一种代谢性疾病和至少非代谢性疾病的方法,治疗至少一种代谢性的方法患者的血管疾病和治疗代谢综合征,2型糖尿病,肥胖或糖尿病前期的有效药物组合物