首页> 中国专利> 一种预测新型冠状病毒感染的机器学习模型构建方法

一种预测新型冠状病毒感染的机器学习模型构建方法

摘要

本申请实施例提供的预测新型冠状病毒感染的机器学习模型构建方法包括:获取包含症状、逆转录聚合酶链反应和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,将数据整合成的数据集分为训练数据集和测试数据集,对训练数据集进行特征选择后得到第一训练数据集,构建包括第一逻辑回归分类器和第二逻辑回归分类器,且存在监督学习的第一模型,采用欠采样处理后的第一训练数据集中第一训练数据子集训练第一模型中的第一逻辑回归分类器,第二训练数据子集训练第一模型中的第二逻辑回归分类器,根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型,对测试数据集进行特征选择,基于得到的测试数据集,验证第二模型的预测准确率。

著录项

  • 公开/公告号CN113314227A

    专利类型发明专利

  • 公开/公告日2021-08-27

    原文格式PDF

  • 申请/专利权人 山东大学;

    申请/专利号CN202110422976.8

  • 申请日2021-04-16

  • 分类号G16H50/70(20180101);G16H50/80(20180101);

  • 代理机构11363 北京弘权知识产权代理有限公司;

  • 代理人逯长明;许伟群

  • 地址 264209 山东省威海市文化西路180号

  • 入库时间 2023-06-19 12:21:13

说明书

技术领域

本申请涉及生物医学技术领域,尤其涉及一种预测新型冠状病毒感染的机器学习模型构建方法。

背景技术

新型冠状病毒肺炎,是指2019新型冠状病毒感染导致的肺炎。由于新型冠状病毒肺炎具有传染性,为了控制新型冠状病毒肺炎的传染,需要对就诊人员是否患有新型冠状病毒肺炎进行判断。逆转录聚合酶链反应是医务人员对就诊人员是否患有新型冠状病毒肺炎进行判断的常用方法,然而,逆转录聚合酶链反应从检测开始到得出检测结果存在时间周期,可能会造成医务人员采取预防措施不及时,从而可能会造成医务人员的新型冠状病毒肺炎感染率上升。

为了降低医务人员的新型冠状病毒肺炎感染率,应对医务人员是否患有新型冠状病毒肺炎进行判断,由于人工智能驱动技术已被用于疾病的诊断和预测,且已被证明有助于提高诊断和预测的效率和准确性。因此,为了缩短判断医务人员是否患有新型冠状病毒肺炎的时间,相关技术采用基于胸片和胸部CT的新型冠状病毒肺炎预测人工智能模型,通过胸部X片正侧位检查和胸部CT的检测结果,判断医务人员是否患有新型冠状病毒肺炎。

然而,由于基于胸片和胸部CT的新型冠状病毒肺炎预测人工智能模型,所需的用于胸部 X片正侧位检查和胸部CT的设备体积大,且所述设备不便移动,因此,采用基于胸片和CT 图像的新型冠状病毒肺炎预测人工智能模型进行新型冠状病毒肺炎的预测,具有空间的局限性,只能在固定地点对医务人员进行检查,可能会造成新型冠状病毒肺炎的预测效率较低。

发明内容

本申请提供了一种预测新型冠状病毒感染的机器学习模型构建方法,以解决新型冠状病毒肺炎的预测具有空间的局限性,新型冠状病毒肺炎的预测效率较低的技术问题。

为了解决上述技术问题,本申请实施例公开了如下技术方案:

第一方面,本申请实施例公开了一种预测新型冠状病毒感染的机器学习模型构建方法,包括获取包括症状、逆转录聚合酶链反应的检测结果和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,将数据整合为数据集,将数据集分为训练数据集和测试数据集,并对训练数据集进行特征选择,得到第一训练数据集;

构建包括第一逻辑回归分类器和第二逻辑回归分类器,且存在监督学习的第一模型;

对第一训练数据集进行欠采样处理,将欠采样处理后的第一训练数据集分为第一训练数据子集和第二训练数据子集;

采用第一训练数据子集训练第一模型中的第一逻辑回归分类器,采用第二训练数据子集训练第一模型中的第二逻辑回归分类器,根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型;

基于测试数据集,对第二模型进行预测准确率的验证。

可选的,获取包括症状、逆转录聚合酶链反应的检测结果和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,将数据整合为数据集,将数据集分为训练数据集和测试数据集,并对训练数据集进行特征选择,得到第一训练数据集,包括:

比较两个医院中新型冠状病毒肺炎患者人数,将所在医院中新型冠状病毒肺炎患者人数多的医务人员加入疫情医务人员队列,将所在医院中新型冠状病毒肺炎患者人数少的医务人员加入非疫情医务人员队列;

获取包括症状、逆转录聚合酶链反应的检测结果和新型冠状病毒肺炎抗体的检测结果的医务人员的数据;

从疫情医务人员队列和非疫情医务人员队列中剔除无症状的医务人员,将剩余的医务人员的数据整合为数据集;

将数据集分为训练数据集和测试数据集;

根据逆转录聚合酶链反应的检测结果的阳性率,在疫情医务人员队列和非疫情医务人员队列中,将阳性率较高的疫情医务人员队列中医务人员的数据作为训练数据集,将阳性率较低的非疫情医务人员队列中医务人员的数据作为测试数据集;

根据信息增益比对训练数据集中的症状进行排序,得到第一排序症状列表,并对第一排序症状列表进行增量特征选择,得到第一训练数据集。

可选的,对第一训练数据集进行欠采样处理,将欠采样处理后的第一训练数据集分为第一训练数据子集和第二训练数据子集,包括:

将第一训练数据集分为阳性数据集和阴性数据集,阳性数据集包含逆转录聚合酶链反应的检测结果为阳性、新型冠状病毒肺炎抗体的检测结果为阳性以及逆转录聚合酶链反应和新型冠状病毒肺炎抗体的检测结果均为阳性的医务人员的数据,阴性数据集为第一训练集除去阳性数据集的数据集合;

对阴性数据集进行欠采样处理,将欠采样处理后的阴性数据集分为第一阴性数据集和第二阴性数据集,将第一阴性数据集与阳性数据集结合作为第一训练数据子集,将第二阴性数据集与阳性数据集结合作为第二训练数据子集。

可选的,在基于测试数据集,对第二模型进行预测准确率的验证前,还包括:

获取第一训练数据子集训练第一逻辑回归分类器生成的第一预测概率,获取第二训练数据子集训练第二逻辑回归分类器生成的第二预测概率,计算第一预测概率和第二预测概率的平均值,得到第三预测概率。

可选的,在根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型后,包括:

将第一训练数据集中医务人员表现有的单独症状以及单独症状的组合作为症状子集,每个症状子集对应一个包括逻辑回归分类器的症状模型,采用五折交叉验证的方法,将训练数据集随机分为五组,重复五次包括将其中四组作为训练集对症状模型进行训练和将另外一组作为验证集对训练模型进行验证的训练验证过程,将五次验证集输入到症状模型的预测结果和验证集中逆转录聚合酶链反应的检测结果作为计算包含敏感性、特异性、准确性、马修相关系数和接受者操作特性曲线下的面积的性能指标的数据,对症状子集的性能进行评估,将症状子集中敏感性和特异性指标最接近的症状子集作为最优症状子集。

可选的,基于测试数据集,对第二模型进行预测准确率的验证,包括:

将测试数据集中具有最优症状子集中症状的数据输入第二模型,验证第二模型的预测准确率。

本申请的有益效果为:

本申请实施例提供的预测新型冠状病毒感染的机器学习模型构建方法,包括获取包括症状、逆转录聚合酶链反应的检测结果和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,将数据整合为数据集,将数据集分为训练数据集和测试数据集,并对训练数据集进行特征选择,得到第一训练数据集,构建包括第一逻辑回归分类器和第二逻辑回归分类器,且存在监督学习的第一模型,对第一训练数据集进行欠采样处理,将欠采样处理后的第一训练数据集分为第一训练数据子集和第二训练数据子集,采用第一训练数据子集训练第一模型中的第一逻辑回归分类器,采用第二训练数据子集训练第一模型中的第二逻辑回归分类器,根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型,基于测试数据集,对第二模型进行预测准确率的验证。由于本申请不需要使用X光机拍摄胸片,X线计算机体层摄影设备进行胸部CT扫描,因此可避免预测新型冠状病毒感染的空间限制,提高新型冠状病毒感染的预测效率;进一步的,利用本申请提供的预测新型冠状病毒感染的机器学习模型构建方法,在进行医务人员新型冠状病毒感染预测时,询问医务人员的症状,并将询问得到的医务人员的症状输入第二模型即可得出预测结果,大幅提高了新型冠状病毒感染的预测速度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种预测新型冠状病毒感染的机器学习模型构建方法的流程示意图;

图2为本申请实施例提供的一种预测新型冠状病毒感染的机器学习过程的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

参见图1,本申请实施例提供了一种预测新型冠状病毒感染的机器学习模型构建方法,可解决新型冠状病毒肺炎的预测具有空间的局限性,新型冠状病毒肺炎的预测效率较低的问题,示例性的,该方法可包括步骤S110-S150。

步骤S110:获取包括症状、逆转录聚合酶链反应的检测结果和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,将数据整合为数据集,将数据集分为训练数据集和测试数据集,并对训练数据集进行特征选择,得到第一训练数据集。

在一些实施例中,可先选择两个有新型冠状病毒肺炎患者的医院,然后,比较两个医院中新型冠状病毒肺炎患者人数,创建疫情医务人员队列和非疫情医务人员队列,将所在医院中新型冠状病毒肺炎患者人数多的医务人员加入疫情医务人员队列,将所在医院中新型冠状病毒肺炎患者人数少的医务人员加入非疫情医务人员队列,获取包括症状、逆转录聚合酶链反应的检测结果和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,疫情医务人员队列和非疫情医务人员队列中剔除无症状的医务人员的数据,将剩余的医务人员的数据整合为数据集。

由于医务人员的症状为医务人员的数据中重要的重要部分,因此,剔除无症状的医务人员的数据,将剩余的医务人员的数据整合为数据集,由于作为数据收集对象的医务人员来自于不同新型冠状病毒肺炎患者人数的医院,因此医务人员所处的新型冠状病毒环境不同,采用不同的新型冠状病毒环境中医务人员的数据构建数据集,提高了数据集中数据的平衡性。

在一些实施例中,将数据集分为训练数据集和测试数据集,根据逆转录聚合酶链反应的检测结果的阳性率,在疫情医务人员队列和非疫情医务人员队列中,将阳性率较高的疫情医务人员队列中医务人员的数据作为训练数据集,将阳性率较低的非疫情医务人员队列中医务人员的数据作为测试数据集,根据信息增益比对训练数据集中的症状进行排序,得到第一排序症状列表,并对第一排序症状列表进行增量特征选择,得到第一训练数据集。

由于在疫情医务人员队列和非疫情医务人员队列中,将阳性率较高的疫情医务人员队列中医务人员的数据作为训练数据集,将阳性率较低的非疫情医务人员队列中医务人员的数据作为测试数据集,基于阳性率的高低对医务人员的数据进行分类,避免了数据的类别过少导致数据不平衡的问题。

步骤S120:构建包括第一逻辑回归分类器和第二逻辑回归分类器,且存在监督学习的第一模型。

在一些实施例中,将第一逻辑回归分类器和第二逻辑回归分类器集成作为第三逻辑回归分类器,构建包括第三逻辑回归分类器,且存在监督学习的第一模型,第三逻辑回归分类器与第一逻辑回归分类器、第二逻辑回归分类器相比,提高了预测的准确性,从而提高了第一模型预测的准确性。

步骤S130:对第一训练数据集进行欠采样处理,将欠采样处理后的第一训练数据集分为第一训练数据子集和第二训练数据子集。

在一些实施例中,将第一训练数据集分为阳性数据集和阴性数据集,阳性数据集包含逆转录聚合酶链反应的检测结果为阳性、新型冠状病毒肺炎抗体的检测结果为阳性以及逆转录聚合酶链反应和新型冠状病毒肺炎抗体的检测结果均为阳性的医务人员的数据,阴性数据集为第一训练集除去阳性数据集的数据集合,对阴性数据集进行欠采样处理,将欠采样处理后的阴性数据集分为第一阴性数据集和第二阴性数据集,将第一阴性数据集与阳性数据集结合作为第一训练数据子集,将第二阴性数据集与阳性数据集结合作为第二训练数据子集,由于阴性数据集中的数据多于阳性数据集中的数据,因此对阴性数据集进行欠采样处理,提高了阴性数据集中数据与阳性数据集中数据的平衡性。

步骤S140:采用第一训练数据子集训练第一模型中的第一逻辑回归分类器,采用第二训练数据子集训练第一模型中的第二逻辑回归分类器,根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型。

在一些实施例中,在根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型后,将第一训练数据集中医务人员表现有的单独症状以及单独症状的组合作为症状子集,每个症状子集对应一个包括逻辑回归分类器的症状模型,采用五折交叉验证的方法,将训练数据集随机分为五组,重复五次包括将其中四组作为训练集对症状模型进行训练和将另外一组作为验证集对训练模型进行验证的训练验证过程,将五次验证集输入到症状模型的预测结果和验证集中逆转录聚合酶链反应的检测结果作为计算包含敏感性、特异性、准确性、马修相关系数和接受者操作特性曲线下的面积的性能指标的数据,对症状子集的性能进行评估,将症状子集中敏感性和特异性指标最接近的症状子集作为最优症状子集。

由于将五次验证集输入到症状模型的预测结果和验证集中逆转录聚合酶链反应的检测结果作为计算包含敏感性、特异性、准确性、马修相关系数和接受者操作特性曲线下的面积的性能指标的数据,可筛选出平衡性最好的症状子集。

步骤S150:基于测试数据集,对第二模型进行预测准确率的验证。

在一些实施例中,在基于测试数据集,对第二模型进行预测准确率的验证前,获取第一训练数据子集训练第一逻辑回归分类器生成的第一预测概率,获取第二训练数据子集训练第二逻辑回归分类器生成的第二预测概率,计算第一预测概率和第二预测概率的平均值,得到第三预测概率,由于将第一预测概率和第二预测概率的平均值作为第三预测概率,提高了第三预测概率的准确性。

在一些实施例中,将测试数据集中具有最优症状子集中症状的数据输入第二模型,验证第二模型的预测准确率,若第二模型的预测准确率低于设定的合格准确率,则调整第二模型,直至第二模型的预测准确率不低于设定的合格准确率,提高了第二模型预测的准确性。

为对上文介绍的方法做进一步说明,本申请实施例还提供了一种预测新型冠状病毒感染的机器学习模型构建方法的流程示意图,参见图2,首先,获取包括症状、逆转录聚合酶链反应的检测结果和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,将数据整合为数据集,将数据集分为训练数据集和测试数据集,其中,训练数据集如表1所示,测试数据集如表2所示。

表1

表2

由表1、表2可知医务人员的性别、职业类型、逆转录聚合酶链反应的检测结果、新型冠状病毒肺炎抗体的检测结果和症状,其中,新型冠状病毒肺炎抗体的检测包括IgG(Immunoglobulin G,免疫球蛋白G)检测、IgM(Immunoglobulin M,免疫球蛋白M)检测和IgG(Immunoglobulin G,免疫球蛋白G)与IgM(Immunoglobulin M,免疫球蛋白M)综合检测。参见图2,再根据信息增益比对表1所示的训练数据集中的症状进行排序,得到第一排序症状列表,第一排序症状列表如表3所示。

表3

再对表3所示的第一排序症状列表进行增量特征选择,得到第一训练数据集,再构建包括第一逻辑回归分类器和第二逻辑回归分类器,且存在监督学习的第一模型。如图2所示,得到第一训练数据集后,对阴性数据集进行欠采样处理,将欠采样处理后的阴性数据集分为第一阴性数据集和第二阴性数据集,将第一阴性数据集与阳性数据集结合作为第一训练数据子集,将第二阴性数据集与阳性数据集结合作为第二训练数据子集,采用第一训练数据子集训练第一模型中的第一逻辑回归分类器,采用第二训练数据子集训练第一模型中的第二逻辑回归分类器,根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型。

参见图2,将第一训练数据集中医务人员表现有的单独症状以及单独症状的组合作为症状子集,每个症状子集对应一个包括逻辑回归分类器的症状模型,采用五折交叉验证的方法,将训练数据集随机分为五组,重复五次包括将其中四组作为训练集对症状模型进行训练和将另外一组作为验证集对训练模型进行验证的训练验证过程,将五次验证集输入到症状模型的预测结果和验证集中逆转录聚合酶链反应的检测结果作为计算包含敏感性、特异性、准确性、马修相关系数和接受者操作特性曲线下的面积的性能指标的数据,对症状子集的性能进行评估,症状子集的性能指标如表4所示。

表4

如表4所示,采用Sn(Sensitivity,敏感性)、Sp(Specificity,特异性)、Acc(Accuracy,准确性)和MCC(Matthews correlation coefficient,马修斯相关系数)作为症状子集的性能指标,性能指标的定义如下:

其中,TP表示正确地预测新型冠状病毒肺炎,FP表示非新型冠状病毒肺炎被错误地预测为新型冠状病毒肺炎,TN表示正确地预测非新型冠状病毒肺炎,FN表示新型冠状病毒肺炎被错误地预测为非新型冠状病毒肺炎,Sn(Sensitivity,敏感性)表示已知新型冠状病毒肺炎正确预测为新型冠状病毒肺炎的比例,Sp(Specificity,特异性)表示已知非新型冠状病毒肺炎正确预测为非新型冠状病毒肺炎的比例,Acc(Accuracy,准确性)表示预测的准确率, Mcc用于衡量分类器的预测能力,反映了预测算法的敏感性和特异性,通过接受者操作特性曲线来进一步评估所提方法的性能,用y轴表示灵敏度,x轴表示特异性,AUC(AreaUnder Curve,接受者操作特性曲线下面积)表示接受者操作特性曲线下面积,用于衡量性能。

将表4所示的症状子集的性能指标中,敏感性和特异性指标最接近的症状子集作为最优症状子集,如图2所示,将只包括嗅觉缺失和发热的症状子集作为最优症状子集,将测试数据集中具有嗅觉缺失和发热症状的数据输入第二模型,验证第二模型的预测准确率,第二模型的预测性能指标,如表5所示。

表5

如表5所示,Acc(Accuracy,准确性)表示的预测准确率高于设定为0.85的合格准确率,第二模型的预测能力较为理想。

基于图2所示的一种预测新型冠状病毒感染的机器学习过程,将医务人员的症状输入根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建的第二模型,可得出该医务人员患有新型冠状病毒肺炎的概率。

由上述实施例可见,本申请实施例提供的预测新型冠状病毒感染的机器学习模型构建方法,包括获取包括症状、逆转录聚合酶链反应的检测结果和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,将数据整合为数据集,将数据集分为训练数据集和测试数据集,并对训练数据集进行特征选择,得到第一训练数据集,构建包括第一逻辑回归分类器和第二逻辑回归分类器,且存在监督学习的第一模型,对第一训练数据集进行欠采样处理,将欠采样处理后的第一训练数据集分为第一训练数据子集和第二训练数据子集,采用第一训练数据子集训练第一模型中的第一逻辑回归分类器,采用第二训练数据子集训练第一模型中的第二逻辑回归分类器,根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型,基于测试数据集,对第二模型进行预测准确率的验证。由于本申请实施例提供的预测新型冠状病毒感染的机器学习模型构建方法中,将所在医院中新型冠状病毒肺炎患者人数多的医务人员作为疫情医务人员队列,将所在医院中新型冠状病毒肺炎患者人数少的医务人员作为非疫情医务人员队列,根据逆转录聚合酶链反应和新型冠状病毒肺炎抗体的阳性率,在疫情医务人员队列和非疫情医务人员队列中,将阳性率较高的疫情医务人员队列作为训练数据集,将阳性率较低的非疫情医务人员队列作为测试数据集,因此,在不同的新型冠状病毒环境下,对第二模型的预测性能进行了测试,且使得数据集的分类更加平衡,从而提高了预测准确度;由于本申请不需要使用X光机拍摄胸片,X线计算机体层摄影设备进行胸部CT扫描,因此可避免预测新型冠状病毒感染的空间限制,提高新型冠状病毒感染的预测效率;进一步的,利用本申请提供的预测新型冠状病毒感染的机器学习模型构建方法,在进行医务人员新型冠状病毒感染预测时,询问医务人员的症状,并将询问得到的医务人员的症状输入第二模型即可得出预测结果,大幅提高了新型冠状病毒感染的预测速度。

由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是,在本说明书中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号