首页> 中国专利> 一种重大传染病队列数据分型方法、分型模型及电子设备

一种重大传染病队列数据分型方法、分型模型及电子设备

摘要

本申请提供一种重大传染病队列数据分型方法、分型模型及电子设备,方法包括:获取重大传染病的多维度数据,其中,多维度数据包括数值型数据、符号型数据和文本型数据;对多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征;使用多种预设的聚类模型对重要性特征的数据集进行聚类分析,并对得到的多种聚类结果进行聚类效果评估,以从多种聚类结果中确定出目标聚类结果;基于目标聚类结果,对数据集的所有特征数据进行T检验、卡方检验和F检验,并对检验结果的显著性差异进行分型;对分型结果进行评估,若分型结果符合专家共识,则确定当前分型有效,若分型结果不符合专家共识,则确定当前分型无效,并重新分型。

著录项

  • 公开/公告号CN112820416A

    专利类型发明专利

  • 公开/公告日2021-05-18

    原文格式PDF

  • 申请/专利权人 重庆市公共卫生医疗救治中心;

    申请/专利号CN202110213405.3

  • 申请日2021-02-26

  • 分类号G16H50/80(20180101);G16H50/20(20180101);G06K9/62(20060101);

  • 代理机构50277 重庆一叶知秋专利代理事务所(普通合伙);

  • 代理人刘洪雨

  • 地址 400036 重庆市沙坪坝区歌乐山保育路109号

  • 入库时间 2023-06-19 11:02:01

说明书

技术领域

本申请涉及传染病分型技术领域,具体而言,涉及一种重大传染病队列数据分型方法、分型模型及电子设备。

背景技术

传染病是各种病原体引起的能在动物与动物、人与动物、人与人等各种媒介之间相互传播的一类疾病。人类同传染病的抗争从未停止,不过始终未能消灭传染病,且其死亡率仍然居高不下。

我国在传染病的防治方面做了很多工作,近年来,部分严重威胁居民生命健康的古老烈性传染病(如鼠疫、霍乱、疟疾等)已逐渐减少和消灭,但一些经典传染病(如结核病、艾滋病等)仍然形势严峻。此外,全球不断出现新发传染病的暴发流行,如严重急性呼吸综合征(SARS)、中东呼吸综合征冠状病(MERS)、埃博拉病病毒、新型冠状病毒肺炎(COVID-19)等,传染病疾病谱不断变迁,新型突发传染病也成为我们面临的巨大挑战。

传染病的发病率、致残率和病死率较高,对病人寿命、生活质量及劳动能力带来不良影响,对个体家庭、社会造成较大的经济医疗负担。因此,传染病已不仅是医学问题,更是严重的社会问题,危害性极大。

传染病的诊断和分类很复杂,临床表现较为不典型,缺乏特异性,因此在对传染病的诊疗过程中,通常会对患者进行分型,并建立精确分型的患者队列,将队列中相似类型的患者以相似的方式进行诊断和治疗。科学的分型不仅可以辅助医生重点关注不同类型患者的疾病变化情况,并针对性地开展相应的治疗,而且可以辅助医生对患者的病情发展和预后情况进行判断。特别是对于偏远贫穷和医疗资源缺乏的国家和地区的医务人员,科学的分型可以有效地指导开展患者的诊断和治疗工作,从而控制患者的病情,最终提升患者的好转率,降低恶化率和死亡率。

当前对于临床分型的研究方法主要包括以下三个方面:

第一种方法是基于医生临床医学经验的分型。有的文献将严重急性呼吸综合征分型为普通型(典型)、轻型、重型和极重型,有的文献将严重急性呼吸综合征分型为普通型、重型和极重型(暴发型)。此类分型方法基于临床医生的医学常识和临床经验,从而造成不同医生对于临床分型的不同,具有一定的主观性,缺乏科学客观的理论支持。

第二种方法是使用分类模型对有监督结果的数据进行学习并分型。有的文献使用已有分型结果数据,建立自主参考标准,并建立有监督的分类模型(如支持向量机、逻辑回归等)进行分型。此类模型对于有监督的数据有用,但是无法对于未知参考标准(无监督)的数据进行分型。

第三种方法是最常用的方法。其基本思路是依据医生的临床知识和病情特点,使用某个或少数几个客观临床特征的统计学分析结果来进行分型。此类分型的特征获取倾向于依据医务人员的临床医学知识和对病情的理解与认识进行的分型。这种方法虽然满足了当前临床分型的需求,但是却忽略了其他在医学特征,以及这些特性之间关联性,导致分型缺乏一定的科学性。

并且,当前的分型方法还存在一些共性问题:

一是没有完全考虑疾病全过程诊疗的数据关系,只是从诊断、治疗和预后等某个方面考虑,忽略了诊断、治疗和预后之间的紧密联系,不利于对临床诊疗的全面指导;

二是没有处理疾病相关的文字数据,如胸部CT报告、腹部B超报告等,从而导致分型的过程中忽略了一些重要的因素,并导致分型结果与实际不符。

发明内容

本申请实施例的目的在于提供一种重大传染病队列数据分型方法、分型模型及电子设备,以实现对传染病患者科学有效的分型,且分型结果符合临床实际,以便于有效指导医生对患者诊断、治疗和预后管理。

为了实现上述目的,本申请的实施例通过如下方式实现:

第一方面,本申请实施例提供一种重大传染病队列数据分型方法,包括:获取重大传染病的多维度数据,其中,所述多维度数据包括数值型数据、符号型数据和文本型数据;对所述多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征;使用多种预设的聚类模型对所述重要性特征的数据集进行聚类分析,并对得到的多种聚类结果进行聚类效果评估,以从多种所述聚类结果中确定出目标聚类结果;基于所述目标聚类结果,对所述数据集的所有特征数据进行T检验、卡方检验和F检验,并对检验结果的显著性差异进行分型;对分型结果进行评估,若所述分型结果符合专家共识,则确定当前分型有效,若所述分型结果不符合专家共识,则确定当前分型无效,并重新分型。

在本申请实施例中,获取的多维度数据包括数值型数据、符号型数据和文本型数据,能够考虑到考虑疾病全过程诊疗的数据关系,例如诊断、治疗和预后之间的紧密联系,可以处理疾病相关的文字数据,如胸部CT报告、腹部B超报告等,从而在分型的过程中兼顾到相关的重要因素,从而使得分型结果与实际相符。而通过数据准备、主成分分析、聚类分析与结果评估和统计分析建模,可以实现对传染病患者科学有效的分型,分型结果符合临床实际,能够有效指导医生对患者诊断、治疗和预后管理。

结合第一方面,在第一方面的第一种可能的实现方式中,对所述多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征,包括:对所述数据集中的所述多维度数据进行筛选,删除与该重大传染病的诊断和治疗无关的特征数据;对所述数据集中筛选后的所述多维度数据进行数据预处理:对筛选后的所述多维度数据中的缺陷数据进行删减,对筛选后的所述多维度数据中的多类别数据进行标准化处理,对所述筛选后的所述多维度数据中的文本数据进行聚类后标准化处理,其中,所述缺陷数据包括缺失数据和异常数据中的至少一项,所述多类别数据表示存在多种固定结果的数据;对所述数据集中预处理后的所述多维度数据进行主成分分析特征降维处理,确定出多个所述重要性特征。

在该实现方式中,通过对数据集中的多维度数据进行筛选,删除与该重大传染病的诊断和治疗无关的特征数据,这些数据属于噪音特征,不仅对分型没有用,反而会干扰正常的特征选择,因此,删除与该重大传染病的诊断和治疗无关的特征数据,能够提升分型效率和分型的有效性。而对数据集中筛选后的多维度数据进行数据预处理:对筛选后的多维度数据中的缺陷数据(缺失数据、异常数据等)进行删减,对筛选后的多维度数据中的多类别数据(存在多种固定结果的数据)进行标准化处理,对筛选后的多维度数据中的文本数据进行聚类后标准化处理,可以提升数据质量,降低噪音数据和异常数据对聚类结果的影响,提升下一步聚类结果的可信度,提升聚类结果的可解释性和可用性。对数据集中预处理后的多维度数据进行主成分分析特征降维处理,确定出多个重要性特征,这样便于下一步对该重要性特征的数据集进行聚类分析。

结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,对所述数据集中预处理后的所述多维度数据进行主成分分析特征降维处理,确定出多个所述重要性特征,包括:对所述数据集中预处理后的所述多维度数据使用pca.fittransform函数进行主成分分析,获取主成分分析的矩阵components_和矩阵explained_variance_ratio_,矩阵components_的维度为(p,q),矩阵explained_variance_ratio_的维度为(q,1),其中p和q为正整数且大于1;获取预设可信度阈值M,取矩阵explained_variance_ratio_前N个值,使得前N个值的和大于M;计算components_[:N,:]×explained_variance_ratio_[:N]的值,并取其中绝对值最大的多个特征为多个所述重要性特征。

结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,对所述数据集中预处理后的所述多维度数据进行主成分分析特征降维处理,确定出多个所述重要性特征,包括:获取对目标文献进行文本挖掘而确定的文本权重矩阵,其中,所述目标文献为与该重大传染病相关的文献;将所述文本权重矩阵与components_[:N,:]×explained_variance_ratio_[:N]的矩阵相乘,并取其中绝对值最大的多个特征为多个所述重要性特征。

在该实现方式中,由于PCA(主成分分析)在计算特征重要性的过程中,特征的重要程度是以每个特征在components_矩阵中的绝对值来确定的,这个绝对值的意义可以理解为对于分类的共享,绝对值越高,对于分类的共享越大。因此,选择components_矩阵中绝对值更大的特征更有利于分类。考虑到医学的分型并不仅仅是为了实现对患者的分类,还需要基于这个分类去辅助临床诊断、治疗和随访。因此,在选择重要特征的过程中,不仅仅要考虑特征对于分类的重要性,也要考虑特征对于临床的辅助指导作用。基于此,此处提供的基于文本重要性+内核PCA的特征降维方式,可以获取对目标文献进行文本挖掘而确定的文本权重矩阵;将文本权重矩阵与components_[:N,:]×explained_variance_ratio_[:N]的矩阵相乘,并取其中绝对值最大的多个特征为多个重要性特征。这样的方式确定的重要性特征,既使用了PCA模型,所以有利于对特征的分类,同时因为使用了文本特征重要性权重矩阵(即文本权重矩阵),因此又符合临床实际,有利于辅助临床诊疗和随访工作,因此更能够符合实际的需求。

结合第一方面,在第一方面的第四种可能的实现方式中,使用多种预设的聚类模型对所述重要性特征的数据集进行聚类分析,并对得到的多种聚类结果进行聚类效果评估,以从所述多种聚类结果中确定出目标聚类结果,包括:使用多种预设的聚类模型对所述重要性特征的数据集进行聚类分析,得到多种所述聚类结果,其中,预设的聚类模型包括基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法、基于模糊的聚类方法和基于图论的聚类方法中的多项;采用Silhouette Coefficient Index、Calinski Harabasz Score、Davies bouldin score中的至少一项评估所述聚类结果,以从所述多种聚类结果中确定出评估结果最优的目标聚类结果。

结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,采用Silhouette Coefficient Index评估所述聚类结果的方式为:

利用以下公式计算所述聚类结果,

其中,S(i)表示单个样本i的轮廓系数,a(i)=Average{i向量到所有同类簇中其它点的距离},称为样本i的簇内不相似度,bi=min{i向量到各个非本身所在簇的所有点的平均距离},称为样本i的簇间不相似度;

采用Calinski Harabasz Score评估所述聚类结果的方式为:

利用以下公式计算所述聚类结果,

其中,k代表聚类类别数,N代表全部数据数目,Tr(B

采用Davies bouldin score评估所述聚类结果的方式为:

利用以下公式计算所述聚类结果,

其中,N表示类别个数,

结合第一方面,在第一方面的第六种可能的实现方式中,对分型结果进行评估,若所述分型结果符合专家共识,则确定当前分型有效,若所述分型结果不符合专家共识,则确定当前分型无效,并重新分型,包括:基于所述显著性差异对所述分型结果进行评估;若所述显著性差异符合专家共识,则确定当前分型有效,并确定是否使用当前分型继续进行亚群的分型,若继续进行亚群的分型,则利用本次分型继续进行亚群分型,若不继续进行亚群的分型,则确定本次的分型结果为最终分型;若所述显著性差异不符合专家共识,则回到步骤:对所述多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征,并继续执行后续步骤,其中,再次执行步骤的过程中采用的聚类模型不同于已经采用过的聚类模型。

结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,若所述显著性差异不符合专家共识,所述方法还包括:判断所述数据集中所有具有重要性特征的数据是否可用;若所述数据集中具有重要性特征的数据存在不可用的情况,则采用协同过滤的缺失数据分型方式对所述数据集进行分型。

在该实现方式中,对于不符合专家共识和临床实际的分型结果,可以再次进行数据准备和聚类,以便最终找到适合的分型模型;而对于缺失关键特征的患者数据,可以采用协同过滤的方法进行分型。这样可以对全部患者的基于数据特征的分型,并获取科学、客观和适用的分型结果,克服现有技术中对于缺失主要特征的数据无法分型的问题。

第二方面,本申请实施例提供一种重大传染病队列数据分型模型,包括:多维度数据单元,用于获取重大传染病的多维度数据,其中,所述多维度数据包括数值型数据、符号型数据和文本型数据;数据准备处理单元,用于对所述多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征;聚类分析评估单元,用于使用多种预设的聚类模型对所述重要性特征的数据集进行聚类分析,并对得到的多种聚类结果进行聚类效果评估,以从多种所述聚类结果中确定出目标聚类结果;聚类结果检测单元,用于基于所述目标聚类结果,对所述数据集的所有特征数据进行T检验、卡方检验和F检验,并对检验结果的显著性差异进行分型;分型结果评估单元,用于对分型结果进行评估,若所述分型结果符合专家共识,则确定当前分型有效,若所述分型结果不符合专家共识,则确定当前分型无效,并重新分型。

第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现第一方面或第一方面的可能的实现方式中任一项所述的重大传染病队列数据分型方法。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种实现重大传染病队列数据分型的总体思路图。

图2为本申请实施例提供的一种重大传染病队列数据分型方法的流程图。

图3为本申请实施例提供的LDH在不同类型患者中的分布图。

图4为本申请实施例提供的PO2在不同类型患者中的分布图。

图5为本申请实施例提供的重大传染病队列数据分型方法指导预后的统计分析的示意图。

图6为本申请实施例提供的一种重大传染病队列数据分型模型的示意图。

图标:10-重大传染病队列数据分型模型;11-多维度数据单元;12-数据准备处理单元;13-聚类分析评估单元;14-聚类结果检测单元;15-分型结果评估单元。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

为了实现对传染病患者进行科学有效的分型,使分型结果符合临床实际,以便于有效指导医生对患者诊断、治疗和预后管理,本申请实施例提供一种重大传染病队列数据分型方法。

请结合参阅图1和图2,图1为本申请实施例提供的一种实现重大传染病队列数据分型的总体思路图,图2为本申请实施例提供的一种重大传染病队列数据分型方法的流程图。在本实施例中,重大传染病队列数据分型方法可以包括步骤S10、步骤S20、步骤S30、步骤S40、步骤S50。

在本实施例中,重大传染病队列数据分型方法的执行主体可以为电子设备,例如服务器(如云服务器、网络服务器、服务器集群等)或终端(如个人电脑、平板电脑等),此处不作限定。

示例性的,电子设备可以执行步骤S10。

步骤S10:获取重大传染病的多维度数据,其中,所述多维度数据包括数值型数据、符号型数据和文本型数据。

在本实施例中,电子设备可以从不同的医疗系统数据源中提取数据,得到预分型的重大传染病的多维度数据。此处,多维度数据中可以包括数值型数据(例如体温及一些生理参数值等)、符号型数据(例如++、-等)和文本型数据(例如胸部CT报告、腹部B超报告等)。

得到重大传染病的多维度数据后,电子设备可以执行步骤S20。

步骤S20:对所述多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征。

在本实施例中,电子设备可以对多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征。

示例性的,电子设备可以对数据集中的多维度数据进行筛选,删除与该重大传染病的诊断和治疗无关的特征数据。

例如,可以基于临床经验,删除与重大传染病诊断与治疗无关的特征数据。因为这些数据是噪音特征,不仅对分型没有用,反而会干扰正常的特征选择,因此需要进行处理。不同数据特征的数据处理方式如表1所示:

表1.不同数据特征的数据处理

对数据集中的多维度数据进行筛选后,电子设备可以对数据集中筛选后的多维度数据进行数据预处理。数据预处理的目的是对多维度数据中不完整的、不一致的、错误或异常值进行处理,提升数据质量,降低噪音数据和异常数据对聚类结果的影响,提升下一步聚类结果的可信度,提升聚类结果的可解释性和可用性。

示例性的,电子设备可以对筛选后的多维度数据中的缺陷数据进行删减,对筛选后的多维度数据中的多类别数据进行标准化处理,对筛选后的多维度数据中的文本数据进行聚类后标准化处理,其中,缺陷数据包括缺失数据和异常数据中的至少一项,多类别数据表示存在多种固定结果的数据。

例如,针对不同的数据类型和数据特点,数据预处理方法如下:

表2.数据预处理方式

此处,需要说明的是:

对于缺失数据的处理方式,可以最大程度地保留有效的特征值和可分析数据,防止因为某一个特征缺失数据过多,而导致整个样本量大量减少。而对于多类别数据的处理方式,不能对数据使用one-hot编码进行处理,因为使用one-hot编码处理可能将原来的一个变量变为了多个变量,从而会影响聚类的结果。

以及,MinMax标准化处理方式为:

其中,x

例如,电子设备对文本数据的预处理与聚类分析过程可以如下:

①获取需要进行聚类的文本,采用TF-IDF模型、TextRank模型、LSI模型、LDA模型的组合结果创建用户自定义词列表。

②创建方法封装jieba分词。

③使用分词器将list of files进行分词。

④获得Tf-idf矩阵。

⑤计算文档相似性。

⑥获得文本聚类结果。

⑦聚类结果的MinMax标准化处理。

⑧提取各类结果的关键字,辅助文本挖掘结果的统计分析。

由此,电子设备可以实现对筛选后的多维度数据的数据预处理。

而后,电子设备可以对数据集中预处理后的多维度数据进行主成分分析(Principal Component Analysis,PCA)特征降维处理,确定出多个重要性特征。

通过对数据集中的多维度数据进行筛选,删除与该重大传染病的诊断和治疗无关的特征数据,这些数据属于噪音特征,不仅对分型没有用,反而会干扰正常的特征选择,因此,删除与该重大传染病的诊断和治疗无关的特征数据,能够提升分型效率和分型的有效性。而对数据集中筛选后的多维度数据进行数据预处理:对筛选后的多维度数据中的缺陷数据(缺失数据、异常数据等)进行删减,对筛选后的多维度数据中的多类别数据(存在多种固定结果的数据)进行标准化处理,对筛选后的多维度数据中的文本数据进行聚类后标准化处理,可以提升数据质量,降低噪音数据和异常数据对聚类结果的影响,提升下一步聚类结果的可信度,提升聚类结果的可解释性和可用性。对数据集中预处理后的多维度数据进行主成分分析特征降维处理,确定出多个重要性特征,这样便于下一步对该重要性特征的数据集进行聚类分析。

主成分分析是一种特征降维模型,通过正交变换将一组可能存在相关性的变量数据转换为一组线性不相关的变量,转换后的变量被称为主成分。

示例性的,电子设备可以对数据集中预处理后的多维度数据使用pca.fittransform函数进行主成分分析,获取主成分分析的矩阵components_和矩阵explained_variance_ratio_,矩阵components_的维度(即shape)为(p,q),矩阵explained_variance_ratio_的维度(即shape)为(q,1),其中p和q为正整数且大于1;获取预设可信度阈值M,取矩阵explained_variance_ratio_前N个值,使得前N个值的和大于M;计算components_[:N,:]×explained_variance_ratio_[:N]的值,并取其中绝对值最大的多个特征为多个所述重要性特征。

例如,电子设备可以采用python中scikit-learn开源项目封装的PCA函数进行特征降维,其计算过程如下:

对于进行预处理的数据集,使用pca.fit transform函数进行主成分分析,获取主成分分析的矩阵components_和矩阵explained_variance_ratio_,components_的shape为(p,q),explained_variance_ratio_的shape为(q,1),其中p和q为正整数且大于1。

设定一个可信度阈值M,且0<M≤1,取explained_variance_ratio_前N个值,使得前N个值的和大于M。

计算components_[:N,:]×explained_variance_ratio_[:N]的值,取最大值对应的特征为最重要特征,用于下一步的聚类分析,依据实际分型需求,取权重重要性矩阵中绝对值最大的特征为重要性特征,并使用聚类算法对该特征的数据集进行聚类分析。

由于PCA(主成分分析)在计算特征重要性的过程中,特征的重要程度是以每个特征在components_矩阵中的绝对值来确定的,这个绝对值的意义可以理解为对于分类的共享,绝对值越高,对于分类的共享越大。因此,选择components_矩阵中绝对值更大的特征更有利于分类。考虑到医学的分型并不仅仅是为了实现对患者的分类,还需要基于这个分类去辅助临床诊断、治疗和随访。因此,在选择重要特征的过程中,不仅仅要考虑特征对于分类的重要性,也要考虑特征对于临床的辅助指导作用。

基于此,本实施例中还提供一种基于文本重要性+内核PCA的特征降维方式:

电子设备可以获取对目标文献(与该重大传染病相关的文献)进行文本挖掘而确定的文本权重矩阵。而后,电子设备可以将文本权重矩阵与components_[:N,:]×explained_variance_ratio_[:N]的矩阵相乘,并取其中绝对值最大的多个特征为多个重要性特征。这样的方式确定的重要性特征,既使用了PCA模型,所以有利于对特征的分类,同时因为使用了文本特征重要性权重矩阵(即文本权重矩阵),因此又符合临床实际,有利于辅助临床诊疗和随访工作,因此更能够符合实际的需求。

而文本特征重要性权重矩阵(即文本权重矩阵)获取方法(包括6个步骤)如下:

步骤1:文本数据预处理

对于汉语语系而言,逆向最大匹配法有效性高于最大匹配法,因此,此处对文本预处理可以采取逆向最大匹配法(Reverse Maximum Method,RMM):电子设备可以选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配。如果两者不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词位置,匹配的方向是从左向右。

步骤2:文本特征表示

文本特征表示指的是文本的元数据,分为描述性特征(如文本的名称,日期,大小,类型)及其语义性特征(文本的作者,机构,标题,内容等)。特征表示是以一定的特征项来代表文档,在进行文本挖掘时,电子设备只需对这些特征项进行处理,从而实现对非结构化文本的处理。

步骤3:文本特征提取

特征提取算法通过构造一个评价函数,对每个特征进行评估,然后把特征按分值高低排列,预定分数最高的特征将被选取。此处,电子设备可以采用文本证据权来进行特征提取,该评估函数用于衡量类的概率和给定特征时类的条件概率之间的差别,其在实验中的效果通常优于期望交叉熵。

步骤4:文本特征集缩减

特征集的缩减可以通过潜在的语义索引(latent semantic indexing)方法,利用矩阵理论中的“奇异值分解”(Singular Value Decomposition)技术,可以将词频矩阵转化为K×K的奇异矩阵,其基本步骤如下:

①建立特征指标的词频矩阵。

②词频矩阵的奇异值分析,分解词频矩阵为3个矩阵U、S、U。U和V是正交矩阵(UV=I),S是奇异值的对角矩阵(K×K)。

③对于每一个文档d,用排除了SVD中消除后词的新向量替换原向量。

④保存所有向量集合,用高级多维索引技术为其创建索引。

⑤用转换后的文档向量进行相似度计算。

由此基本步骤①~⑤,电子设备可以实现对文本特征集的缩减。

步骤5:基于本体论文本泛化

文本挖掘过程中,电子设备可以对一些相关性较强的搜索词汇进行合并或用同一词汇进行泛化处理。对于各词汇词频数的处理,电子设备可以采用抽样分布的方式,将文本中出现词频高于30%(含)的词汇,认为该属性几乎完全存在于特征的指标体系中,能够作为特征评估的指标;对于词频低于30%的词汇,认为该属性几乎没有出现在特征的指标体系中,不作为特征评估的指标(当然,此处的30%仅是示例性的,可以根据实际需要进行调节)。而对于权重值计算,可以确定各关键词权重值为其在各文本中的权重和与所有关键词权重值和的比:

其中,q

步骤6:文本特征重要性权重矩阵建立

在通过文本获取特征的出现频次及其对应的重要性权重值的过程中,有的特征并没有出现,如果将这些特征计算为0,那么与PCA模型获得的矩阵相乘,则其重要性为0,不符合实际。因此,定义文本特征重要性权重矩阵的值应该是各特征的权重值加上1,从而保证相乘的矩阵之和不为零。文本特征重要性权重矩阵(即文本权重矩阵)计算公式如下:

P

因此,最终的权重重要性矩阵为:

components[:N,:]×exp lained_variance_ratio_[:N]×P

其中,P

通过这样的方式,电子设备可以基于对多维度数据对应的数据集的数据准备处理,确定出多个重要性特征(可以依据实际分型需求,取权重重要性矩阵中绝对值最大的特征为重要性特征,以便后续使用聚类模型对该特征的数据集进行聚类分析)。

确定出多个重要性特征后,电子设备可以执行步骤S30。

步骤S30:使用多种预设的聚类模型对所述重要性特征的数据集进行聚类分析,并对得到的多种聚类结果进行聚类效果评估,以从多种所述聚类结果中确定出目标聚类结果。

聚类分析算法是一种无监督算法,它以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。由于重大传染病中不乏参考标准难以确定的疾病种类,例如AIDS(获得性免疫缺陷综合征,即艾滋病)合并PCP(卡氏肺孢子虫肺炎)。因此,需要对未知参考标准(无监督)的数据进行分型(例如对AIDS合并PCP患者的分型),而此种分型属于一种无监督的分析,因此聚类算法适用于对此类患者(例如AIDS合并PCP患者)进行分型。

在本实施例中,电子设备可以使用多种预设的聚类模型对重要性特征的数据集进行聚类分析,以得到多种聚类结果。由于多维度医疗数据(即多维度数据)的多样化特性,此处,预设的聚类模型可以包括基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法、基于模糊的聚类方法和基于图论的聚类方法中的多项。

例如,电子设备中预设的聚类模型可以选用当前典型的7种聚类算法对主要特征进行聚类,各算法的建模思路及特点如下表3所示:

表3.聚类算法建模思路与特点

需要注意是,对于如kmeans、GMM等结果具有不确定性的算法,以此为基础建立预设的聚类模型时,需要采用多次循环寻找最优的聚类结果。

另外,需要说明的是,对于预设的聚类模型的使用,可以同时采用多种不同类型的模型组合,以对重要性特征的数据集进行聚类分析,这样便于提升聚类的效率。

使用多种预设的聚类模型对重要性特征的数据集进行聚类分析后,电子设备可以得到多种聚类结果。那么,电子设备可以对得到的多种聚类结果进行聚类效果评估,以从多种聚类结果中确定出目标聚类结果。

由于本实施例中举例的AIDS合并PCP患者分型属于无监督学习,没有可以比较的结果,因此,电子设备可以采用Silhouette Coefficient Index、Calinski HarabaszScore、Davies bouldin score中的至少一项评估聚类结果,以从多种聚类结果中确定出评估结果最优的目标聚类结果。

例如,电子设备采用Silhouette Coefficient Index、Calinski HarabaszScore、Davies bouldin score来最终评估聚类结果。

具体的,聚类效果采用数据包sklearn.metrics中的silhouette_score、calinski_harabasz_score和davies_bouldin_score函数来计算。

首先,Silhouette Coefficient Index是一个衡量某个结点与它属聚类相较于其它聚类的相似程度。取值范围在-1~1之间,值越大表明这个结点更匹配其属聚类而不与相邻的聚类匹配。因此,采用Silhouette Coefficient Index评估聚类结果的方式可以为:

电子设备利用以下公式计算聚类结果,

其中,S(i)表示单个样本i的轮廓系数,a(i)=Average{i向量到所有同类簇中其它点的距离},称为样本i的簇内不相似度,bi=min{i向量到各个非本身所在簇的所有点的平均距离},称为样本i的簇间不相似度。

其次,Calinski Harabasz Score则是通过评估类之间方差和类内方差来计算得分。因此,采用Calinski Harabasz Score评估聚类结果的方式可以为:

电子设备利用以下公式计算聚类结果,

其中,k代表聚类类别数,N代表全部数据数目,Tr(B

而Davies bouldin score是一种分类适确性指标。因此,采用Calinski HarabaszScore评估聚类结果的方式可以为:

电子设备利用以下公式计算聚类结果,

其中,N表示类别个数,

通过这样的方式可以很好很全面地计算聚类结果,以便于电子设备从多种聚类结果中确定出聚类效果(即评估结果)最优的目标聚类结果。

从多种聚类结果中确定出评估结果最优的目标聚类结果后,电子设备可以执行步骤S40。

步骤S40:基于所述目标聚类结果,对所述数据集的所有特征数据进行T检验、卡方检验和F检验,并对检验结果的显著性差异进行分型。

在本实施例中,电子设备可以基于目标聚类结果,对数据集的所有特征数据进行T检验、卡方检验和F检验,并对检验结果的显著性差异进行分型。

而后,电子设备可以执行步骤S50。

步骤S50:对分型结果进行评估,若所述分型结果符合专家共识,则确定当前分型有效,若所述分型结果不符合专家共识,则确定当前分型无效,并重新分型。

在本实施例中,电子设备可以对分型结果进行评估。

示例性的,电子设备可以采用专家评估的方法进行分型结果的评估。电子设备可以依据公开发表的专家共识论文,对分型结果进行统计分析和检验。这样可以从临床、诊疗和预后三个方面对分型结果进行检验。若分型结果符合专家共识,可以认为这种分型是有效的。因此,若分型结果符合专家共识,则可以确定当前分型有效,若分型结果不符合专家共识,则可以确定当前分型无效,并重新分型。

需要说明的是,在其他一些可能的实现方式中,对于分型结果的评估,还可以利用专家共识结合一些公开标准或指南,共同对分型结果进行评估,此处不作限定。

对于分型结果的评估确定为当前分型有效时(即显著性差异符合专家共识),可以进一步确定是否需要使用当前分型继续进行亚群的分型。若需要继续进行亚群的分型,电子设备则可以利用本次分型继续进行亚群分型;若不需要继续进行亚群的分型,电子设备则可以确定本次的分型结果为最终分型。

对于分型结果的评估确定为当前分型无效时(即显著性差异不符合专家共识),电子设备可以回到步骤S20,重新执行步骤S20~步骤S50:即,电子设备可以对多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征,并继续执行后续步骤(即继续聚类分析、聚类效果评估、目标聚类结果的确定、数据集的检验、分型等),其中,再次执行步骤的过程中采用的聚类模型不同于已经采用过的聚类模型(即,采用与之前所采用的聚类模型不同的模型模型,例如,上次采用的聚类模型包括基于k-means算法建立的聚类模型,那么,本次聚类时,可以采用与之同类的但不同的聚类模型,例如,基于intelligent k-means建立的聚类模型)。

另外,一些缺乏关键特征的数据集因为缺失关键特征,无法在聚类算法中进行分型。为了实现对缺失关键特征的患者数据进行科学有效且具有临床指导意义的分型,采用协同过滤的方法对此数据集进行分型。

示例性的,电子设备对于缺失关键特征数据集的判断,可以采用这样的方式进行:判断数据集中所有具有重要性特征的数据是否可用;若数据集中发现具有重要性特征的数据有不可用的情况(例如具备所有重要性特征中的一种或几种,但并非存在所有的重要性特征),则采用协同过滤的缺失数据分型方式对数据集进行分型。

协同过滤是一种推荐算法,在不需要太多特定领域知识的前提下,协同过滤可以通过基于统计的机器学习算法过滤难以进行机器自动内容分析的信息,并取得较好的推荐效果,因此,也适用于缺乏主要特征(即重要性特征)的分型(例如缺乏主要特征的AIDS合并PCP患者分型)。

以使用协同过滤对缺乏主要特征的AIDS合并PCP患者分型为例,步骤如下:

①建立各类型数据标准化矩阵,例如最终的分型结果为重型、中型和轻型,则取其全部特征参数,建立矩阵X

②对于缺失关键特征的患者数据,去掉缺失值以后,建立矩阵X

③取矩阵X

由此,即可通过协同过滤的方式对缺乏主要特征的AIDS合并PCP患者进行科学有效的分型。

通过这样的方式,对于不符合专家共识和临床实际的分型结果,可以再次进行数据准备和聚类,以便最终找到适合的分型模型;而对于缺失关键特征的患者数据,可以采用协同过滤的方法进行分型。这样可以对全部患者的基于数据特征的分型,并获取科学、客观和适用的分型结果,克服现有技术中对于缺失主要特征的数据无法分型的问题。

以下,将通过一个具体的例子来对本申请实施例提供的重大传染病队列数据分型方法进行介绍。

以HIV合并PCP患者数据为例进行分型,项目实验使用Visual Studio C sharp处理数据前端,使用python 3.6进行数据挖掘和统计分析,使用SQL Server 2016作为数据库存储数,聚类算法使用的模型分别为Kmeans、Balanced Iterative Reducing andClustering using Hierarchies(利用层次方法的平衡迭代规约和聚类,BRICH)、Density-Based Spatial Clustering of Applications with Noise(具有噪声的基于密度的聚类方法,DBSCAN)、Gaussian Mixture Model(混合高斯模型,GMM)、AgglomerativeClustering(凝聚聚类算法)、Meanshift(均值偏移算法)、Ordering points to identifythe clustering structure(对象排序识别聚类结构,OPTICS)、Spectral Clustering(谱聚类算法)、Fuzzy C-Means(模糊c-均值聚类算法),最终发现最重要的特征参数为“乳酸脱氢酶”和“动脉氧分压”,并以此为依据将患者分型为四种类型,定义为极重型、重型、重型和轻型。分类方法如表4所示:

表4.分型特征和阈值

LDH和PO2在不同类型患者中的分布如图3和图4所示。

基于此,相关的临床分析可以采用常见的PCP诊断特征分析:例如临床表现(发烧、咳嗽、呼吸困难、体温),CD4+T细胞计数,白细胞(WBC),血红蛋白(HGB),血小板(PLT),真菌G检验,白蛋白(ALB)等作为PCP的常见诊断特征,以分析并发现各种类型患者之间的差异。这些特征在统计分析过程中具有显著差异,如表5所示:

表5.临床特征分型结果统计分析

在本实施例中,还可以基于肺部啰音和胸部CT结果相关的文本数据进行分析:肺部啰音文本数据的结果包括两种类型,分别定义为“0”类型和“1”类型。其中,“0”类型主要表示诊断内容为“无”或空值,而“1”类型主要表示诊断结果包括“可听,少量,零星,干,湿罗音”。通过统计分析,发现更多的低LDH患者被诊断为“0”型,而高LDH患者被诊断为“1”型。但是,这两种类型的肺部啰音的文本数据挖掘结果之间没有显着差异,这表明肺部啰音与疾病症状的严重程度之间没有对应关系,因此不能将肺部啰音作为确定患者疾病严重程度的标准。

胸部CT文本聚类结果包含四种类型,各种类型的关键字及其说明如表6所示:

表6.胸部CT文本聚类的结果和解释

在两种类型的患者之间,胸部CT文本的聚类结果存在显着的统计学差异。其中,“0”型患者和“1”型患者之间没有显着差异。在“2”和“3”型中,高LDH(包括极重度和重度)患者的比例高于低LDH(包括中度和轻度)患者的比例。

在这两种类型的患者中,通过关键词提取可以发现,胸部CT检查的文本数据倾向于使用诸如“弥漫性炎症,胸腔积液,间质性炎症”和“毛玻璃,感染性病变,钙化”之类的词语,这意味着高LDH患者的CT检查结果对应的疾病严重程度更为严重,与临床经验相符。文本数据的统计分析结果如表7所示:

表7.文本数据聚类结果的统计分析

基于上述分析,可以给到医生很好的指导作用,以便于医生给出更合适的治疗方案。例如,针对治疗方案的分析如下:

首先,对于PCP病原体治疗:用于PCP的病原体治疗药物包括SMZ-TMP,克林霉素,卡泊芬净等。通常情况下各种药物的使用和组合依据患者的病情有所不同都不同。从表8中我们可以发现,在四种类型的患者中,SMZ-TMP+克林霉素+卡泊芬净和克林霉素之间存在显着差异,如表8所示:

表8.PCP对各类患者病原体的治疗分析

SMZ-TMP是治疗PCP的首选药物。在这些患者组中,一线抗PCP药物SMZ-TMP的使用率非常高,表明这些患者对第一线药物,SMZ-TMP对肺孢子虫的杀灭作用非常好。克林霉素可以用作治疗PCP病原体的常见替代药物。对于极重度患者和重度患者,当对SMZ-TMP无反应或不耐受时,首选SMZ-TMP+Clindamycin和Clindamycin。相关报道也显示克林霉素具有良好的疗效和较高的治愈率。

其次,对于糖皮质激素治疗的分析:临床上,糖皮质激素(GC)作为机体内极为重要的一类调节分子,也常用于中重症患者的救治。除了数据源中包含泼尼松和甲基泼尼松龙外,GC还包括倍他米松,倍氯米松双丙酸酯,泼尼松龙,氢化可的松,地塞米松等。

在表9中,我们可以发现,对于各种类型的患者,GC的使用存在显着差异。患者的病情越严重,使用GC的比率越高,表明GC治疗与病情的严重程度有关。在诊断和治疗过程中,对于重度和重度患者,可以给医生指导,优先使用GC来降低患者的恶化率和死亡率。

表9.糖皮质激素治疗各类患者的分析

以上举例所产生的结果表明,在高LDH患者和低LDH患者之间,高LDH患者的改善率较低,而这些患者的恶化率和死亡率较高,表明该病高LDH患者比低LDH患者更为严重。轻度患者和中度患者在恶化程度和死亡率上存在显着差异;但是,改善率没有显着差异。轻度患者的恶化率和死亡率较低,这表明在低LDH患者中,应密切注意中度患者,以防止其临床恶化和随后的死亡。极重度患者和重度患者的恶化数据显着不同。极重度患者的改善率较低,极重度患者和重度患者的恶化率和死亡率较高。分类数据显示,极端严重的患者不太可能治愈,因此,临床医生有必要在患者管理过程中对生命体征数据的监视给予必要的注意,以减少临床恶化率并增加这些患者的临床改善率。

基于预后结果分析,我们发现分类模型可以有效地指导预后。统计分析结果如表10和图5所示。

表10.第一分类中预后结果的统计分析

通过上述分析可以发现,本申请实施例提供的重大传染病队列数据分型方法对于预后、诊断和临床特征分析都有良好的显著性差异(p<0.05),并符合临床实际与专家共识,能够有效辅助医生对患者进行分型并指导临床诊疗。从表11也可以发现,本方案提出方法的考虑的因素更多,能够覆盖全部患者的分型,分型依据采用客观的机器学习方法,说明了本方案的科学性、有效性和实用性,对临床诊疗具有辅助的指导意义。

表11.各队列数据分型方法比较

请参阅图6,图6为本申请实施例提供的一种重大传染病队列数据分型模型的示意图。在本实施例中,重大传染病队列数据分型模型10,包括:

多维度数据单元11,用于获取重大传染病的多维度数据,其中,所述多维度数据包括数值型数据、符号型数据和文本型数据。

数据准备处理单元12,用于对所述多维度数据对应的数据集进行数据准备处理,确定出多个重要性特征。

聚类分析评估单元13,用于使用多种预设的聚类模型对所述重要性特征的数据集进行聚类分析,并对得到的多种聚类结果进行聚类效果评估,以从多种所述聚类结果中确定出目标聚类结果.

聚类结果检测单元14,用于基于所述目标聚类结果,对所述数据集的所有特征数据进行T检验、卡方检验和F检验,并对检验结果的显著性差异进行分型。

分型结果评估单元15,用于对分型结果进行评估,若所述分型结果符合专家共识,则确定当前分型有效,若所述分型结果不符合专家共识,则确定当前分型无效,并重新分型。

本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现本实施例中所述的重大传染病队列数据分型方法。

综上所述,本申请实施例提供一种重大传染病队列数据分型方法、分型模型及电子设备,通过获取的多维度数据包括数值型数据、符号型数据和文本型数据,能够考虑到考虑疾病全过程诊疗的数据关系,例如诊断、治疗和预后之间的紧密联系,可以处理疾病相关的文字数据,如胸部CT报告、腹部B超报告等,从而在分型的过程中兼顾到相关的重要因素,从而使得分型结果与实际相符。而通过数据准备、主成分分析、聚类分析与结果评估和统计分析建模,可以实现对传染病患者科学有效的分型,分型结果符合临床实际,能够有效指导医生对患者诊断、治疗和预后管理。

在本申请所提供的实施例中,应该理解到,所揭露的方法,可以通过其它的方式实现,以上所描述的装置实施例仅仅是示意性的。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号