技术领域
本发明涉及计算机技术领域,尤其涉及一种基于多粒度特征融合的疾病预测方法及系统。
背景技术
疾病预测是利用现有的语义分析技术自动的将疾病分为不同的类别,可以帮助医生或患者迅速了解病人目前所处的病程状态,并根据可能干预手段的预测进行关键医疗资源的调度与协同。
迄今为止,预测模型的构建方法主要分为两类:基于假设驱动的方法和基于数据驱动的方法。前者从临床专家根据观察和临床经验提出的假设开始,再从医疗数据中找出事实,用演绎推理来验证假设的真实性。预测模型是由一组验证的假设推导出来的。一般来说,假设驱动的方法不能充分利用医疗数据中包含的有价值的信息。数据驱动方法使用充分标记的医疗数据集训练机器学习模型,实现疾病预测。传统的机器学习模型需要领域专家以特殊的方式指定临床特征,而最终的预测模型的成功很大程度上依赖于手工设计的特征选择的复杂监督,例如,Senthilkmar Mohan等人在2019年发表的Effective HeartDisease Prediction Using Hybrid Machine Learning Techniques提出了一种线性混合随机森林模型用于心脏病预测。深度学习能够减少传统机器学习特征选择的复杂性从数据中自动的学到更深层次的特征,如今已经成为了预测模型的主要方法。而基于深度学习的疾病预测方法通常采用词或概念向量作为医疗文本的主要特征表达,例如,由GuangkaiLi,Songmao Zhang等人发表在SmartCom 2018的Augmenting Embedding with DomainKnowledge for Oral Disease Diagnosis Prediction文章从领域本体中学习症状与诊断相关的概念并采用神经网络学习电子病历中的概念特征,构建口腔疾病预测模型,。但是仅考虑词或概念向量由于其特征粒度过小容易造成其对医疗文本中所包含的语义信息提取不充分,不能提供正确的医疗决策。
发明内容
本发明实施例提供一种基于多粒度特征融合的疾病预测方法及系统,用以解决现有技术中存在的缺陷。
第一方面,本发明实施例提供一种基于多粒度特征融合的疾病预测方法,包括:
获取基于待预测疾病的融合特征;
将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的。
进一步地,所述疾病预测模型,通过以下步骤获得:
获取待处理的文本,将所述待处理的文本经过预处理后得到预处理后的文本;
将所述预处理后的文本进行特征抽取,获得提取特征;
将所述提取特征基于多粒度特征进行融合,得到所述多种疾病的融合特征;
获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型。
进一步地,所述获取待处理的文本,将所述待处理的文本经过预处理后得到预处理后的文本,具体包括:
将医疗文本数据根据待预测的目标类别进行人工标注,再载入领域本体,得到所述待处理的文本;
根据标点符号、数字和空格符号将所述待处理的文本切分为汉字字符串,并去除停用词,得到所述预处理后的文本。
进一步地,所述将所述预处理后的文本进行特征抽取,获得提取特征,具体包括:
通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征。
进一步地,所述通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征,具体包括:
将所述预处理后的文本映射到领域本体得到文本数据,通过最大匹配法将所述文本数据切分为语义集,采用word2vec模型将包含能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,并通过所述概念自身特征型和所述概念类型特征相结合提取概念特征;
采用所述word2vec模型将包含不能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,提取词特征;
结合所述词特征、位置特征以及否定词特征提取概念之间的关系触发词,并结合所述概念特征,将所述概念特征和所述关系触发词表示为概念关系特征;
将所述概念特征进一步表示为包含数值类型的疾病与时间结果,以及包含所述数值类型和类别类型的检测与检查结果,得到属性与值特征。
进一步地,所述将所述提取特征基于多粒度特征进行融合,得到所述多种疾病的融合特征,具体包括:
针对预测目标差异大的类别将所述提取特征直接进行向量拼接,或针对预测目标相似度高的类别采用基于权重的特征融合方法将所述提取特征进行融合,得到所述多种疾病的融合特征。
进一步地,所述获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型,具体包括:
根据所述概念关系特征和所述属性与值特征的不同将句子分割成不同部分提取所述句子包含的语义信息;
将所述语义信息与所述概念特征和所述词特征进行融合训练所述并行自适应卷积神经网络模型,并在卷积层采用dropout操作,以及采用zero padding保持所述句子的有效性,得到所述疾病预测模型。
第二方面,本发明实施例还提供一种基于多粒度特征融合的疾病预测系统,包括:
获取模块,用于获取基于待预测疾病的融合特征;
处理模块,用于将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于多粒度特征融合的疾病预测方法的步骤。
第四方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于多粒度特征融合的疾病预测方法的步骤。
本发明实施例提供的基于多粒度特征融合的疾病预测方法及系统,通过采用多粒度特征融合的预测方法,不仅采用细粒度的词和概念特征,同时采用更大粒度的概念关系和属性-值特征来充分的理解医疗文本中的语义信息,提高模型疾病预测的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于多粒度特征融合的疾病预测方法的流程示意图;
图2是本发明实施例提供的流程模块分解示意图:
图3是本发明实施例提供的一种基于多粒度特征融合的疾病预测系统的结构示意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术存在的问题,本发明实施例提出了一种基于多粒度特征融合的疾病预测方法,该方法基于现有的医疗本体和标注的语料库提取不同粒度的特征并融合来训练疾病预测模型,训练后的模型可以提供与预测目标对应的类别,可以用于疾病预测相关的应用,例如,疾病种类预测或疾病严重等级预测。
图1是本发明实施例提供的一种基于多粒度特征融合的疾病预测方法的流程示意图,如图1所示,包括:
S1,获取基于待预测疾病的融合特征;
S2,将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的。
具体地,通过一定的技术手段获得待预测疾病相关的融合特征,将该融合特征输入至经过预先训练好的疾病预测模型,得到最终的疾病类型的分类结果,其中该疾病预测模型是基于并行自适应卷积神经网络,并由多种疾病的融合特征进行训练所得到的。
本发明实施例通过采用多粒度特征融合的预测方法,不仅采用细粒度的词和概念特征,同时采用更大粒度的概念关系和属性-值特征来充分的理解医疗文本中的语义信息,提高模型疾病预测的性能。
基于上述实施例,所述疾病预测模型,通过以下步骤获得:
获取待处理的文本,将所述待处理的文本经过预处理后得到预处理后的文本;
将所述预处理后的文本进行特征抽取,获得提取特征;
将所述提取特征基于多粒度特征进行融合,得到所述多种疾病的融合特征;
获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型。
具体地,如图2所示,在训练疾病预测模型时,首先是将领域本体进行数据预处理1,得到预处理后的文本,然后将预处理后的文本经过包含概念特征21、词特征22、概念关系特征23和属性-值特征24的特征提取2中,获得提取特征,再将提取特征基于多粒度特征融合3,其中包括直接进行向量拼接31或者基于特征权重的融合方法32,得到多种疾病的融合特征,进一步基于获取的并行自适应卷积神经网络模型,使用多种疾病的融合特征对该模型进行训练,得到训练的疾病预测模型4,最后使用训练好的模型进行疾病类型分类5。
基于上述任一实施例,所述获取待处理的文本,将所述待处理的文本经过预处理后得到预处理后的文本,具体包括:
将医疗文本数据根据待预测的目标类别进行人工标注,再载入领域本体,得到所述待处理的文本;
根据标点符号、数字和空格符号将所述待处理的文本切分为汉字字符串,并去除停用词,得到所述预处理后的文本。
具体地,将医疗文本数据根据要预测的目标类别进行人工标注,其次载入领域本体;根据标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词,得到预处理后的文本。
基于上述任一实施例,所述将所述预处理后的文本进行特征抽取,获得提取特征,具体包括:
通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征。
其中,所述通过概念特征提取、词特征提取、概念关系特征提取和属性与值特征提取,对所述预处理后的文本进行特征抽取,获得所述提取特征,具体包括:
将所述预处理后的文本映射到领域本体得到文本数据,通过最大匹配法将所述文本数据切分为语义集,采用word2vec模型将包含能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,并通过所述概念自身特征型和所述概念类型特征相结合提取概念特征;
采用所述word2vec模型将包含不能够从所述领域本体中找到相匹配的概念自身特征型和概念类型特征转化为向量形式,提取词特征;
结合所述词特征、位置特征以及否定词特征提取概念之间的关系触发词,并结合所述概念特征,将所述概念特征和所述关系触发词表示为概念关系特征;
将所述概念特征进一步表示为包含数值类型的疾病与时间结果,以及包含所述数值类型和类别类型的检测与检查结果,得到属性与值特征。
具体地,具体分为四个步骤:概念特征提取、词特征提取、概念关系特征提取和属性-值特征提取。
概念特征包含概念自身特征和概念类型特征。首先将预处理后的文本映射到领域本体,通过最大匹配法将文本数据切分为语义集{Y
词特征是指不能从领域本体中找到与之相匹配概念的语义,记作记作{W
通过结合前述的词特征,位置特征以及否定词特征来提取概念之间的关系触发词,并通过结合前述的概念特征,概念关系特征表示为三元组形式,记作p
属性-值特征包含两类:疾病-时间和检测-检查结果。属性是指概念特征,疾病-时间中的值只包含数值类型,检测-检查结果中的值包含数值类型与类别类型。对于数值类型,同时考虑数值和其所对应的单位符号,如数值V
基于上述任一实施例,所述将所述提取特征基于多粒度特征进行融合,得到所述多种疾病的融合特征,具体包括:
针对预测目标差异大的类别将所述提取特征直接进行向量拼接,或针对预测目标相似度高的类别采用基于权重的特征融合方法将所述提取特征进行融合,得到所述多种疾病的融合特征。
具体地,根据不同的预测目标采用不同的特征融合方法,针对预测目标差异性较大的类别可以将提取出来的特征直接进行向量拼接;针对预测目标相似度较高的类别采用基于权重的特征融合方法,具体描述如下:
将提取出来的特征直接进行向量拼接,公式可以表示为:
其中,e
基于权重的特征融合方法,公式可以表示为:
首先针对每一类特征根据其在此类特征中的重要性分别设置了不同的权重。例如设置4个权重,计算公式可以表达为:
其中,e
其次,通过结合上述公式中得出的权重和特征向量计算出基于权重的特征值。
其中,CE
根据上述内容将基于权重的概念特征、词特征、概念关系特征和属性-值特征融合作为并行自适应卷机神经网络的输入来训练疾病预测模型。
基于上述任一实施例,所述获取并行自适应卷积神经网络模型,将所述多种疾病的融合特征输入至所述并行自适应卷积神经网络模型进行训练,得到所述疾病预测模型,具体包括:
根据所述概念关系特征和所述属性与值特征的不同将句子分割成不同部分提取所述句子包含的语义信息;
将所述语义信息与所述概念特征和所述词特征进行融合训练所述并行自适应卷积神经网络模型,并在卷积层采用dropout操作,以及采用zero padding保持所述句子的有效性,得到所述疾病预测模型。
具体地,采用并行自适应卷机神经网络来训练疾病预测模型,具体公式如下:
卷积层:有句子s
c
其中
并行自适应池化层:首先根据概念关系和属性-值特征的不同将句子分割成不同的部分,并行的学习两种特征。
概念关系特征,将句子根据概念对的位置将c
属性值特征,将句子根据概念的位置将c
最后,将提取出来的概念关系、属性-特征和概念、词特征相结合,结果放入并行自适应卷机神经网络的分类层中,通过softmax分类器来产生最后的疾病类型的分类结果。基于不同的特征融合方法,分类器产生的结果公式如下:
(1)将提取出来的特征直接进行向量拼接:
O=softmax(W
r
其中,e
(2)基于权重的特征融合方法:
D=softmax(W
r
其中,CE
下面对本发明实施例提供的基于多粒度特征融合的疾病预测系统进行描述,下文描述的基于多粒度特征融合的疾病预测系统与上文描述的基于多粒度特征融合的疾病预测方法可相互对应参照。
图3是本发明实施例提供的一种基于多粒度特征融合的疾病预测系统的结构示意图,如图3所示,包括:获取模块31和处理模块32;其中:
获取模块31用于获取基于待预测疾病的融合特征;处理模块32用于将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的。
本发明实施例通过采用多粒度特征融合的预测方法,不仅采用细粒度的词和概念特征,同时采用更大粒度的概念关系和属性-值特征来充分的理解医疗文本中的语义信息,提高模型疾病预测的性能。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行基于多粒度特征融合的疾病预测方法,该方法包括:获取基于待预测疾病的融合特征;将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于多粒度特征融合的疾病预测方法,该方法包括:获取基于待预测疾病的融合特征;将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于多粒度特征融合的疾病预测方法,该方法包括:获取基于待预测疾病的融合特征;将所述融合特征输入至训练得到的疾病预测模型,得到疾病类型的分类结果;其中,所述疾病预测模型是基于并行自适应卷积神经网络模型,由多种疾病的融合特征进行训练所得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
机译: 基于多个时间序列属性元素深度特征的严重小麦疾病预测方法
机译: 分离的多肽,融合蛋白,核酸序列,表达载体或病毒,重组细胞,产生可溶性胞外域多肽或融合蛋白或其片段的方法,药物组合物,单克隆抗体或其多克隆或抗原结合片段的用途,使用抗体或抗原结合片段,使用任何分离的多肽,调节细胞因子的方法,诱导t细胞扩增,促进细胞免疫抗原特异性t并促进cd4 +和/或cd8 + t细胞活化受试者,在患者中增强继发于抗原的免疫应答的方法,使用以下至少一种的方法:分离的多肽,用于治疗或预防与免疫系统有关的病症的方法,用于治疗或预防传染病的方法,用于诊断受试者疾病的方法,产生可溶性胞外域多肽tmem25,vsig10,ly6g6f或其融合蛋白或片段的方法
机译: 基于随机的森林基于森林的预测方法和道路表面条件系统使用时空特征