法律状态公告日
法律状态信息
法律状态
2023-02-24
公开
发明专利申请公布
技术领域
本发明涉及机器学习领域,具体涉及一种基于机器学习算法的精神性脑疾病预测模型建立方法。
背景技术
以精神分裂症、抑郁症为代表的精神疾病均具有很高的发病率、致残率和致死率;但是目前,对精神疾病的评估还主要依靠临床医生的经验和量表调查,尚缺乏客观的评估方法。
专利申请CN112037911A公开了一种基于机器学习的精神评估的筛查系统及其训练方法,其中,基于机器学习的精神评估的筛查系统的训练方法包括第一分类模型的训练和第二分类模型的训练两个步骤,第一分类模型的训练从第一样本数据中选取第一有效样本数据和选取多个特征项作为第一特征项列表,构建第一特征数据集并利用第一特征数据集去训练和测试第一分类模型,将性能最优的第一分类模型的M个特征项作为第二特征项列表;第二分类模型的训练从第二样本数据选取第二有效样本数据,构建第二特征数据集并利用第二特征数据集训练和测试第二分类模型;并且选出性能最优的第二分类模型和对应的L个特征项。该发明采用单一的特征提取对抑郁症进行识别,不具有对精神性脑病泛化评估。
发明内容
为了克服上述现有技术存在的缺陷,本发明的目的在于提出一种基于机器学习算法的精神性脑疾病预测模型建立方法,首先基于组信息指导的独立成分分析(GIG-ICA)方法构建被试的全脑功能连接向量;在此基础上,采用生成式对抗神经网络(GAN)构建模拟的全脑功能连接向量,以解决影像数据的“小样本”问题;最后,基于多层特征选择,从真实和模拟的全脑功能连接向量中选择对脑疾病预测评估具有高判别性的特征,构建脑疾病预测模型,提高精神性脑疾病临床预测评估的准确性。
为了达到上述目的,本发明采用的技术方案为:
一种基于机器学习算法的精神性脑疾病预测模型建立方法,基于组信息指导的独立成分分析(GIG-ICA)方法提取脑功能网络;在此基础上,采用生成式对抗神经网络(GAN)生产模拟的全脑功能连接向量;最后,基于多层特征选择,从真实和模拟的全脑功能连接向量中选择对脑疾病预测具有高判别性的特征,构建脑疾病预测模型。
所述基于机器学习算法的精神性脑疾病预测模型建立方法,具体包括以下步骤:
步骤1、采用GIG-ICA方法提取脑功能网络;
步骤2、基于步骤1提取的脑功能网络,采用生成式对抗神经网络GAN生成模拟的全脑功能连接向量;
步骤3、基于多层特征选择,从真实和模拟的全脑功能连接向量中选择对脑疾病预测具有高判别性的特征,构建脑疾病预测模型。
所述步骤1的具体方法为:
使用GIG-ICA从fMRI数据中提取多个独立成分(IC),其中每个 IC都可以视为一个网络节点;通过计算IC之间的相关性,构建全脑功能连接矩阵,以提取每个被试的全脑功能连接向量
设S=(S
s.t.||W
其中,W
采用线性加权法,求解此多目标函数得到
s.t.||W
其中,权重系数α调节IC的独立性和估计信号与参考信号之间的相似性,利用梯度下降法根据
所述步骤2的具体方法为:
采用GAN生成多个模拟的全脑功能连接向量
GAN由生成器(G)和判别器(D)组成,其中生成器G(x;θ)通过学习真实数据的分布P
步骤3、将步骤1提取的真实数据
(1)选择单变量的过滤法为第一层特征选择;考虑自变量本身与目标变量之间的相关性对特征进行排序,即方差分析对特征进行第一层选择;首先设定一个阈值,计算每个特征的方差,选择超出阈值的特征作为第一个特征子集;
(2)选择多变量的过滤法为第二层特征选择;使用最小冗余最大相关(mRMR)算法对特征进行第二层选择;用互信息作为相关性度量函数,依次搜索与类别最大相关且与其余特征之间冗余度最小的特征构成第二个特征集合;
两个特征变量的互信息表示为:
其中x和y为特征变量;p(x)和p(y)为相应变量的边际概率分布; p(x,y)是联合概率分布;
给定候选特征变量,特征与类别标签的最大相关定义式如下:
特征之间的最小冗余定义式如下:
其中L为特征集合;f
mRMR特征选择算法的评价函数如下:
max J(D,R),J=D-R
以上方程可以通过逐渐增加单个变量来求解,设L为特征全集,假设目前已经选择了t个特征,记为L
(3)选择包裹法作为第三层特征选择;使用基于支持向量机的递归特征消除算法(SVM-RFE)进行第三层特征选择;所述基于支持向量机的递归特征消除算法(SVM-RFE)为二值分类器;SVM-RFE算法的输入为:
a)初始化训练数据集:
b)初始化特征集L={1,2,...,F},特征排序集Rank=[]
c)循环以下步骤直到将特征集L=[];
d)使用
e)使用排序公式
f)更新特征排序集R=[F
g)循环结束,输出选择的特征;
(4)将第(3)步每一层特征被选择的次数进行降序排列,根据权重分布特点删除权重最小的特征,最终实现特征降维。
本发明具有如下有益效果:
本发明从患者的静息态功能磁共振成像数据出发,将机器学习算法和医学影像技术相结合,提出一种高性能的脑疾病预测模型建立方法,基于多层特征选择,从真实和模拟的全脑功能连接向量中选择对脑疾病预测评估具有高判别性的特征,构建脑疾病预测模型,提高精神性脑疾病临床预测评估的准确性。其具体发明效益如下:
(1)本发明首先使用GIC-ICA提取脑网络,构建功能连接矩阵提取特征数据集,再采用GAN对特征进行扩展。与传统机器学习分析评估精神性脑病方法相比,本发明采用的特征提取方法可以在建立被试独立成分之间的对应性的同时保证其个体的独立性,采用的特征生成的方法可以有以有效克服小样本问题,这可以有效的提升精神疾病评估精度和模型泛化能力。
(2)目前,大多的精神疾病学习模式检测方面在分类之前都会采用特征选择,但一般只采用一种方法进行特征选择,没有充分考虑到单一的特征选择算法可能会漏掉一些优秀特征或者没能去除干扰特征,而这会极大的影响后续的疾病评估的精度。因此,本发明提出了一种基于机器学习算法的精神性脑疾病预测模型建立方法,通过方差分析、mRMR、SVM-RFE分别针对自变量即特征变量本身与目标变量的相关性、特征与特征之间的冗余性、特征和后续分类器的相关性进行特征选择,提高模型泛化能力和模型收敛速度。
附图说明
图1为本发明一种基于机器学习算法的精神性脑疾病预测模型建立方法发明内容框架图。
图2为本发明一种基于机器学习算法的精神性脑疾病预测模型建立方法程序框图。
图3为生成式对抗网络原理图。
具体实施方式
下面结合附图对本发明进行进一步详细说明。
结合图1、图2,本发明的一种基于机器学习算法的精神性脑疾病预测模型建立方法,包括以下三个步骤:
步骤1、针对采集到的fMRI数据,首先对磁共振数据进行预处理,通过GIG-ICA提取脑功能网络,具体方法为:
使用GIG-ICA从fMRI数据中提取多个独立成分(IC),其中每个 IC都可以视为一个网络节点;通过计算IC之间的相关性构建全脑功能连接矩阵,以提取每个被试的全脑功能连接向量
典型的ICA算法是利用源信号的独立性,通过一组观测信号进行线性变化估计出独立成分。设S=(S
s.t.||W
其中,W
采用线性加权法,求解此多目标函数得到
s.t.||W
其中,权重系数α调节IC的独立性和估计信号与参考信号之间的相似性,利用梯度下降法根据
步骤2、在步骤1中,每个被试的fMRI数据只能提取一个全脑功能连接向量,由于数据集的小样本问题,提取全脑功能连接向量数量较少,不利于构建泛化能力强的评估模型;因此,使用GAN对矩阵M进行的样本数进行扩增生成新的全脑功能连接向量矩阵
GAN由生成器(G)和判别器(D)组成,其中生成器G(x;θ)通过学习真实数据的分布P
步骤3、将步骤1提取的真实数据
(1)选择单变量的过滤法为第一层特征选择;考虑自变量本身与目标变量之间的相关性对特征进行排序,即方差分析对特征进行第一层选择;首先设定一个阈值,计算每个特征的方差,选择超出阈值的特征作为第一个特征子集;
(2)选择多变量的过滤法为第二层特征选择;使用最小冗余最大相关(mRMR)算法对特征进行第二层选择;用互信息作为相关性度量函数,依次搜索与类别最大相关且与其余特征之间冗余度最小的特征构成第二个特征集合;
两个特征变量的互信息表示为:
其中x和y为特征变量;p(x)和p(y)为相应变量的边际概率分布; p(x,y)是联合概率分布;
给定候选特征变量,特征与类别标签的最大相关定义式如下:
特征之间的最小冗余定义式如下:
其中L为特征集合;f
mRMR特征选择算法的评价函数如下:
max J(D,R),J=D-R
以上方程可以通过逐渐增加单个变量来求解,设L为特征全集,假设目前已经选择了t个特征,记为L
(3)选择包裹法作为第三层特征选择;使用基于支持向量机的递归特征消除算法(SVM-RFE)进行第三层特征选择:
所述基于支持向量机的递归特征消除算法(SVM-RFE)为二值分类器;SVM-RFE算法的输入为:
a)初始化训练数据集:
b)初始化特征集L={1,2,...,F},特征排序集Rank=[]
c)循环以下步骤直到将特征集L=[];
d)使用
e)使用排序公式
f)更新特征排序集R=[F
g)循环结束,输出选择的特征;
(4)将第(3)步每一层特征被选择的次数进行降序排列,根据权重分布特点删除权重最小的特征,最终实现特征降维。
机译: 基于脑核磁共振图像多维纹理的预测模型建立方法
机译: 基于机器学习心脏病预测模型建筑方法的心脏病预测模型建筑装置用机器学习方法和计算机程序建立的模型输出心脏病的心脏病测量装置,用于执行方法
机译: 用于治疗和预防源自胚胎神经组织或速冻胎儿脑农用有蹄类动物的动脉粥样硬化蛋白-肽复合物(以下称BOD),可影响胆固醇从血管壁的反向转运以及患者单核细胞的活化情况患有严重动脉粥样硬化主血管或易患心血管疾病的人,以及一种预防和治疗因脑,心脏,下肢血管和主动脉的主动脉和外周血管粥样硬化而引起的动脉粥样硬化和动脉疾病的方法(两个选项)