首页> 中国专利> 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法

自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法

摘要

自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,其特征在于,该方法包括复杂基因数据的变量选择,复杂数据的分类;变量选择模块从复杂基因数据的内在关联结构出发,考虑基因之间的相互依赖性,结合系数压缩和互信息理论,对自适应弹性网的惩罚项进行加权估计,建立基于数据驱动的无模型假设的自适应变量选择方法;复杂数据的分类模块利用灰狼优化方法优化算法优化深度神经网络的结构参数,提高模型泛化能力。

著录项

  • 公开/公告号CN113241122A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 长春工业大学;

    申请/专利号CN202110650665.7

  • 申请日2021-06-11

  • 分类号G16B40/00(20190101);G06K9/62(20060101);G06N3/00(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构

  • 代理人

  • 地址 130000 吉林省长春市朝阳区延安大街2055号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明涉及生物大数据分析与变量选择技术领域,具体涉及一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法。

背景技术

在生物信息学领域,利用具有大量变量的基因数据集来预测临床结果是一项十分重要的技术。在这样的数据集中,与预测因子(基因)的数量相比,样本量往往非常小,因此导致了n

现有技术中,正则化方法是解决高维小样本数据的重要降维方法,它能够在对模型进行训练的同时对基因数据进行降维。其典型方法包括基于L1范数的Lasso,自适应Lasso,基于L2范数的岭回归。典型方法中的L1范数和L2范数惩罚函数不能同时满足无偏性、稀疏性和连续性等要求,而且传统的SCAD方法并没有将基因与基因的交互纳入考虑范围,只是单纯从基因的角度去考虑与疾病的关系,因而降低了使用SCAD方法进行基因选择和癌症分类的有效性。其次,典型的正则化方法还包括基于L1和L2范数的弹性网和自适应弹性网。然而,当将自适应弹性网应用于高维基因表达数据时,由于精度要求较低,一些重要基因可能在初始估计中被错误地赋予较小的权值。因此,容易将这些重要的基因错误地从模型中删除,导致微阵列DNA数据的信息性基因选择预测精度较低。另外,如果变量之间的成对相关性不高,自适应弹性网的性能可能不好。

同时,深度学习模型已被证明是一种强有力的分类工具,但由于n

发明内容

为解决上述问题,本发明提出一种自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,首先基于自适应弹性网方法进行变量选择,在此基础上,基于深度神经网络进行分类;具体包括如下步骤:

步骤1、基于最大相关最小共同冗余自适应弹性网方法的变量选择,包括如下子步骤:

步骤1.1利用互信息测量共同冗余,体现基因表达数据之间的内在关联和驱动特性:

癌症可能发生在人体的任何地方,值得注意的是,癌症的初期治疗要比晚期容易的多,基于基因数据的分析已经成为早期癌症鉴定的有效方法,在基因表达数据的收集过程中,由于临床受试者数目有限以及受试群体之间的异质性,导致样本数量远小于基因数目,为了进行分类,第一步便是识别出一小部分基因,这些基因是导致疾病发生的主要原因,破坏不适当的和无效的基因,提高对分类模型的理解;

在数学定义中,假定X

因此在基因数据的变量选择过程中,将基因视为自变量,受试者状态标签(有病/无病)视为响应变量,其目的在变量集中选取对标签变量起作用的相关基因,排除无关基因,选择冗余基因;

对基因数据进行变量选择时,考虑候选基因X

RI(X

乘以min{I(X

X

I(X

步骤1.2利用共同冗余信息构造最大相关最小共同冗余基因排序方法:

对于基因表达数据,每个基因基因作为载体,其中的元素表示它们在不同条件或样品中的表达值,最大相关最小共同冗余方法避免了对基因之间冗余项的过低估计,达到选择相关基因,排除无关基因,控制冗余基因的目的,考虑了目标(响应)变量的全局归一化,其表达式如下:

f(X

其中:

p(x,y)是联合分布,p(x)和p(y)是边际分布;

公式(6)作为公式(3)的扩展,使用最大公共互信息

步骤1.3最大相关最小共同冗余方法构造基因重要性:

设基因表达数据为n×p矩阵,其中,n为观测数,p为基因个数,第k,(k∈p)个基因的重要性由下式给出:

S

第k个基因的权重系数:

其中,0<η≤1为给定阈值,当S

W=diag(w

步骤1.4变量选择模型的构建:

基因表达数据的分类问题,可以抽象地表述为从训练集中学习一个判别规则,并为一个新样本分配一个类标签,对于基因表达数据,n和p分别代表样本大小和基因数目;设Y=(y

式中θ=(θ

利用包含单个基因最大相关最小共同冗余的权重矩阵,提出了自适应弹性网的以下惩罚项:

因此最大相关最小共同冗余方法的自适应弹性网(AEN-MRMCR)模型:

α∈[0,1],λ>0是正则化参数,w

自适应弹性网络采用L2惩罚和自适应L1惩罚相结合的方法来惩罚平方误差损失,与自适应弹性网相比,本文提出的模型采用基于最大相关最小共同冗余的自适应权值代替岭回归,具有最大相关最小冗余的自适应弹性网方法在基因变量自动选择过程中能够达到选择相关基因,控制冗余基因,排除无关基因的作用,具有明显的生物学意义;

步骤2、基于灰狼优化算法选择深度神经网络的结构参数,包括如下子步骤:

步骤2.1:基于灰狼算法的深度神经网络参数优化:

深度神经网络是一个多层神经网络,包含两个以上的隐含层,通过增加更多的层以及每层神经元的个数提高训练模型的专业性,但如果网络结构过于复杂可能会降低模型的泛化能力,因此,需要一种方法来确定深度神经网络模型的结构参数,以提高其泛化能力,因此,提出用灰狼优化算法优化深度神经网络的结构参数;

灰狼优化算法(Grey Wolf Optimizer,GWO)算法模拟自然界中灰狼种群等级机制和捕猎行为,通过4种类型的狼(α,β,δ,ω)来模拟社会等级;通过狼群跟踪,包围,追捕,攻击猎物等过程来模拟狼的捕猎行为,实现优化搜索目的,灰狼狩猎时需要包围猎物,包围行为的数学描述为:

D=|C·X

X(t+1)=X

其中,t为当前迭代次数;A,C为协同系数变量;X

A=2a·r

C=2·r

其中,a是收敛因子,它的分量在迭代过程中从2线性地减少到0,r

在一个抽象搜索空间中,灰狼并不知道最优解(猎物)的精确位置,为了模拟灰狼的狩猎行为,假设α(最优候选解),β和δ拥有关于猎物潜在位置的信息,因此,在每次迭代过程中,保存迄今为止获得的3个最优解,迫使其他狼根据最优搜索位置采用以下公式更新的位置:

D

D

D

X

X

X

这里A

第一步:初始化灰狼种群,每个位置由隐层数l、隐节点数n组成;

第二步:学习训练样本,以深度神经网络的预测结果的均方误差作为灰狼算法的个体适应度函数;

第三步:根据公式(19)计算灰狼算法的a,根据公式(17-18)更新A和C;

第四步:根据公式(26)更新单个狼的位置;

第五步:如果达到最大迭代次数,则返回最佳单个狼位置,否则,重复步骤三到五;

在灰狼优化算法中找到全局最优解的关键是确定适应度函数,本文利用深度神经网络的训练均方误差来计算GWO算法的适应度函数,将GWO优化与深度神经网络联系起来;

步骤2.2:深度神经网络训练误差的计算步骤如下:

第一步:初始化由权重和偏差组成的DNN参数集θ;

第二步:如果第t代灰太狼的适应度为f(l

第三步:v

第四步:将训练集按q次随机批量迭代;

第五步:使用BP算法微调θ;

第六步:使用θ计算预测值,得到训练误差e;

因此,GWO算法通过适应度函数与DNN相关联,适应度值可以反映DNN结构参数的质量,从而生成合适的预测值。

本发明的有益效果是:针对复杂基因数据的高度相关性,非线性等特点,以及现实的数据往往难以判断其分布模型,本发明方法从复杂基因数据的内在关联结构出发,考虑基因之间的相互依赖性,结合系数压缩和互信息理论,提出一种新的自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,建立基于数据驱动的无模型假设的自适应变量选择方法,该方法充分考虑基因的冗余信息,对自适应弹性网的惩罚项进行加权估计,排除无关基因,控制冗余基因,减少模型训练复杂度,为复杂的非线性基因数据的变量选择提供了一种新的思路。同时利用灰狼优化方法优化深度神经网络的结构参数,提高模型泛化能力。该方法用于基因数据变量选择和分类问题,大量节省医疗检验和决策时间,为挽救患者生命提供巨大支持。

附图说明:

图1是最大相关最小共同冗余框架示意图。

图2是最大相关最小共同冗余方法流程图。

图3是基于最大相关最小共同冗余自适应弹性网方法流程。

图4是利用灰狼优化算法优化深度神经网络结构参数流程图。

具体实施方案:

下面结合附图和实施例对本发明进一步说明本发明包括但不仅限于下述实施例。

基因数据可以看做一个纵坐标为受试个体,横坐标为其基因表达的矩阵,矩阵内的数字代表某个受试者该基因的表达量,一般用实数表示。自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法,其基本实现过程如下:

1、基于最大相关最小共同冗余自适应弹性网方法的变量选择:

在对基因表达数据进行变量选择时,首先要对数据进行最大最小标准化处理,以解决量纲对结果的影响,其表达式如下:

接着对标准化后的数据进行变量选择,在步骤1中,基于最大相关最小共同冗余的自适应弹性网方法包括如下子步骤:1.1、利用互信息测量共同冗余信息,体现基因表达数据之间的内在关联和驱动特性;1.2、利用共同冗余信息构造最大相关最小共同冗余基因排序方法,体现变量数据重要性。1.3最大相关最小共同冗余方法构造基因重要性,给出数据变量的权重矩阵。1.4利用最大相关最小共同冗余方法和自适应弹性网构建变量选择模型。

在步骤1.1中,将基因视为自变量,受试者状态标签(有病/无病)视为响应变量,其目的在自变量中选取对标签变量起作用的相关基因,如图1所示,排除无关基因,选择冗余基因。首先利用互信息方法测量共同冗余信息,定义基因X

由于现阶段的一些变量选择方法只考虑到变量与响应变量基因之间的关系,很少在对变量进行选择时,考虑下一个将要选择的变量与已经选择的变量子集S中的变量X

将冗余信息率乘以min{I(X

X

在步骤1.2中利用共同冗余信息构造最大相关最小共同冗余基因排序方法,对于基因表达数据,每个基因作为载体,其中的元素表示它们在不同条件或样品中的表达值。最大相关最小共同冗余方法避免了对基因之间冗余项的过低估计,达到选择相关基因,排除无关基因,控制冗余基因的目的,考虑了目标(响应)基因的全局归一化。如图2所示,计算基因表达数据中每个基因的重要性,其表达式如下:

f(X

其中:

p(x,y)是联合分布,p(x)和p(y)是边际分布。

当被选数据集S为空集时,选择此时互信息值最大的基因作为被选基因,此时被选基因的互信息为其重要性值,并将其放入被选数据集S中。当被选数据集S不为空集时,按照公式(4)计算基因重要性值。

公式(6)作为公式(3)的扩展,使用最大公共互信息

在步骤1.3中,使用最大相关最小共同冗余方法构造基因重要性,则第k个基因的重要性由下式给出:

S

定义第k个基因的权重系数:

其中,0<η≤1为给定阈值。当S

W=diag(w

在多项式稀疏group lasso模型中,没有给出权值的计算及其意义,自适应lasso的权值采用初始一致性估计,自适应弹性网的权值采用初始弹性网估计。上述方法给出的权重虽然具有明确的统计意义,可以全面地用于评价基因的重要程度,但不能说明明显的生物学意义。本文提出的适应性基因选择策略具有生物学意义。

在步骤1.4中,如图3所示,考虑到数据集中不同基因间的信息关联,对弹性网的L1和L2惩罚项进行加权估计,可以在一定程度上提高基因选择的预测精度。

基因表达数据的分类问题,可以抽象地表述为从训练集中学习一个判别规则,并为一个新样本分配一个类标签。对于基因表达数据,n和p分别代表样本大小和基因的数目。设Y=(y

式中θ=(θ

利用包含单个基因条件互信息的权重矩阵,提出了自适应弹性网的以下惩罚项:

提出了带最大相关最小共同冗余方法的自适应弹性网(AEN-MRMCR)模型:

α∈[0,1],λ>0是正则化参数,w

2、基于灰狼优化算法选择深度神经网络的结构参数:

由于基因表达数据具有高维小样本特性,使用步骤1对数据进行变量选择后,需要使用预测器对数据进行分类,以协助临床诊断。如图4所示,本发明提供一种灰狼优化深度神经网络结构参数的分类方法,其基本实现过程如下:

在步骤2中,基于灰狼优化算法选择深度神经网络的结构参数包括如下子步骤:2.1、基于灰狼算法的深度神经网络参数优化,初始化参数,构建灰狼优化的适应度函数。2.1、深度神经网络训练误差,在于将灰狼优化方法与深度神经网络通过误差函数进行连接。

在步骤2.1中:基于灰狼算法的深度神经网络参数优化步骤为:

第一步:初始化灰狼种群。每个位置由隐层数l、隐节点数n组成;

第二步:学习训练样本,以深度神经网络的预测结果的均方误差作为灰狼算法的个体适应度函数;

第三步:计算灰狼算法的a,更新A和C;

第四步:根据A和C更新单个狼的位置;

第五步:如果达到终止条件,则返回最佳个人位置,否则,重复步骤三到五;

在灰狼优化算法中找到全局最优解的关键是确定适应度函数,本文利用深度神经网络的训练均方误差来计算GWO算法的适应度函数;

在步骤2.2:深度神经网络训练误差的计算步骤如下:

第一步:初始化由权重和偏差组成的DNN参数集θ;

第二步:如果第t代灰太狼的适应度为f(l

第三步:v

第四步:将训练集按q次随机批量迭代;

第五步:使用BP算法微调θ;

第六步:使用θ计算预测值,得到训练误差e;

因此,GWO算法通过适应度函数与DNN相关联。适应度值可以反映DNN结构参数的质量,从而生成合适的预测值。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号