首页> 中国专利> 一种基于截断幂的稀疏基因表达数据分析方法

一种基于截断幂的稀疏基因表达数据分析方法

摘要

本发明公开了一种基于截断幂的稀疏基因表达数据分析方法,具体包括:对基因数据集进行预处理,包括正则化处理、利用主成分分析法确定主成分个数和结合局部迭代搜索确定主成分的基数;对经过步骤一处理的基因数据集中的基因数据进行特征提取,减少数据的干扰性并提高后续过程聚类的准确性;对数据特征被提取的基因数据进行聚类方法处理;将步骤三得到的聚类处理结果与设定的聚类精确率进行比对,并反馈调节稀疏降维的调优参数以达到最佳聚类精度。本发明解决了稀疏特征值分解问题,用于稀疏主成分分析不仅主成分的解释能力强且其运行速度快,可以很好验证稀疏主成分方法,提高了基因数据分析的高效性和精确性。

著录项

  • 公开/公告号CN104268564A

    专利类型发明专利

  • 公开/公告日2015-01-07

    原文格式PDF

  • 申请/专利权人 南京航空航天大学;

    申请/专利号CN201410472872.8

  • 发明设计人 沈宁敏;李静;周培云;

    申请日2014-09-16

  • 分类号G06K9/62(20060101);

  • 代理机构32252 南京钟山专利代理有限公司;

  • 代理人戴朝荣

  • 地址 210016 江苏省南京市秦淮区御道街29号

  • 入库时间 2023-12-17 04:02:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-10

    授权

    授权

  • 2017-10-27

    著录事项变更 IPC(主分类):G06K9/62 变更前: 变更后: 申请日:20140916

    著录事项变更

  • 2015-02-04

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20140916

    实质审查的生效

  • 2015-01-07

    公开

    公开

说明书

技术领域

本发明公开了一种基于截断幂的稀疏基因表达数据分析方法,涉及对基因表 达的数据分析技术领域。

背景技术

伴随生物医学水平的快速发展,DNA芯片(DNA microarray)的广泛应用可以 快速测量基因的表达水平。由于基因数据的分析可以用来识别癌细胞以预测某一 疾病发生的概率,对人的生活具有重大的意义。因此,基因聚类已经成为目前研 究的热门课题。

原始收集的基因数据具有属性多、样本少等特点,直接对此聚类分析其结果 往往会受到大量冗余数据的干扰,并且高维数据对传统的聚类方法也是一项挑战。 有为了克服这些缺点,不同的降维主特征提取方法被相继提出,独立成分分析 (Independent Component Analysis,ICA)可以将多维数据集分解到各自独立的 成分(ICs),消除了高阶依赖性。主成分分析(Principle Component Analysis, PCA)方法是一种经典的降维方法,可以将高维数据进行降维处理提取其主要特征 数据,它所寻求的目标是方差最大化,即属性之间的相关变化最大。但由于其自 身的线性组合缺陷导致其生成的主成分不具有可解释性,即基因数据中一个症状 不知有哪些具体的基因来决定。因此,通过在主成分的基础上对负载因子进行稀 疏化处理,可以在提取主成分的过程中考虑主成分的表达能力与负载因子的稀疏 性(Loadings),使得主成分有少量的属性决定,同时使得因子系数的非零个数小 于等于基因的个数但可表达能力比主成分分析更明显。

稀疏主成分(Sparse PCA)的求解方法有阈值、回归、能量及规划等不同类, 相比之下,能量方法在主成分分可解释度、算法的运行时间及聚类的精确性都是 非常稳定的,其中截断幂迭代法是其中的典型算法,可以很好的解决稀疏特征值 分解问题,用于稀疏主成分分析不仅主成分的解释能力强且其运行速度快,是一 种很好的特征提取方法。

将稀疏主成分分析与聚类算法结合起来对基因表达数据是一种更高效、精确 的分析方法。聚类已经成为基因表达数据分析的主要方法之一,通过类别的判断 可以快速、准确的判断疾病的发生概率。而由于基因数据本身的特点,属性多、 样本少以致在高维数据中将存在大量的冗余数据与干扰信息,直接进行聚类分析 将导致精确率不是很高。主成分分析是一种经典的降维方法,可以将高维数据映 射到低维空间,但因其结果不具有强解释力。

发明内容

本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于截断幂 的稀疏基因表达数据分析方法。利用稀疏主成分分析—截断幂方法,对数据进行 预处理提取其主要的表达数据,在负载因子中非零个数最小化的同时保证基因主 成分具有强表达能力。通过典型的基因数据集实验,将特征提取之后的基因数据 应用K-means方法进行聚类分析。

本发明为解决上述技术问题采用以下技术方案:

一种基于截断幂的稀疏基因表达数据分析方法,具体步骤包括:

步骤一、对基因数据集进行预处理,包括正则化、利用主成分分析法确定主 成分个数与结合局部迭代搜索确定主成分的基数;

步骤二、对经过步骤一处理的确定的稀疏调优参数对基因数据进行截断幂稀 疏降维与特征提取,减少数据的干扰性并提高后续过程聚类的准确性;

步骤三、对数据特征被提取的基因数据进行聚类方法处理;

步骤四、将步骤三得到的聚类处理结果与设定的聚类精确率进行比对,并反 馈调节步骤一中稀疏降维的调优参数以达到最佳聚类精度。

作为本发明的进一步优选方案,步骤一中,所述预处理的具体过程为:

设定一个基因数据集A,其样本个数为n,基因个数为p,且满足n<<p, 对数据集A进行正则化处理后得出其协方差矩阵∑,将主成分的求解模型表示 如下:

find x'=arg max xT∑x subject to xTx=1

其中,x为自变量,对应于高维数据转换为低维数据的系数,在优化求解的 过程中将不断更新,x'目标系数,即优化求解后主成分对应的最佳载荷,T表示 转置运算。

作为本发明的进一步优选方案,采用幂迭代法求解主成分的求解模型中的矩 阵特征值,其迭代求解过程为:

v1=Sv0

v2=Sv2=S2v0

·

·

·

vt=Svt-1=…=Skv0

其中,S为待求解的矩阵,vi为每次迭代过程中的更新向量,其初始值为i为迭代次数,其初始值为0,当矩阵收敛时,i的取值为t,λ为vt向量中所有 变量的最大公约数;

设定v*为待求解的特征向量,则v*经由vi同过提取公共参数λ变换得出。

作为本发明的进一步优选方案,步骤一中,所述稀疏降维处理需满足|x||0≤k, 其中,k为主成分的基数。

作为本发明的进一步优选方案,采用截断法控制稀疏度,并结合幂迭代法, 进行稀疏主成分的求解,具体过程包括:

(501)设定截断算子:

[Truncate(x,F)]j=[x]jjF0otherwise

其中,F为k个下标的集合;

(502)根据如下公式求解稀疏主成分:

λmax(Σ,k)=max xTΣx

subject to||x||2=1,||x||0≤k

求解过程具体包括:

Step1:初始化x0与迭代次数t=1,设置基数ki

Step2:计算xt=∑xt-1/||∑xt-1||,按绝对值大小获取k个xt的下标赋给Ft

Step3:计算xt'=Truncate(xt,Ft),归一化xt=xt'/||xt'||,t←t+1;

Step4:当Step3计算结果收敛时,停止计算;否则,重复Step2和Step3步。

作为本发明的进一步优选方案,步骤三中,采用K-means聚类算法进行聚 类方法处理。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明可以 很好验证稀疏主成分方法,提高了基因数据分析的高效性和精确性。

附图说明

图1是本发明的基因数据处理流程示意图。

图2是基因数据主成分个数与可解释力关系图。

图3是本发明的一个实施例中白血病数据基数与可解释关系图。

图4是本发明的一个实施例中淋巴癌数据基数与解释关系图。

图5是本发明的一个实施例中白血病数据三维可视图。

图6是本发明的一个实施例中淋巴癌数据三维可视图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

本发明的处理流程示意图如图1所示,整个过程包含数据预处理、特征提取 及聚类,由于稀疏方法的稀疏度需要人为的指定,所以中间存在一条反馈回路以 更好的调节聚类精确率与稀疏之间的关系,具体步骤如下:

步骤一、对基因数据集进行预处理,包括正则化、利用主成分分析法确定主 成分个数与结合局部迭代搜索确定主成分的基数;

步骤二、对经过步骤一处理的确定的稀疏调优参数对基因数据进行截断幂稀 疏降维与特征提取,减少数据的干扰性并提高后续过程聚类的准确性;

步骤三、对数据特征被提取的基因数据进行聚类方法处理;

步骤四、将步骤三得到的聚类处理结果与设定的聚类精确率进行比对,并反 馈调节步骤一中稀疏降维的调优参数以达到最佳聚类精度。

所述预处理的过程具体为:给定一个基因数据集A,它的样本个数为n,基 因个数为p,其中n<<p,对数据集做正则化预处理后求得其协方差矩阵∑,则主 成分的求解模型可表示如下形式:

find x'=arg max xT∑x subject to xTx=1

其中,x为自变量,对应于高维数据转换为低维数据的系数,在优化求解的 过程中不断更新,x'目标系数,即优化求解后主成分对应的最佳载荷,T表示专 转置运算。

主成分的求解方法可以有两种:对数据集A做奇异值分解A=UDV,D为数 据矩阵的奇异值矩阵,与矩阵特征值一样其大小决定主成分的提取次序,U为数 据矩阵的左奇异值向量。V为数据矩阵的右奇异值向量,即对应的系数矩阵,新 的主成分Z=UD;另一种为特征值分解,求得属性变量的协方差矩阵对其进行特 征分解,根据特征值的大小选取对应的特征向量作为负载因子。

相比传统的特征值分解法,幂迭代法是求解矩阵特征值的另一种高效的方法, 当给定一个矩阵S通过vi+1=Svi反复迭代,理论证明当其收敛时,v*为其特征向 量,v*是由vi经过提取公共参数λ变换得来的,vi为每次迭代过程中的更新向量, 初始值为其迭代过程如下所示:

v1=Sv0

v2=Sv2=S2v0

·

·

·

vt=Svt-1=…=Skv0

其中,i为迭代次数,初始值为0,当收敛时,i的取值为t,λ为vt向量中 所有变量的最大公约数。

由于PCA(Principal components analysis,主成分分析)主成分的缺陷,所 提取的主成分是原有属性的线性组合导致其结果不具有可解释性。因此在原有公 式模型的基础上对负载因子进行稀疏化处理,使得|x||0≤k,k为主成分的基数。

本发明采用截断法控制稀疏度,并结合幂迭代法,高效的进行稀疏主成分的 求解,需要首先定义一个截断算子,如下所示:

[Truncate(x,F)]j=[x]jjF0otherwise

其中,F为k个下标集合,则幂迭代与截断求解稀疏主成分的公式模型如下 所示:

λmax(Σ,k)=max xTΣx

subject to||x||2=1,||x||0≤k

其中,x为相应主成分对应的因子系数,它的求解过程如下所示:

Step1:初始化x0与迭代次数t=1,设置基数ki

Step2:计算xt=∑xt-1/||∑xt-1||,按绝对值大小获取k个xt的下标赋给Ft

Step3:计算xt'=Truncate(xt,Ft),归一化xt=xt'/||xt'||,t←t+1;

Step4:当Step3计算结果收敛时,停止计算;否则,重复Step2和Step3步。

所述特征提取与聚类具体包括:基因表达数据分析可以通过聚类来判别基因 的类别,传统的聚类方法处理如基因数据这样高维的样本集其准确性与效率都不 是非常好,同时基因表达数据虽然维度高,可其主要的数据信息只需用1-3个主 成分就可以表示,因此对数据进行特征提取可以减少数据的干扰性提高后续聚类 的准确性。当xi通过TPower方法求出后,基因特征数据z*=AX,其中X=x1…xm, m为提取主成分的个数。当数据特征被提取后,本发明采用经典的K-means聚 类算法,虽然该方法的不足之处需要指定聚类的个数,但聚类的目的是验证截断 幂方法所提取的数据是否可以更好的达到聚类效果,因此,在后续的实验中采用 经典的基因数据集,它们的类别事先可以被指定。

在本发明的一个具体实施例中,采用白血病(Le ukemia)和淋巴癌(Lymphoma) 两个基因数据集为例。在生物医学领域,这两种疾病都严重的影响人的生活。由 于医学技术的快速发展,基因数据的收集已不是难事,并且对基因数据的分类与 聚类具有广泛的意义,因此样本的个数不是唯一的。为了验证稀疏主成分分析的 高效性,实验中采用的两个基因数据是比较典型的数据集:白血病、淋巴癌。

白血病来源于造血干细胞不正常增殖或损坏影响其他组织和器官功能等。白 血病的通常分为急性淋巴细胞白血病(Acute lymphoblastic Leukemia ALL)和急性 髓细胞白血病(Acute myelogenous leukemia AML),按病变细胞的分类,淋巴细胞 又可以分为T细胞和B细胞,所以,白血病数据集大致可以分为ALL和AML 两大类,如果细分,可以分为ALL_T、ALL_B和AML三类。实验中白白血病 数据集含有38个样本和5000个基因,其中ALL有27例(ALL_B有19例,ALL_T 有8例),AML有11例。

淋巴癌又称淋巴瘤,是淋巴造血系统的恶性肿瘤,一旦疾病确诊,淋巴瘤将 分布全身,其中非霍奇金淋巴瘤(NHL)的发病率远远高于霍奇金淋巴瘤(HL)。弥 漫性大B细胞淋巴瘤(Diffuse Large B-Cell lymphoma DLBCL)和滤泡性淋巴癌 (Follicular Lymphoma FL)为常见的NHL,发病率偏高;而慢性淋巴细胞白血病 (Chronic Lymhocytic Lymphoma CLL)来源于造血组织的恶性肿瘤,虽然发展缓慢, 但如不及时治疗将很难治愈。实验中采用的淋巴癌数据集总共有62个样本和 4026个基因,其中DLBCL有42例、FL有9例及CLL有11例。

基因表达数据的实验从主成分分析入手,根据主成分的可解释能力大致确定 主成分的个数;然后通过截断幂方法对正则化后的数据进行截断稀疏,分析其提 取的基因的表达能力;最后经过负载因子的乘积进行特征提取将高维基因数据变 换成数据的主特征成分并用聚类算法对其进行聚类分析,对聚类精确率的分析以 便调节稀疏程度。实验将与主成分分析处理的结果进行对比,以验证对主成分系 数的稀疏可以更好的分析基因表达数据。

在实施主成分分析确定主成分个数时,基因数据主成分个数与可解释力关系 图如图2所示,随着主成分的个数的增加,其主成分的可解释力也来越低,当主 成分的个数超过25时,PEV的值几乎为0。因此在后续应用稀疏主成分分析提 取特征数据时,白血病数据与淋巴癌数据的主成分分个数定为10和15,其总的 可解释力分别为81.7%和66.8%。

当提取主成分的个数一旦确定,为了调节负载因子的非零个数,将截断幂方 法中基数值依次设置,基于PEV值的差异性确定因子系数的稀疏度。如图3、 图4所示,两个基因数据集的前三个主成分的非零个数的调节基本上呈上升趋势, 当达到一定的基数时PEV的值基本不变,这为主成分系数中的非零个数的确定 提供了很好的依据。

当主成分的个数与载荷的基数都确定之后,基因的主特征数据就可以用 K-means方法根据聚类的精确率评估该稀疏主成分析的特征提取的有效性。为了 更加凸显出提取的主成分分可以被用于更好的聚类,如图5、图6所示,在三个 稀疏主成分的三维空间中,根据基因样本的真实类别画出了基因数据的三维可视 图,可以看出数据通过稀疏化处理,其基因类别可以明显区分。

上述实施例的聚类实验结果可参加下表:

聚类实验结果

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述 实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下做出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号