首页> 中国专利> 一种基因表达数据分类方法及分类系统

一种基因表达数据分类方法及分类系统

摘要

本申请公开了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。

著录项

  • 公开/公告号CN105825081A

    专利类型发明专利

  • 公开/公告日2016-08-03

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN201610246971.3

  • 申请日2016-04-20

  • 分类号G06F19/24(20110101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人常亮

  • 地址 215123 江苏省苏州市工业园区仁爱路199号

  • 入库时间 2023-06-19 00:11:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-09-14

    授权

    授权

  • 2016-08-31

    实质审查的生效 IPC(主分类):G06F19/24 申请日:20160420

    实质审查的生效

  • 2016-08-03

    公开

    公开

说明书

技术领域

本申请涉及基因分类技术领域,更具体地说,涉及一种基因表达数据分 类方法及分类系统。

背景技术

利用DNA微阵列计数可以同时测定成千上万维基因的表达数据,这些表 达数据能够帮助研究人员研究生物的本质。但是在大量的基因表达数据中, 只有很少量的基因表达数据是研究人员的研究客体,以癌症基因的研究为例, 癌症基因的表达数据样本通常少于一百,而在大量的基因表达数据中对癌症 基因与其他基因进行分类就需要耗费大量的计算资源和计算时间。

有研究人员利用支持向量机递归特征消除(SupportVectorMachine RecursiveFeatureElimination,SVM-RFE)算法可以自动消除大量的基因表达 数据中的冗余基因(即对基因分类没用贡献的基因),以实现从大量的基因 表达数据中找出目标基因的目的。

但是SVM-RFE算法仍然需要对大量的基因表达数据进行特征选择处理, 需要占用大量的计算资源并且耗费大量的计算时间。

发明内容

为解决上述技术问题,本发明提供了一种基因表达数据分类方法及分类 系统,以解决对基因表达数据进行分类需要占用大量的计算资源并且耗费大 量的计算时间的问题。

为解决上述技术问题,本发明实施例提供了如下技术方案:

一种基因表达数据分类方法,包括:

获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一 训练集中包含基因表达数据;

采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的 聚类集合,每个所述聚类集合具有一个聚类中心;

利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代 表基因为每个所述聚类集合中的一个基因表达数据;

对所述第二样本矩阵进行处理获得第二训练集;

生成与所述第二训练集对应的特征索引集;

对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应 的有顺序的特征索引集;

在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练 集;

对所述第三训练集进行建模,获得模型函数;

根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因 表达数据进行分类,获得待测基因表达数据的分类结果。

优选的,所述第一预设参数的设定方式为:

采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时 对应的值作为所述第一预设参数,其中N为5、10或20。

优选的,所述采用聚类算法对所述基因特征数据集进行聚类,获得第一 预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,包括:

采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设 参数个的聚类集合,每个所述聚类集合具有一个聚类中心。

优选的,所述代表基因通过公式生成;

其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因, mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中 的基因表达数据;

其中,所述第二样本矩阵为其中,R表示实数集, N表示所述第一训练集中的样本总个数。

优选的,根据所述特征索引集、有顺序的特征索引集和所述模型函数对 待测基因表达数据进行分类,获得待测基因表达数据的诊断结果包括:

根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第 一次特征选择后的样本;

根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的 前第二预设参数个特征组成第二次特征选择后的样本;

将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函 数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。

一种基因表达数据分类系统,包括:

特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特 征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特 征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具 有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵, 其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第 二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索 引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对 应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参 数个特征组成第三训练集;

训练模块,用于对所述第三训练集进行建模,获得模型函数;

诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型 函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。

优选的,所述特征选择模块包括:

预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行 预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;

第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进 行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10 或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预 设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集 合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代 表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集, 同时生成与所述第二训练集对应的特征索引集;

第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序 的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征 索引集中选取前第二预设参数个特征组成第三训练集。

优选的,所述第一特征选择单元用于采用N折交叉验证法对所述基因特 征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N 为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获 得第一预设参数个聚类中心和第一预设参数个聚类集合,在每个聚类集合中 选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基 因生成第二样本矩阵,并取所述第二样本矩阵的每一列x′i组成所述第二训练 集其中,x′i∈RK

优选的,所述代表基因通过公式生成,其中, Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第 k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达 数据;

其中,所述第二样本矩阵为其中R表示实数集,N 表示生成所述第一训练集中的样本总个数。

优选的,所述诊断模块包括:

第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行 特征选择,获得第一次特征选择后的样本;

第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征 选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;

诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中, 获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数 据的分类结果。

从上述技术方案可以看出,本发明实施例提供了一种基因表达数据分类 方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征 数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设 参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二 训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据 之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征 选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述 基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很 少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用 的计算资源和耗费的计算时间都较少。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请的一个实施例提供的一种基因表达数据分类方法的流程示 意图;

图2为本申请的另一个实施例提供的一种基因表达数据分类方法的流程 示意图;

图3为本申请的一个实施例提供的一种基因表达数据分类系统的结构示 意图;

图4为本申请的一个实施例提供的一种特征选择模块的结构示意图;

图5为本申请的一个实施例提供的一种诊断模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请的一个实施例提供了一种基因表达数据分类方法,如图1所示,包 括:

S101:获取第一训练集,利用所述第一训练集生成基因特征数据集,所 述第一训练集中包含基因表达数据。

需要说明的是,所述第一训练集中的基因表达数据通过DNA微阵列技术 获取。

但在本申请的其他实施例中,还可以通过其他技术或者设备获取基因表 达数据,本申请对获取基因表达数据所采用的方法或装置并不做限定,具体 视实际情况而定。

在本申请的一个具体实施例中,通过DNA微阵列技术获取基因表达数据 构成第一训练集其中,xi是所述第一训练集中的基因表达数据, xi∈RD,xi为所述第一训练集中的基因表达数据,yi是xi的标签,表明xi的类 别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训 练集中样本的维数,R代表实数集。对所述第一训练集进行预处理,生成所述 第一样本矩阵X=[x1,…,…,xN],…,xN],该矩阵的每一列为所述第一训练集的一个样本,取 所述第一样本矩阵的每一行,即gj=(Xj)T,j=1,…,D,形成所述基因特征数 据集gj∈RN

S102:采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参 数个的聚类集合,每个所述聚类集合具有一个聚类中心。

其中,每个聚类集合中包含所述基因特征数据集中相似的基因表达数据, 每个聚类集合都具有一个聚类中心,每个聚类集合的聚类中心由该聚类集合 中的所有基因表达数据计算得来。在本申请的一个实施例中,每个聚类集合 的聚类中心为该聚类集合中所有基因表达数据的平均值。但本申请对此并不 做限定,每个聚类集合的聚类中心还可以通过其他方式确定,具体视实际情 况而定。

需要说明的是,采用聚类算法对所述基因特征数据集进行聚类的目的是 对基因表达数据进行降维,以降低基因表达数据之间的冗余度。

S103:利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中, 所述代表基因为每个所述聚类集合中的一个基因表达数据。

S104:对所述第二样本矩阵进行处理获得第二训练集。

其中在获得所有的所述聚类集合的代表基因后,利用所有的所述聚类集 合的代表基因组成所述第二样本矩阵,取所述第二样本矩阵的每一列组成所 述第二训练集。

S105:生成与所述第二训练集对应的特征索引集。

S106:对所述第二训练集进行特征排序,获得与所述排序后的第二训练 集对应的有顺序的特征索引集。

需要说明的是,在本申请的一个实施例中,采用SVM-RFE算法对所述第 二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特 征索引集。

S107:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第 三训练集。

其中,所述第二预设参数的值小于所述第一预设参数的值。

S108:对所述第三训练集进行建模,获得模型函数。

在本申请的一个实施例中,采用支持向量机分类器对所述第三训练集进 行建模,获得模型函数。

S109:根据所述特征索引集、有顺序的特征索引集和所述模型函数对待 测基因表达数据进行分类,获得待测基因表达数据的分类结果。

需要说明的是,所述待测基因与所述第一训练集在同一次的基因表达数 据的采集过程中获得。

在上述实施例的基础上,在本申请的一个优选实施例中,如图2所示, 所述基因表达数据分类方法包括:

S201:获取基因表达数据构成的第一训练集,对所述第一训练集进行预 处理,生成所述第一样本矩阵,取所述第一样本矩阵的每一行形成所述基因 特征数据集。

S202:采用N折交叉验证法对所述基因特征数据集进行处理,将识别率 最大时对应的值作为所述第一预设参数,其中N为5或10或20;利用K-means 聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合, 每个所述聚类集合具有一个聚类中心。

在本实施例中,所述第一预设参数的设定方式为:

采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时 对应的值作为所述第一预设参数,其中N为5、10或20。在本申请的一个优 选实施例中,N优选为10。

S203:利用所有的所述聚类集合的代表基因生成第二样本矩阵,所述代 表基因通过公式获得,所述第二样本矩阵 为

其中R表示实数集,N表示所述第一训练集中的样本总个数,Gk表示第 k个聚类集合,表示所述第k个聚类集合的代表基因,||||2表示取范数运算, 下标表示范数类型为欧几里得范数;mk表示第k个聚类中心,K表示所述第 一预设参数;gi表示所述聚类集合中的基因表达数据。

S204:取所述第二样本矩阵的每一列组成第二训练集。

S205:生成与所述第二训练集对应的特征索引集。

S206:选取N折交叉验证法对所述基因特征数据集进行处理的过程中最 高识别率时特征基因的集合的大小作为所述第二预设参数的值,采用 SVM-RFE方法对所述第二训练集进行特征排序,得到一个与所述排序后的第 二训练集对应的有顺序的特征索引集;

S207:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第 三训练集。

S208:采用支持向量机分类器对所述第三训练集进行建模,获得模型函 数。

S209:根据所述特征索引集对所述待测基因的表达数据进行特征选择, 获得第一次特征选择后的样本。

其中,所述待测基因与所述第一训练集中的基因表达数据通过同一次 DNA微阵列技术采集获得。

S210:根据所述有顺序的特征索引集,选择所述第一次特征选择后的样 本中的前第二预设参数个特征组成第二次特征选择后的样本。

S211:将所述第二次特征选择后的样本输入所述模型函数中,获得所述 模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类 结果。

在上述实施例的基础上,在本申请的一个具体实施例中,在乳腺癌数据 集上对本申请实施例提供的基因表达数据分类方法进行了测试,所述乳腺癌 数据集包括97名患者样本,属于两个类别。每个样本都有24481个基因表达 数据。所述第一训练集包括78个患者样本,其中34个是在至少5年内的癌 细胞转移的患者(标记为“旧病复发”),其余44个样本是从患者初步诊断 为至少5年后仍健康的患者(标记为“非复发”)。相应地,待测基因样本 中包括12个“旧病复发”患者样本和7个“非复发”患者样本。

具体测试步骤如下:

通过DNA微阵列技术获取所述乳腺癌数据集中的基因表达数据构成第 一训练集其中,xi为构成所述第一训练集的基因表达数据,xi∈RD, yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的 总个数,D代表所述第一训练集中样本的维数,R代表实数集。这里N=97, D=24481。

对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN],该矩 阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行, 即gj=(Xj)T,j=1,…,24481,形成所述基因特征数据集gj∈R97

确定聚类中心数目为第一预设参数K,此处K=80(通过10折交叉验证法 选定),采用K-means聚类算法对所述基因特征数据集进行聚类,获 得80个聚类中心mk和80个聚类集合Gk,k=1,…,K。

在每个聚类集合中选取一个基因表达数据作为该聚类集合的代表基因, 所述代表基因的选取公式为:其中,||||2表示取 范数运算,下标表示范数类型为欧几里得范数,Gk表示第k个聚类集合,表 示所述第k个聚类集合的代表基因,mk表示第k个聚类中心。生成所述样本 矩阵其中N表示训练集中训练样本的总个数。取所述 样本矩阵X'的每一列作为x′i,组成所述第二训练集其中x′i∈R80, 同时生成与所述第二训练集对应的特征索引集|F|=80。

确定第二预设参数的值d,所述第二预设参数d(d<80)的值为采用10折 交叉验证法对所述基因特征数据集进行处理的过程中,最高识别率时特征基 因的集合的大小。采用SVM-RFE方法对所述第二训练集进行特征排 序,得到一个有顺序的特征索引集|F'|=80。在所述有顺序的 特征索引集中选取前d个特征组成第三训练集其中x″i∈Rd,在本实施 例中,d=37。

采用支持向量机分类器对所述第三训练集进行建模,获得模型函 数f(x″)。

令待测基因表达数据(在本实施例中为癌症基因表达数据)为x,其中 x∈R24481

根据所述特征索引集F对所述待测基因x(x∈RD)的表达数据进行特征 选择,获得第一次特征选择后的样本x′(x′∈RK);

根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中 的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈Rd);

将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中,获得所述 模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类 结果。

采用相同的上述测试过程对本申请实施例提供的基因表达数据分类方法 与SVM-RFE(SVM-RecursiveFeatureElimination)算法以及 MRMR+SVM-RFE(minimalredundancy-maximalrelevance+SVM-Recursive FeatureElimination)算法在相同的乳腺癌数据集上进行对比实验。随机选取78 个训练样本10次,表1给出了上述三种方法各自获得的最好平均分类性能时 的对比。

表1SVM-RFE,MRMR+SVM-RFE和本申请提供的基因表达数据分类方法最好分 类性能的对比

通过表1的对比可以发现,本申请实施例提供的基因表达数据分类方法 比其他两种算法在各项参数上都有较大提升,且大大降低了时间消耗。

相应的,本申请实施例还提供了一种基因表达数据分类系统,如图3所示, 包括:

特征选择模块A10,用于获取第一训练集,利用所述第一训练集生成基 因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基 因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集 合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩 阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所 述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特 征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练 集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预 设参数个特征组成第三训练集;

训练模块A20,用于对所述第三训练集进行建模,获得模型函数;

诊断模块A30,用于根据所述特征索引集、有顺序的特征索引集和所述 模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。

需要说明的是,在本实施例中,所述待测基因表达数据与所述第一训练 集采用生物微阵列技术在同一次采集中获得。

所述基因表达数据分类系统在获得所述基因特征数据集之后,采用聚类 算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类集合,每个 所述聚类集合具有一个聚类中心,然后对所述聚类集合进行处理获得第二样 本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低 基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训 练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚 类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计 算时间都很少,从而大大降低了对待测基因表达数据进行分类占用的计算资 源和耗费的计算时间。

在上述实施例的基础上,在本申请的一个实施例中,如图4所示,所述特 征选择模块A10包括:

预处理单元A11,用于获取基因样本的第一训练集,对所述第一训练集 进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;

第一特征选择单元A12,用于采用N折交叉验证法对所述基因特征数据 集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5 或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第 一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚 类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合 的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训 练集,同时生成与所述第二训练集对应的特征索引集;

第二特征选择单元A13,用于对所述第二训练集进行特征排序,获得有 顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的 特征索引集中选取前第二预设参数个特征组成第三训练集。

需要说明的是,在本实施例中,所述预处理单元A11通过DNA微阵列技术 获取基因表达数据的第一训练集其中,xi表示所述第一训练集中的 基因表达数据,xi∈RD,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表 所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代 表实数集。对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN], 该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一 行,即gj=(Xj)T,j=1,…,D,形成所述基因特征数据集gj∈RN

在本实施例中,采用K-means聚类算法对所述基因特征数据集进行聚类的 目的是对基因表达数据进行降维,以降低基因表达数据之间的冗余度。

在上述实施例的基础上,在本申请的另一个实施例中,所述第一特征选 择单元A12用于采用N折交叉验证法对所述基因特征数据集进行处理,将识 别率最大时对应的值作为所述第一预设参数K,其中N为5或10或20;

采用K-means聚类算法对所述基因特征数据集进行聚类,获得K个聚类 中心mk和K个聚类集合Gk,k=1,…,K。

在每个聚类集合中选取一个基因作为该聚类集合的代表基因,所述代表 基因的生成公式为:其中,Gk表示第k个聚类集 合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表 示所述第一预设参数。生成所述样本矩阵其中N表示训 练集中训练样本的总个数。取所述样本矩阵X'的每一列为x′i,组成所述第二 训练集其中x′i∈RK,同时生成与所述第二训练集对应的特征索引集 |F|=K。

需要说明的是,在本申请的一个优选实施例中,采用10折交叉验证法对 所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设 参数。但本申请对此并不做限定,具体视实际情况而定。

在上述实施例的基础上,在本申请的又一个实施例中,所述第二预设参 数d(d<K)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过 程中,最高识别率时特征基因的集合的大小。在本申请的一个优选实施例中, 采用SVM-RFE方法对所述第二训练集合进行特征排序,得到一个有顺 序的特征索引集|F'|=K。在所述有顺序的特征索引集中选取前d 个特征组成第三训练集其中x″i∈Rd

在上述实施例的基础上,在本申请的再一个实施例中,采用支持向量机 分类器对所述第三训练集进行建模,获得模型函数f(x″)。但本申请对所述第 三训练集进行建模所采用的具体方法并不做限定,具体视实际情况而定。

在上述实施例的基础上,在本申请的一个具体实施例中,如图5所示,所 述诊断模块A30包括:

第一选择单元A31,用于根据所述特征索引集F对所述待测基因x(x∈RD) 的表达数据进行特征选择,获得第一次特征选择后的样本x′(x′∈RK);

第二选择单元A32,用于根据所述有顺序的特征索引集F'选择所述第一次 特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样 本x″(x″∈Rd);

诊断单元A33,用于将所述第二次特征选择后的样本x″输入所述模型函数 f(x″)中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基 因表达数据的分类结果。

综上所述,本申请实施例提供了一种基因表达数据分类方法及分类系统, 其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用 聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合, 然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引 集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而 在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的 计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行 聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因 表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计 算时间都较少。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号