首页> 中文学位 >基因分类及基因表达数据分析方法的研究
【6h】

基因分类及基因表达数据分析方法的研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章绪论

1.1研究背景

1.2基因芯片或基因微阵列

1.3基因芯片或微阵列的应用

1.4本文主要工作

1.5本文的内容安排

第2章常用基因分类算法概述

2.1基因分类模型

2.2数据预处理

2.2.1阈值化

2.2.2 过滤

2.3特征提取技术

2.3.1主成分分析

2.3.2独立分量分析

2.3.3信噪比

2.3.4熵

2.3.5信息增益

2.4性能指标

2.5几种常用的基因分类算法

2.5.1 SVM

2.5.2 Na(i)ve Bayes算法

2.5.3 KNN

2.6基因分类算法性能评价

2.7结论

第3章基于蚁群算法的基因选择方法

3.1引言

3.2蚁群算法

3.2.1蚁群算法原理

3.2.2基本蚁群算法简介

3.3基于改进的蚁群优化算法的基因选择

3.3.1基因选择概述

3.3.2模型的建立

3.3.3算法描述

3.4实验分析

3.4.1参数分析

3.4.2对比实验

3.5结论

第4章基于遗传算法的基因聚类

4.1引言

4.2基于ICA的基因聚类

4.2.1 ICA概述

4.2.2基于ICA的基因聚类算法

4.3基于遗传算法的基因聚类

4.3.1累计量

4.3.2遗传算法的基因聚类可行性分析

4.3.2基于遗传算法的盲基因聚类算法

4.3.3算法描述

4.4算法性能分析与仿真实验

4.5结论

第5章一种改进的基因表达数据分类方法

5.1引言

5.2基于SVM-KNN分类算法的基因表达数据分类

5.2.1 SVM分类算法

5.2.2 KNN分类算法

5.2.3基于SVM-KNN算法的基因表达数据分类

5.3基于相关性的RFE算法

5.3.1 RFE算法

5.3.2基于相关性的RFE算法

5.4实验分析

5.4.1实验数据

5.4.2实验结果与分析

5.5结论

第6章基于多分类器组合模型的基因分类算法

6.1引言

6.2组合多分类器概述

6.3度量级信息计算方法

6.3.1相似度

6.3.2混淆距阵及后验概率

6.4一种新的多分类器组合模型

6.4.1模型说明

6.4.2模型实现

6.4.3算法描述

6.5实验分析

6.6结论

第7章识别具有显著功能注释关联的共表达基因集合

7.1引言

7.2方法和系统设计

7.3 SigClust所采用的相关性测量标准

7.4分析基因集合的功能注释信息

7.5识别具有显著功能类别关联的共表达基因集合

7.6基于网页的预测结果分析和展示

7.7测试结果

7.8讨论

结论与展望

参考文献

致谢

附录

展开▼

摘要

随着人类基因组计划(Human Genome Proiect)的基本完成,生命科学的研究进入了后基因组时代(Post-Genome Era),在后基因组时代,生命科学研究的重点从单个基因的研究上升到对整个基因组功能和动态变化规律的研究,从而产生了对海量生物信息进行处理的需求;而计算机技术的革命性发展,形成了处理海量生物信息的能力。于是,生物信息学便在综合计算生物学的研究和生物学信息的计算机处理的基础上迅速而成功地发展起来。生物信息学是计算机和网络大发展、各种生物数据库迅猛增长形势下如何组织数据,并从数据中提取生物学新知识的学问。 基因芯片或微阵列技术(Gene Chip or Microarrays)是最近分子生物学实验技术的一个突破,利用该技术可以同时对成千上万个基因的表达数据进行平行分析,产生了海量的有用数据,分析与整理这些数据成为利用这一技术的一个主要瓶颈问题。本文主要研究基因分类及基因表达数据分析方法,主要工作和创新点概括如下: (1) 介绍了基因分类的发展概况、微阵列技术以及常用的分类算法,并通过实验进行性能评价,为本文后续章节的研究提供理论和实验基础。 (2) 基因选择是基因芯片数据分析中的一个重要问题,要进行基因选择的主要原因在于基因数远远大于实验样本数。为此本文把蚁群优化算法(Ant ColonyOptimization Algorithm,ACO Algorithin)引入基因选择领域,并用基因与类别的相关性分析所得值初始化最优化问题,缩短了找寻最优解的时间;以基因子集整体的样本辨别能力与它所含基因间的平均距离的线性表达作为目标函数,有利于在找到关键基因的同时消除冗余;同时,不同于一般的包装基因选择算法,在计算目标函数的时候不需要对每个基因子集进行分类准确度的计算,从而有效地降低了计算复杂度,提高了方法的灵活性和适应性。 (3) 独立分量分析(Independent Component Analysis,简称ICA)是应用于基因分类的一种统计方法。但独立分量分析中的估计分离矩阵算法主要采用随机梯度算法和自然梯度算法,这些基于梯度下降的寻优算法很容易陷入局部极值,所得结果不精确。本文提出了一种基于遗传算法的基因分类算法,其基本思想是利用遗传算法代替独立分量分析中传统的估计分离矩阵算法,对基因表达数据进行分类,克服了结果不精确的问题。实验结果表明,该分类方法获得了更好的分类效果。 (4) 本文从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的SVM算法和KNN算法两者结合成为一种新的应用于基因表达数据分类的算法,并针对基因表达数据分类数据集中“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余。实验结果表明,新方法可有效提高分类准确率和特征选取的效率。 (5) 针对基因表达数据的特征和单个分类器在进行基因分类时适用范围有限、分类准确度不高等问题,提出了一种新的基于神经网络的融合规则的多分类器组合模型的基因分类算法,克服了单个分类在进行基因分类时所呈现的不足,实验表明基于多分类器组合模型的基因分类算法能有效提高分类准确度,并能扩大分类器的适用范围。 (6) 聚类分析已经成为基因表达数据分析中的一种非常重要的分析方法,但怎样结合其他高层次的生物学知识对聚类结果进行进一步的分析和解释依然是功能基因组研究中一个亟待解决的问题。为此,本文提出一种简单的算法,结合GO和KEGG调控代谢路径注释信息对聚类结果进行分析,获得具有显著功能注释关联的共表达基因集合。然后在此基础上开发了相应的自动分析软件SigClust,同时用一组基因表达数据对该软件的预测能力进行了验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号