首页> 中文学位 >基于进化计算的最大相似双聚类分析及其应用
【6h】

基于进化计算的最大相似双聚类分析及其应用

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 基因表达数据研究现状

1.2.2 基因表达数据的双聚类算法研究现状

1.3 论文主要工作

1.4 论文结构安排

第2章 基因表达数据的双聚类算法

2.1 双聚类模型

2.1.1 双聚类的概念

2.1.2 双聚类的类型

2.1.3 双聚类的结构

2.2 双聚算法研究

2.2.1 双聚类算法的搜索策略

2.2.2 CC算法

2.2.3 ISA算法

2.2.4 CTWC算法

2.2.5 SAMBA算法

2.3 基于进化计算的双聚类算法

2.3.1 进化计算

2.3.2 基于进化计算的双聚类算法模型

2.3.3 基于进化双聚类算法的改进方向

2.4 基因表达双聚类算法的应用

2.5 小结

第3章 基于进化计算的最大相似双聚类

3.1 最大相似双聚类算法

3.1.1 基因之间的相似得分

3.1.2 双聚类相似得分

3.1.3 MSBE算法

3.1.4 加法双聚类

3.2 条件选择

3.3 基于进化计算的最大相似双聚类模型

3.4 基于进化计算的最大相似双聚类实现

3.4.1 最优个体搜索实现步骤

3.4.2 加法双聚类搜索实现步骤

3.5 小结

第4章 进化双聚类算法的应用

4.1 模拟数据

4.1.1 数据集的创建

4.1.2 算法评价指标

4.1.3 参数设置

4.1.4 实验结果与分析

4.2 酵母菌数据

4.2.1 数据集的创建

4.2.2 算法评价指标

4.2.3 参数设置

4.2.4 实验结果与分析

4.3 癌症数据

4.4 小结

结论

参考文献

附录A 攻读学位期间所发表的学术论文及所参加项目

致谢

展开▼

摘要

基因芯片实验产生的基因表达数据是一个规模巨大的数据集合,通常包含成了千上万个基因,上百个样本,因此数据具有维度高、数据量大等特点。同时又因为生物个体本身的复杂性,基因表达的水平可能具有极大的差异,也可能高度相似,呈一种无序分散的状态。这些数据背后隐藏着巨大的信息,因此需要通过对基因表达数据的挖掘来揭示这些隐藏的信息。而双聚类是基因表达数据一种很好的分析工具,相比传统的聚类方法,双聚类能够挖掘出更加相似且具有生物意义的信息。因此,本文对基因表达数据的双聚类算法做了一系列的研究,主要工作有以下几点:
   首先,本文研究了双聚类的类型、结构、以及搜索策略,分析主流双聚类算法的特点,研究基于进化计算的双聚类算法的模型,并提出可以改进的方向。
   其次,本文最主要的工作是提出了一种基于进化计算的最大相似双聚类算法,用于基因表达数据的分析。该算法首先利用特征选择算法从基因表达数据中选择部分列作为参条件;然后基于参考条件将数据矩阵进行矩阵转换;接着根据参考基因求得转换矩阵的相似矩阵;最后利用进化计算方法,按照二元编码规则,初始化种群,进行迭代直到进化结束,得出最优个体。算法将满足一定条件的最优个体解码成双聚类并将结果保存于结果集中,最终输出一个双聚类的集合。
   最后,本文在各类基因表达数据上做了对比实验来检验算法的性能。第一类数据为创建的模拟数据集,第二类数据是两个酵母菌的基因表达数据,第三类数据是癌症基因表达数据。本文对从各类数据搜索出的双聚类按照一定的评分准则打分,比较各个双聚类算法的评分结果,验证了算法的性能优于某些其他的双聚类算法。另外,第三类数据的实验结果证明本文的双聚类算法对癌症的分类有不错的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号