首页> 中文学位 >基因表达数据加权模糊聚类算法研究
【6h】

基因表达数据加权模糊聚类算法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文的研究工作与创新

1.4 本文的章节安排

第二章 基因表达数据聚类分析

2.1 引言

2.2 基因芯片简介

2.3 基因表达数据简介

2.3.1 基因表达数据的获取

2.3.2 基因表达数据的表示方法

2.3.3 基因表达数据的特点

2.3.4 基因表达数据的预处理

2.4 基因表达数据聚类分析

2.4.1 聚类分析的定义和分类

2.4.2 相似性度量方法

2.4.3 基因表达数据聚类分析常用算法介绍

2.4.4 基因表达数据聚类分析面临的挑战

2.5 本章小结

第三章 改进的基因表达数据模糊聚类算法

3.1 引言

3.2 模糊C-均值聚类方法

3.2.1 模糊C-均值聚类算法简介

3.2.2 模糊C-均值聚类算法存在的问题

3.3 改进的模糊C-均值聚类算法

3.3.1 基本概念

3.3.2 加权FCM算法

3.3.3 算法描述

3.4 实验结果与分析

3.4.1 实验数据

3.4.2 实验及分析

3.5 本章小结

第四章 基于互信息特征加权模糊C-均值聚类算法

4.1 引言

4.2 信息论简介

4.2.1 信息熵

4.2.2 条件熵

4.2.3 联合熵

4.2.4 互信息(Mutual information)

4.3 基于互信息的特征加权FCM算法

4.3.1 基于互信息获取特征权重

4.3.2 特征加权FCH算法

4.4 实验

4.4.1 实验数据

4.4.2 实验结果及分析

4.5 本章小结

第五章 总结和未来工作

5.1 本文小结

5.2 未来工作

致谢

攻研期间从事的科研工作及取得的研究成果

参考文献

展开▼

摘要

随着基因芯片技术的广泛应用,基因表达数据呈爆炸式增长,如何从该海量数据中获取有生物学意义的信息已成为生物信息学研究的热点。功能相近的基因通常具有相似的表达模式,因此,可以通过相似表达模式的发掘来预测基因的功能。聚类算法在处理基因表达数据时,可以将具有相似表达模式的基因聚为一类,据此推测基因的功能和发现基因间的相互关系。但是,基因间的相互关系非常复杂:基因往往具有多种功能、参与多个过程,从而基因表达数据是“高度关联的”,类簇也是高度交叉的,一个类簇可以嵌入另一个类簇中。硬聚类的单一划分忽略了这一多样性,所以常采用模糊聚类分析来进行基因表达数据研究。
   传统的模糊聚类算法本身是一种主观性非常强的算法,且不考虑基因表达数据各维属性对聚类的不同贡献。选择不同的聚类算法,或者对一种聚类算法设定不同的起始点或簇数,都会导致不同的聚类结果。由于数据集可能来自不同的观测角度和观测人员,以及不同样本存在的关键性基因、关键性条件和噪音的差异,使得基因表达数据各维属性对聚类的贡献是不同的,若不考虑这种差异将会影响到聚类的精度。另外,传统的模糊聚类算法不考虑基因之间的相互关联性,使得聚类结果不具备很好的生物学意义。因此,需要进一步对算法进行改进。
   针对目前基因表达数据模糊聚类分析中存在的问题,本文主要做了如下两部分工作:第一部分,首先引入一种数据集预处理方法,主要目的是解决FCM算法应用于基因表达数据分析时存在的初始值敏感性和参数依赖性问题。预处理算法基于类间熵寻找数据集的实际分类数目和代表点,并将其作为后续FCM算法的输入参数。然后基于信息熵求得基因表达数据各维属性的特征权重向量,最后将权重向量引入FCM算法。实验表明,新算法提高了聚类结果的稳定性和精度。第二部分,基于互信息求各维属性的特征权重,以此来解决FCM算法的聚类结果不具备很好的生物学意义这个问题。重点阐述了基于互信息获取基因表达数据特征权重的详细步骤,并通过实验验证了基于互信息特征加权的FCM算法使聚类结果具有很好的生物学意义且提高了聚类精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号