基因表达数据加权模糊聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着基因芯片技术的广泛应用，基因表达数据呈爆炸式增长，如何从该海量数据中获取有生物学意义的信息已成为生物信息学研究的热点。功能相近的基因通常具有相似的表达模式，因此，可以通过相似表达模式的发掘来预测基因的功能。聚类算法在处理基因表达数据时，可以将具有相似表达模式的基因聚为一类，据此推测基因的功能和发现基因间的相互关系。但是，基因间的相互关系非常复杂:基因往往具有多种功能、参与多个过程，从而基因表达数据是“高度关联的”，类簇也是高度交叉的，一个类簇可以嵌入另一个类簇中。硬聚类的单一划分忽略了这一多样性，所以常采用模糊聚类分析来进行基因表达数据研究。
　　传统的模糊聚类算法本身是一种主观性非常强的算法，且不考虑基因表达数据各维属性对聚类的不同贡献。选择不同的聚类算法，或者对一种聚类算法设定不同的起始点或簇数，都会导致不同的聚类结果。由于数据集可能来自不同的观测角度和观测人员，以及不同样本存在的关键性基因、关键性条件和噪音的差异，使得基因表达数据各维属性对聚类的贡献是不同的，若不考虑这种差异将会影响到聚类的精度。另外，传统的模糊聚类算法不考虑基因之间的相互关联性，使得聚类结果不具备很好的生物学意义。因此，需要进一步对算法进行改进。
　　针对目前基因表达数据模糊聚类分析中存在的问题，本文主要做了如下两部分工作:第一部分，首先引入一种数据集预处理方法，主要目的是解决FCM算法应用于基因表达数据分析时存在的初始值敏感性和参数依赖性问题。预处理算法基于类间熵寻找数据集的实际分类数目和代表点，并将其作为后续FCM算法的输入参数。然后基于信息熵求得基因表达数据各维属性的特征权重向量，最后将权重向量引入FCM算法。实验表明，新算法提高了聚类结果的稳定性和精度。第二部分，基于互信息求各维属性的特征权重，以此来解决FCM算法的聚类结果不具备很好的生物学意义这个问题。重点阐述了基于互信息获取基因表达数据特征权重的详细步骤，并通过实验验证了基于互信息特征加权的FCM算法使聚类结果具有很好的生物学意义且提高了聚类精度。

著录项

作者
冯苏丽;
展开▼
作者单位

重庆邮电大学;

展开▼
授予单位重庆邮电大学;
学科计算机软件与理论
授予学位硕士
导师姓名谭军;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;生物信息论;
关键词
基因表达数据; 模糊聚类; 特征加权; 信息熵; 生物信息学;

相似文献

中文文献
外文文献
专利

1. 属性加权多核模糊聚类算法研究 [J] . 阚云1 ,包振强1 ,张照岳1 . 计算机科学与应用 . 2018,第006期
2. 基于特征加权的模糊聚类算法研究 [J] . 李金秀 ,高新波 ,高玉娥 . 北京电子科技学院学报 . 2007,第002期
3. 基于加权模糊聚类的不平衡数据分类方法 [J] . 董振波 . 现代计算机（专业版） . 2016,第017期
4. 基于加权模糊聚类的不平衡数据分类方法 [J] . 董振波 . 现代计算机：上半月版 . 2016,第006期
5. 基于数据加权策略的模糊聚类改进算法 [J] . 唐成龙 ,王石刚 ,徐威 . 电子与信息学报 . 2010,第006期
6. 数据流环境下的基于加权网格的聚类算法研究 [C] . 李国徽 ,黄蕾 . 第二十四届中国数据库学术会议 . 2007
7. 基于基因表达微阵列数据集的加权双向聚类算法研究 [A] . 王志玲 . 2016

基因表达数据加权模糊聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅