首页> 中文学位 >聚类和分类技术在生物信息学中的应用
【6h】

聚类和分类技术在生物信息学中的应用

代理获取

目录

文摘

英文文摘

第1章绪言

1.1研究背景

1.1.1后基因组时代的生物信息学

1.1.2生物数据的特点

1.1.3数据挖掘在生物数据中的应用

1.2国内外的研究现状

1.3本文的贡献

1.4论文结构

第2章蛋白质序列的分类算法研究

2.1引言

2.2挖掘连续频繁模式

2.3裁减频繁模式

2.4利用频繁模式分类

2.5算法复杂性分析和实验结果

2.5.1复杂性分析

2.5.2实验结果

第3章蛋白质序列的聚类算法研究

3.1引言

3.2挖掘频繁模式

3.3裁减频繁模式

3.4建立新特征空间和相似矩阵

3.4.1建立新特征空间

3.4.2建立相似矩阵

3.5聚类计算

3.6算法复杂性分析和实验结果

3.6.1复杂性分析

3.6.2实验结果

第4章基因表达数据的分类算法研究

4.1引言

4.2 P-TREE

4.3基因数据的裁减和离散化

4.3.1基因表达数据

4.3.2裁减基因数据

4.3.3离散基因表达数据

4.4基于P-TREE的多决策树分类

4.5算法复杂性分析和实验结果

4.5.1复杂性分析

4.5.2实验结果

第5章基因表达数据的聚类算法研究

5.1引言

5.2基于KNN密度聚类基本思想

5.3并行算法思想

5.4用DCOM实现并行算法

5.4.1 DCOM组件基本原理

5.4.2并行算法的DCOM的实现

5.5算法复杂性分析和实验结果

5.5.1复杂性分析

5.5.2实验结果

结论

攻读硕士学位期间发表的论文

致谢

参考文献

独创性声明和学位论文版权使用授权书

展开▼

摘要

大量生物学实验积累了数以万计的生物信息数据。如何有效地进行数据的采集、整理、检索、分析,从中提取规律,上升为理论,“读懂”基因组的遗传信息,以便指导研究工作,对生物信息学提出了很高的要求,也对信息理论与技术提出了挑战。数据挖掘作为一种以数掘库、统计学和人工智能学为基础的新兴技术,给生物学家提供了前所未有的数据分析工具,为基因和蛋白质信息的分析和提取提供了强有力的手段。本文主要对基因表达数据、蛋白质序列数据的分类和聚类进行了研究。本文提出了蛋白质序列数据的分类算法,主要根据蛋白质序列数据的特性设计了一个挖掘连续频繁模式的方法,对每类数据挖掘得到的频繁模式进行类间裁减,用每类独有的频繁序列对测试数据进行分类。还提出了蛋白质序列数据聚类算法,它首先应用连续频繁模式挖掘算法找出频繁定长模式,然后对频繁模式进行裁减,利用剩余的模式建立新空间,把蛋白质序列数据在新空间上投影,计算序列间的相似矩阵,最后应用K-means方法进行聚类。还提出的基因表达数据分类算法中,首先利用基因表达值的期望和方差对基因进行裁减,把基因表达数据离散化,然后转变成P-tree的形式,利用P-tree结构的数据计算信息增益构建多棵决策树对测试数据分类。提出了一个并行计算基因表达数据聚类的方法,是一个基于KNN密度聚类的方法。首先把基因表达数据均分到服务器上,然后在各台服务器上分别计算基因的密度,求出核心基因,聚类核心基因,求得部分数据的簇中心点,客户机聚类各台服务器求得的簇中心点,计算出全体数据的簇中心点。实验结果表明所提出的算法是较优的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号