聚类和分类技术在生物信息学中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大量生物学实验积累了数以万计的生物信息数据。如何有效地进行数据的采集、整理、检索、分析，从中提取规律，上升为理论，“读懂”基因组的遗传信息，以便指导研究工作，对生物信息学提出了很高的要求，也对信息理论与技术提出了挑战。数据挖掘作为一种以数掘库、统计学和人工智能学为基础的新兴技术，给生物学家提供了前所未有的数据分析工具，为基因和蛋白质信息的分析和提取提供了强有力的手段。本文主要对基因表达数据、蛋白质序列数据的分类和聚类进行了研究。本文提出了蛋白质序列数据的分类算法，主要根据蛋白质序列数据的特性设计了一个挖掘连续频繁模式的方法，对每类数据挖掘得到的频繁模式进行类间裁减，用每类独有的频繁序列对测试数据进行分类。还提出了蛋白质序列数据聚类算法，它首先应用连续频繁模式挖掘算法找出频繁定长模式，然后对频繁模式进行裁减，利用剩余的模式建立新空间，把蛋白质序列数据在新空间上投影，计算序列间的相似矩阵，最后应用K-means方法进行聚类。还提出的基因表达数据分类算法中，首先利用基因表达值的期望和方差对基因进行裁减，把基因表达数据离散化，然后转变成P-tree的形式，利用P-tree结构的数据计算信息增益构建多棵决策树对测试数据分类。提出了一个并行计算基因表达数据聚类的方法，是一个基于KNN密度聚类的方法。首先把基因表达数据均分到服务器上，然后在各台服务器上分别计算基因的密度，求出核心基因，聚类核心基因，求得部分数据的簇中心点，客户机聚类各台服务器求得的簇中心点，计算出全体数据的簇中心点。实验结果表明所提出的算法是较优的。

著录项

作者
黄金;
展开▼
作者单位

黑龙江大学;

展开▼
授予单位黑龙江大学;
学科计算机应用技术
授予学位硕士
导师姓名张兆功;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类生物信息论;
关键词
生物信息学; 分类技术; 聚类技术; 蛋白质序列数据; 挖掘连续频繁模式;

相似文献

中文文献
外文文献
专利

1. 一种基于聚类的模式识别技术在葛根类药材分类中的应用 [J] . 马艳丽 ,郑伟 ,杨跃平 . 河北北方学院学报（自然科学版） . 2011,第001期
2. 模糊聚类技术在文献自动分类系统中的应用 [J] . 楚存坤 ,李韬 . 现代情报 . 2009,第009期
3. 数据挖掘的聚类技术在证券客户分类中的应用 [J] . 尚永 . 科技资讯 . 2007,第011期
4. 基于分类和聚类的数据挖掘技术在CLIS中的应用研究 [J] . 苏凯 ,李伟鹏 ,杨琳 . 医疗卫生装备 . 2005,第006期
5. 系统聚类分类法在水土保持林林种分类中的应用 [J] . 海东霞 . 水土保持科技情报 . 2000,第003期
6. K-均值聚类分析算法在多波束海底底质分类中的应用研究 [C] . 金绍华 ,肖付民 ,崔杨 . 第二十七届海洋测绘综合性学术研讨会 . 2015
7. 模糊聚类技术在心电波形分类中的应用研究 [A] . 李贵娟 . 2011

聚类和分类技术在生物信息学中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅