基于 MapReduce 的基因数据密度层次聚类算法

涂金金; 杨明; 郭丽娜

首页> 中文期刊> 《中国科学技术大学学报》 >基于 MapReduce 的基因数据密度层次聚类算法

基于 MapReduce 的基因数据密度层次聚类算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着生物信息技术的快速发展，基因表达数据的规模急剧增长，这给传统的基因表达数据聚类算法带来了严峻的挑战。基于密度的层次聚类（DHC）能够较好地解决基因表达数据嵌套类问题且鲁棒性较好，但处理海量数据的效率不高。为此，提出了基于 M apReduce的密度层次聚类算法---DisD HC 。该算法首先进行数据分割，在每个子集上利用D HC进行聚类获得稀疏化的数据；在此基础上再次进行D HC聚类；最终产生整体数据的密度中心点。在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验，结果表明，DisDHC算法在保持DHC聚类效果的同时，极大地缩短了聚类时间。%The amount of gene expression data scale is increasing sharply with the rapid development of bio-informatics technology ,which poses a serious challenge for traditional clustering algorithms .Density-based hierarchical clustering (DHC) can solve the problem of the nested class of gene expression data and has good robustness , but for handling huge amounts of data . T herefore , a density-based hierarchical clustering algorithm on MapReduce(DisDHC) was proposed .It partitioned data sets into smaller blocks , clustered each block using DHC in parallel ,gathered the result for re-clustering ,and produced all density centers of each cluster .The experiments on GAL dataset ,Cell cycle dataset ,and Serum dataset show that DisDHC reduces clustering time and achieves high performance .

著录项

来源
《中国科学技术大学学报》 |2014年第7期|537-543|共7页
作者
涂金金; 杨明; 郭丽娜;
展开▼
作者单位

南京师范大学计算机科学与技术学院;

江苏南京 210046;

南京师范大学计算机科学与技术学院;

江苏南京 210046;

南京师范大学计算机科学与技术学院;

江苏南京 210046;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
M apReduce; 密度层次聚类; 基因表达数据;

相似文献

中文文献
外文文献
专利

1. 基于区域中心点的多层次数据集密度聚类算法 [J] . 魏姁妲 ,逄焕利 . 长春工业大学学报（自然科学版） . 2016,第006期
2. 基于密度和层次的快速聚类算法在数据挖掘中的设计及实现 [J] . 张艳 . 信息安全与技术 . 2013,第008期
3. 基于MapReduce和IFOA的并行密度聚类算法 [J] . 胡健 ,徐锴滨 ,毛伊敏 . 计算机应用研究 . 2021,第005期
4. 基于MapReduce和改进密度峰值的划分聚类算法 [J] . 黄学雨 ,向驰 ,陶涛 . 计算机应用研究 . 2021,第010期
5. DENGENE:一种高精度的基于密度的适用于基因表达数据的聚类算法 [J] . 孙亮 ,赵芳 ,王永吉 . 计算机应用研究 . 2007,第004期
6. 基于Hadoop MapReduce的分布式数据流聚类算法研究 [C] . 蔡斌雷 ,任家东 ,朱世伟 . 第19届全国信息存储技术学术会议 . 2013
7. 基于MapReduce的自适应密度聚类算法研究 [A] . 杨亚军 . 2013

基于 MapReduce 的基因数据密度层次聚类算法

摘要

著录项

相似文献

相关主题

期刊订阅