基于高性能计算机并行聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当今信息化时代,各种以数据形式表达的信息几乎以指数的量级在迅速增长,许多隐含在海量数据中的知识正等待人们去挖掘、去发现.作为数据库研究、开发和应用最活跃的分支,数据挖掘—从大量数据中用非平凡的方法发现有用的知识--有着广泛的应用.但是,数据挖掘面临的是海量数据和极其复杂的运算,而以往的数据挖掘技术主要是基于传统的(串行)计算机系统,尽管人们为了解决运算的时间和空间的复杂性问题花费了大量的精力,却仍然得不到满意的结果.有些数据挖掘方法,即使有并行挖掘的概念,也因缺乏并行运行环境而只能在串行计算机上运行,因而大大降低了挖掘效率.随着网络技术、高性能计算机的发展,对大规模数据的分布式并行处理已成为可能.并行数据挖掘技术的研究成为当前研究热点和今后重点发展的方向,国内外都在进行一些数据挖掘并行算法的研究.上海大学峰值速度达到每秒4500亿次浮点操作的自强2000机群系统为我们开展并行数据挖掘技术的研究提供了良好的基础条件.数据聚类在数据挖掘、模式识别、图象处理和数据压缩等领域有广泛的应用,是数据挖掘的一个重要分支.本文总结了聚类算法的基本模型,选择DBSCAN算法,提出几种适合在高性能机群系统上运行的并行DBSCAN算法,通过实验和比较,分析几种并行DBSCAN算法的优缺点.这些算法都收集在基于自强2000机群系统并行数据挖掘系统中,该系统除了运行算法之外,还实现了数据清洗、数据划分及数据发送(发送到各个处理机上)、参数选择及聚类质量评估等功能.具体而言,本文的工作如下:1)分析基本的聚类算法,对它们的可并行性进行讨论,选择一种聚类性能好,适合并行的聚类算法——DBSCAN算法;2)在串行DBSCAN算法基础上提出三种并行DBSCAN算法,一种是建立在全局数据库上的全局并行DBSCAN算法——PDBSCAN,其他两个是基于数据分区的并行DBSCAN算法——DPDBSCAN和OPDBSCAN;3)分析比较了三种算法的优缺点;4)建立聚类性能评估模型,向用户反馈聚类性能信息,介绍如何指导用户选择相关参数;5)介绍基于机群系统并行数据挖掘系统的结构及功能,并在该系统上实现一个并行聚类算法应用实例.

著录项

作者
宋明;
展开▼
作者单位

上海大学;

展开▼
授予单位上海大学;
学科计算机应用技术
授予学位硕士
导师姓名刘宗田;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;TP393.02;
关键词
机群系统; 并行计算; 数据挖掘; 聚类; 大规模数据库;

相似文献

中文文献
外文文献
专利

1. 基于滑动门中心点计算的K均值聚类并行算法研究 [J] . 龚运鸿 ,周新志 ,雷印杰 . 计算机测量与控制 . 2018,第002期
2. 基于并行化谱聚类的协同推荐算法研究 [J] . 郑修猛 ,陈福才 ,黄瑞阳 . 中国科学技术大学学报 . 2016,第001期
3. 基于迭代式MapReducede的海量数据并行聚类算法研究 [J] . 高见文 ,薛行贵 ,罗杰 . 中国科技论文 . 2016,第014期
4. 基于迭代式MapReducede的海量数据并行聚类算法研究 [J] . 高见文1 ,薛行贵1 ,罗杰1 . 中国科技论文 . 2016,第014期
5. 基于 Hadoop MapReduce并行近似谱聚类算法研究与实现 [J] . 杨煜 ,赵成贵 . 计算机应用与软件 . 2015,第008期
6. 高性能计算机群系统并行FDTD算法研究 [C] . 罗莉梅 ,李增瑞 . 2007年全国天线年会 . 2007
7. 基于网格的并行聚类算法及数据流聚类算法研究 [A] . 陈毅 . 2010

基于高性能计算机并行聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅