分布式环境下分类变量聚类算法设计与实现

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

聚类是一种重要的数据挖掘技术,它可以在不了解数据背景的情况下完成数据的划分,使得同一个划分中的数据相似度尽可能大,不同划分中数据的相似度尽可能小,以方便数据的分析与管理。与其它数据挖掘技术相比,聚类技术最主要的特点是事先不需要了解数据内部细节,聚类结果完全依赖于数据本身。分类型数据广泛存于各种领域,解决分类变量聚类问题的传统方法是将分类变量转化成数值变量,之后利用数值变量的聚类方法进行聚类。由于分类变量的属性值没有数量关系,传统的处理方法有很大盲目性。一些专门针对分类变量提出的聚类算法,考虑了分类变量的特殊性,虽然改善了分类变量的聚类效果,但聚类精度仍有提升的空间。
　　基于以上分析,本文的主要工作如下所述:
　　1)介绍并分析了国内外主要分类变量聚类算法的优缺点;2)针对分类变量相似度定义的不足,提出属性权重相似度的定义;3)利用属性权重相似度,将数据集抽象为无向图,将聚类的过程转化为求无向图连通分量的过程,进而提出一种基于属性权重相似度的分类变量聚类算法;4)为了定量地分析该算法的聚类效果,针对类别归属已知的数据集,提出了一种评价聚类效果的指标;5)利用分布式的思想实现了无向图建立的步骤,大大提高了新提出算法的效率,为该算法处理海量数据提供了依据。

著录项

作者
周扬;
展开▼
作者单位

西安理工大学;

展开▼
授予单位西安理工大学;
学科计算机软件与理论
授予学位硕士
导师姓名王彬;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
分布式环境; 分类变量聚类; 聚类精度; 连通分量; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 天文光谱分类算法在分布式环境下的应用研究 [J] . 徐义明 ,潘景昌 . 信息技术与信息化 . 2008,第004期
2. 分布式环境下分类知识的挖掘算法研究 [J] . 曾慧宏 ,宾宁 . 计算机与数字工程 . 2008,第005期
3. 分布式环境下 C/S模式客户端软件自动在线升级的设计与实现 [J] . 岳国华 . 西安科技大学学报 . 2011,第001期
4. 分布式环境下通用数据库浏览接口的设计与实现 [J] . 代亚非 ,刘刚 . 小型微型计算机系统 . 2000,第010期
5. 基于改进自适应聚类算法的RBF神经网络分类器设计与实现 [J] . 郝晓丽 ,张靖 . 计算机科学 . 2014,第006期
6. 一种分布式环境下的改进k-Means聚类算法 [C] . 林晓斌 ,叶东毅 . 第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议（CRSSC-CWI-CGrC'2007） . 2007
7. 分布式环境下企业新闻信息分类子系统的设计与实现 [A] . 徐保鑫 . 2017

分布式环境下分类变量聚类算法设计与实现

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅