首页> 中文学位 >分布式环境下分类变量聚类算法设计与实现
【6h】

分布式环境下分类变量聚类算法设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1绪论

1.1研究背景及目的

1.2论文内容及组织结构

2分类变量聚类算法

2.1分类变量聚类问题传统解决方法

2.2基于划分的分类变量聚类算法

2.3基于层次的分类变量聚类算法

2.4其它分类变量聚类算法

2.5本章小结

3 CABAS算法

3.1分类变量相似度研究与改进

3.2 CABAS算法思想

3.3算法性能分析

3.4相似度阈值选择方法

3.5聚类结果评价标准研究与改进

3.6实验与结果分析

3.7本章小结

4基于分布式思想的CABAS算法

4.1分布式系统特点

4.2分布式CABAS算法关键问题研究

4.3实验

4.4本章小结

5结论与展望

5.1结论

5.2展望

致谢

参考文献

在校期间学术成果

展开▼

摘要

聚类是一种重要的数据挖掘技术,它可以在不了解数据背景的情况下完成数据的划分,使得同一个划分中的数据相似度尽可能大,不同划分中数据的相似度尽可能小,以方便数据的分析与管理。与其它数据挖掘技术相比,聚类技术最主要的特点是事先不需要了解数据内部细节,聚类结果完全依赖于数据本身。分类型数据广泛存于各种领域,解决分类变量聚类问题的传统方法是将分类变量转化成数值变量,之后利用数值变量的聚类方法进行聚类。由于分类变量的属性值没有数量关系,传统的处理方法有很大盲目性。一些专门针对分类变量提出的聚类算法,考虑了分类变量的特殊性,虽然改善了分类变量的聚类效果,但聚类精度仍有提升的空间。
  基于以上分析,本文的主要工作如下所述:
  1)介绍并分析了国内外主要分类变量聚类算法的优缺点;2)针对分类变量相似度定义的不足,提出属性权重相似度的定义;3)利用属性权重相似度,将数据集抽象为无向图,将聚类的过程转化为求无向图连通分量的过程,进而提出一种基于属性权重相似度的分类变量聚类算法;4)为了定量地分析该算法的聚类效果,针对类别归属已知的数据集,提出了一种评价聚类效果的指标;5)利用分布式的思想实现了无向图建立的步骤,大大提高了新提出算法的效率,为该算法处理海量数据提供了依据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号