首页> 中文学位 >基于累积平均密度的聚类算法研究
【6h】

基于累积平均密度的聚类算法研究

代理获取

目录

文摘

英文文摘

授权书

第1章 绪 论

1.1 研究的背景及意义

1.2 国内外研究现状

1.3 研究重点和方法

1.4 本文的主要内容及结构

第2章 数据挖掘与聚类分析

2.1 数据挖掘综述

2.1.1 数据挖掘的概念

2.1.2 数据挖掘的流程

2.1.3 数据挖掘的分类

2.2 聚类分析综述

2.2.1 聚类分析的概念

2.2.2 数据类型和度量方法

2.2.3 主要聚类方法

2.3 小结

第3章 一种基于累积平均密度的聚类算法

3.1 DBSCAN算法

3.1.1 DBSCAN算法有关概念

3.1.2 DBSCAN算法的思想

3.1.3 DBSCAN算法的优缺点

3.2 基于累积平均密度的聚类算法

3.2.1 累积平均密度的相关定义

3.2.2 算法原理

3.2.3 算法描述

3.3 实验及性能分析

3.3.1 簇不相连的数据集聚类实验

3.3.2 簇相连的数据集聚类实验

3.3.3参数δ变化对聚类结果的影响

3.3.4 算法处理时间

3.4 小结

第4章 改进算法在网页正文提取中的应用

4.1 网页信息提取

4.2 基于密度聚类的网页正文提取方法

4.2.1 网页预处理

4.2.2 数据转换

4.2.3 聚类分析

4.3 实验

4.4 小结

结论

参考文献

附录A 攻读学位期间发表的论文情况

致 谢

展开▼

摘要

随着计算机技术的发展和数据库技术的成熟,数据挖掘开始走进人们的视野。兴起于上个世纪90年代,经过20多年的不断研究与完善,数据挖掘技术已经形成了一套系统的理论,并开发了一些比较成熟的数据挖掘工具,积累了大量成功的行业案例应用经验。
  作为数据挖掘的一项主要处理方法和重要研究课题,聚类分析技术也为众多企业和研究机构所熟知。特别是随着互联网的普及,人们的生活方式发生了很大的转变。电子邮件、微博和3G等技术使得人们信息的沟通与交流更多地依赖于网络。人们的日常生活和行为产生了大量的数据,也依赖于其中的部分数据。聚类分析为人们提供了一个方便、安全和可靠的工具,帮助人们进行信息检索、欺诈屏蔽和客观预测等。基于密度的聚类是聚类分析中的一个重要方法,很多学者对其进行了研究并提出了相应的算法,DBSCAN算法是其中的一种经典算法。本文对聚类分析技术进行了详细探讨,分析其在理论和应用上的优劣,并在DBSCAN算法的基础上,引入累积平均密度的概念,提出了一种基于DBSCAN算法的改进方案,并对其进行实验和应用测试,验证其正确性和现实意义。
  本文对基于密度的聚类方法做了深入细致地研究,主要内容可以概括为以下几个方面:
  (1)检索和查阅文献,综合了解了数据挖掘的主要概念、基本原理、处理步骤、常用技术和方法以及研究现状和应用情况。详细研究了聚类分析技术,着重介绍了各种聚类方法,并分析和总结了各自的效果和性能。
  (2)在数据挖掘和聚类分析相关理论的基础上,详细分析了DBSCAN算法的基本思路和存在的不足,并针对其参数敏感性和对簇相连的数据集聚类效果不理想的问题,提出了一种基于累积平均密度的改进算法,采用容纳因子来对簇合并提供依据,从而提高了聚类效果。
  (3)将改进算法应用到网页正文提取中,提出了一种基于密度聚类的网页正文提取模型。通过网页预处理、数据转换和聚类分析等步骤来实现网页正文提取。并编写了应用程序来对其有效性进行实验验证。
  研究结果表明,相比于DBSCAN算法,基于累积平均密度的聚类算法,具有一定的参数鲁棒性,并且对簇相连的数据集,能够达到很好的聚类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号