首页> 中文学位 >基于粒子群优化的数据流挖掘的聚类算法分析
【6h】

基于粒子群优化的数据流挖掘的聚类算法分析

代理获取

摘要

随着计算机及其应用技术的迅猛发展,人类获取数据的能力得到很大程度的提高,数据流(DataStreams)已成为重要的数据来源之一,因此有关数据流的挖掘算法也已成为一个重要的前沿课题。数据流聚类是数据流挖掘的一个重要的分支,其主要目的是从数据流中发现新的知识模式和隐藏的新规律。
   数据流是一个由不断到达的数据所组成的动态变化增长的数据集,要从有限的数据处理分析过渡到无限的数据处理分析,人们面临着新的严峻的挑战,需要寻求新的聚类算法。最为经典的数据流聚类算法是CluStream算法,Clustream算法包括在线聚类部分和离线部分两部分,本文主要的研究工作是基于两层模型,对数据流的离线部分做优化处理。
   本文的主要研究工作包括以下几个方面:
   (1)分析了粒子群算法与遗传算法优缺点,并结合两者的优点,对基于质心的K-means算法的聚类中心做优化,使得K-means的聚类算法产生更好的聚类效果。实验数据表明:采用基于交换技术的混合IGA&PSO的聚类算法比单一的K-means算法性能更好。
   (2)PSO作为一种智能优化算法,有时也会因为早熟而陷入局部最优解。为了解决局部最优的问题,利用捕食-被捕食的粒子群优化(PPPSO)作优化,在PPPSO中,捕食者追逐被捕食者的中心,而被捕食者逃离捕食者,这是一种防止局部最优者出现且找到全局最优者的一种有效的方法。本文提出了一种使用PPPSO来优化模糊均值的聚类方法。
   (3)在高维数据流空间里,为了解决多余特征对数据流聚类质量的影响,提出了一种基于粒子群与特征选择的数据流聚类算法。此算法具有自动探测、移除多余不重要特征等功能。实验结果表示,基于特征选择的数掘流聚类算法(DSCFC),在对有多余特征的数据流聚类时,比CluSteam算法更有效,聚类质量更好。
   (4)在数据流挖掘中,要快速地挖掘出数据流中的任意有趣模式,如果只利用现有的基于频繁项集算法直接进行复杂模式挖掘是困难的。为解决此问题,一种基于频繁项集的条件模式挖掘被提出。从频繁项集出发,去挖掘那些不能从项集中立即发现的任意模式,即条件模式挖掘。把任意模式条件挖掘与数据聚类分析结合起来,能更快速有效地挖掘数据库中任意的有趣的规则。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号