法律状态公告日
法律状态信息
法律状态
2022-09-02
实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2022103554598 申请日:20220404
实质审查的生效
2022-08-05
公开
发明专利申请公布
技术领域
本发明涉及计算机技术应用领域,具体是一种基于密度峰值聚类算法的改进研究。
背景技术
聚类分析是一种分析数据间关系的无监督方法,是数据挖掘的预处理步骤,聚类分析是将数据划分成群组的过程,研究如何在没有训练的条件下把一组数据对象或者物理对象分成若干类。使类内对象之间相似度高、类间对象之间相似度低。聚类分析在数据挖掘、基因识别、图像处理和文档检索等领域应用广泛。
传统的聚类算法大致可以分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。基于划分的聚类算法中经典的两个算法分别是K-MEANS算法和K-MEDOIDS算法,基于层次的聚类算法中三个有名的算法分别是BRICH算法、CURE(Clustering Using Representative)算法和CHAMELEON算法,基于密度的经典聚类算法有DBSCAN算法、OPTICS算法和DENCLUE算法,基于网格的聚类算法的典型代表是STING算法和CLIQUE算法,较为有名的几个模型聚类方法是CLASSI和EM。
2014年,Rodriguez和Laio在《Science》上发表了DPC(Density Peak)聚类算法,为聚类算法的设计提供了一种新的思路,引领了一新的聚类算法研究方向。该算法适用于任意形状的数据集和大规模的数据集,对初始聚类中心有很强的针对性,能直观的找到簇的数量,也能非常容易地发现异常点,而且,其参数唯一、使用简单、具有非常好的鲁棒性。其算法思想是:簇中心的局部密度要大于簇周围数据的局部密度,且与比其局部密度大的对象间的距离较远。
但DPeak算法也有诸多不足之处,如1)复杂度高,不适用于复杂数据,2)不能自适应选择密度峰值、阈值和簇的数目,3)计算局部密度时,若没有考虑到数据的局部结构会导致簇的丢失,假峰和无峰,4)高维数据适用性差等。
发明内容
鉴于此,本发明主要解决密度峰值聚类算法不能自适应选取阈值,避免分配剩余点产生多米诺骨牌效应,一旦某一个样本分配错误,会导致后续样本分配错误的问题。本发明主要使用了DTW算法对剩余点进行分配以及结合均值和与中心点非同一类区域对比率自适应获取阈值。
为了达到上述目的,本发明的算法具体步骤如下:。
步骤一:确定样本数据集X,令c点为中心点。
步骤二:通过中心点与其他剩余点之间的欧氏距离确定它们之间的对比度P,其公式为:
步骤三:计算局部区域对中心点c的累积对比度S,其公式为:
步骤四:计算与中心点属于同类区域的累积对比度A,其公式为:A(c)=S(c)·δ,当P(c,c
步骤五:计算与中心点非同一类区域对比率R,其公式为:R(c)=(S(c)-A(c))/S(c),R越大,越不是同一类。
步骤六:结合R和均值确定阈值d
步骤七:使用DPC算法计算数据点i的局部密度ρ
步骤八:计算点i与其他密度更高的点之间的最小距离,其公式为:
步骤九:DPC用上述两个变量,局部密度和最小距离构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心。
步骤十:将剩余的点与其他类密度较大值点分别分为两组,使用DTW算法测试两组之间的距离,找出其中距离最短的那条路径,从而将剩余点分配给密度比它高的最近样本。DTW算法的思想是求得从一个方格(i-1.j-1)或者(i-1,j)或者(i,j-1)中到下一个方格(i,j)距离的最小值,其公式为:
步骤十一:由此划分数据集,得到聚类结果。
附图说明
图1为本发明基于密度峰值的聚类算法的改进研究的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于密度峰值聚类算法的改进研究,其基本实现过程如下:
1.输入数据集
2.选取中心点,自适应获取阈值。
通过中心点与其他剩余点之间的欧氏距离确定它们之间的对比度P。
计算局部区域对中心点c的累积对比度S。
计算与中心点非同一类区域对比率R。
结合R和均值确定阈值d
3.使用DPC算法获取初始聚类中心。
计算数据点i的局部密度ρ
计算点i与其他密度更高的点之间的最小距离,其公式为:
DPC用上述两个变量,局部密度和最小距离构建ρ-δ决策图,将ρ和δ都较大的点选取为初始聚类中心。
4.使用DTW算法对剩余点进行分配。
将剩余的点与其他类密度较大值点分别分为两组,使用DTW算法测试两组之间的距离,找出其中距离最短的那条路径,从而将剩余点分配给密度比它高的最近样本。
DTW算法的思想是求得从一个方格(i-1.j-1)或者(i-1,j)或者(i,j-1)中到下一个方格(i,j)距离的最小值,其公式为:
划分数据集,得到聚类结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
机译: 基于导通时间的峰值电流密度规则和设计方法
机译: 基于时间的峰值电流密度规则及设计方法
机译: 一种用于保护和发送侧音量信息的方法和装置,其基于峰值-均值-比率-宽带功率的降低-基于系统