首页> 中国专利> 一种邻域自适应的局部保持投影方法

一种邻域自适应的局部保持投影方法

摘要

本发明公开了一种邻域自适应的局部保持投影方法,主要包括计算每个样本点xi的最近邻点zi或最近邻域εi,找出每个样本点xi的最近邻点N(xi),计算近邻图的权矩阵W,计算对角矩阵和拉普拉斯矩阵L=D-W等步骤。本发明主要以局部保持投影作为研究对象,在此基础上通过估计样本点的最近邻点或最近邻域,进而发明了邻域自适应的局部保持投影方法,即LPPANS方法。本发明不需要设置一个合适的近邻大小,而只要设置样本点的最小最近邻点个数kmin,局部保持投影就会自动匹配数据潜在流行的局部几何结构,使局部保持投影算法能够自动根据数据集的分布构建近邻图,从而更加有效地实现降维。

著录项

  • 公开/公告号CN103034869A

    专利类型发明专利

  • 公开/公告日2013-04-10

    原文格式PDF

  • 申请/专利权人 湖州师范学院;

    申请/专利号CN201210518220.4

  • 发明设计人 蒋云良;胡文军;成新民;王娟;

    申请日2012-12-05

  • 分类号G06K9/62(20060101);

  • 代理机构杭州宇信知识产权代理事务所(普通合伙);

  • 代理人韩洪

  • 地址 313000 浙江省湖州市吴兴区学士路1号

  • 入库时间 2024-02-19 17:52:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-05-06

    授权

    授权

  • 2013-05-08

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20121205

    实质审查的生效

  • 2013-04-10

    公开

    公开

说明书

【技术领域】

本发明涉及特征提取的方法,具体涉及一种邻域自适应的局部保持投影方 法。

【背景技术】

在模式识别、信息融合、文本分类、计算视觉和数据挖掘等应用领域,常 常会碰到许多高维数据,处理高维数据需要很长的时间和非常大的存储空间, 因此,在进行诸如分类、聚类任务前,需要对高维数据进行降维预处理,常见 的两种降维方法是特征选择和特征提取。

目前,己出现了多种特征选择方法,如主成分分析、线性鉴别分析等,主 成分分析是一种无监督的降维方法,其目的是找出一组正交基,并在该组正交 基空间下捕获数据的全局信息;线性鉴别分析是一种监督的降维方法,其目的 通过最大类问散布矩阵和最小类内散布矩阵获得数据的一个变换子空间。另外, 基于流行学习方法,提出了ISOMAP、拉普拉斯特征映射、局部线性嵌入和局 部保持投影等降维方法,ISOMAP和拉普拉斯特征映射属于非线性算法,而局 部线性嵌入和局部保持投影是属于线性算法。一般来说,基于流行学习的降维 方法的核心思想是通过局部不变性来检测数据潜在的流行结构以便获得数据的 低维表示,另外,这种局部不变性通常使用一个近邻图来保证,但什么样的近 邻图是合适的、多大才算是局部成为了难题,具体来说,如何选择合适的近邻 大小来构建近邻图以便匹配流行的局部几何结构成为有效降维的关键。

【发明内容】

本发明的目的是解决邻域大小自动选择的问题,并集成到局部保持投影算 法中,使局部保持投影算法能够自动根据数据集的分布构建近邻图,实现有效 降维。

为实现上述目的,本发明提出了一种邻域自适应的局部保持投影方法,包 含如下步骤:

A)计算每个样本点xi的最近邻点zi或最近邻域εi

B)找出每个样本点xi的最近邻点N(xi);

C)计算近邻图的权矩阵w;

D)计算对角矩阵和拉普拉斯矩阵L=D-w;

E)计算特征问题XLXTv=λXDXTv的特征值和特征向量,  其中

F)根据E)步骤中所得的特征值的大小,依次输出d个最小特征值对应的特征 向量V=[v1,Λ,vd];

G)根据F)步骤中所得的特征向量V对每个样本点进行降维,获得低维数据 Y=VTX,其中

作为优选,所述A)步骤中所计算的是:每个样本点xi的最近邻点zi

zi=Exi~x~i(xj)=Σxjx~ip(xj)xj,---(1)

其中,所述xi为样本点,所述l≤i≤N,所述x~i=[x1,Λ,xi-1,xi+1,Λ,xN],是xj依据的数学期望,p(xj)指xj是xi最近邻点的概率。

作为优选,所述所述kσ(xi,xj)是带宽为σ的核函数。

作为优选,所述满足‖xi-xj‖≤‖xi-zi‖的所有样本点均为xi的最近邻点。

作为优选,所述A)步骤中所计算的是:每个样本点xi的最近邻域εi

ϵi=Exi~x~i(||xj-xi||2)=Σxjx~ip(xj)||xj-xi||2---(2)

其中,所述xi为样本点,所述1≤i≤N,所述x~i=[x1,Λ,xi-1,xi+1,Λ,xN],Exi~x~i(||xj-xi||2)是‖xj-xi2依据的数学期望。

作为优选,所述满足‖xi-xj2≤εi的所有样本点均为xi的最近邻点。

作为优选,所述若所得出的最近邻点个数不足规定的最小最近邻点个数kmin, 则通过欧式距离找出其他近邻点直至kmin个。

本发明的优点是:本发明与基于流行学习的降维方法相比,不需要设置一 个合适的近邻大小,而只要设置样本点的最小最近邻点个数kmin,即能够自动选 择每个样本点的最近邻点个数,自动匹配数据潜在流行的局部几何结构,并集 成到局部保持投影算法中,使局部保持投影算法能够自动根据数据集的分布构 建近邻图,实现有效降维。

【附图说明】

图l是本发明一种邻域自适应的局部保持投影方法的应用示意图。

图2是本发明一种邻域自适应的局部保持投影方法得到的分类性能于 COIL20数据集的示意图。

图3是本发明一种邻域自适应的局部保持投影方法得到的聚类性能于PIE 数据集的示意图,其中图3-a是本发明得到的聚类性能于PIE数据集5类的示意 图;其中图3-b是本发明得到的聚类性能于PIE数据集lO类的示意图;其中图 3-c是本发明得到的聚类性能于PIE数据集20类的示意图;其中图3-d是本发明 得到的聚类性能于PIE数据集30类的示意图;其中图3-e是本发明得到的聚类 性能于PIE数据集40类的示意图;其中图3-f是本发明得到的聚类性能于PIE 数据集50类的示意图;其中图3-g是本发明得到的聚类性能于PIE数据集60 类的示意图;其中图3-h是本发明得到的聚类性能于PIE数据集68类的示意图。

【具体实施方式】

实施例一

在真实的COIL20数据集数据集上,利用本发明进行降维,然后再进行分类 任务。参阅图1:本发明一种邻域自适应的局部保持投影方法,有两种方法,方 法一包含如下步骤:

A)计算每个样本点xi的最近邻点zi

zi=Exi~x~i(xj)=Σxjx~ip(xj)xj---(1),

其中,所述xi为样本点,所述1≤i≤N,所述x~i=[x1,Λ,xi-1,xi+1,Λ,xN],是xj依据的数学期望,p(xj)指xj是xi最近邻点的概率,所述 所述kσ(xi,xj)是带宽为σ的核函数,所述满足‖xi-xj‖≤‖xi-zi‖ 的所有样本点均为xi的最近邻点,若所得出的最近邻点个数不足规定的最小最 近邻点个数kmin,则通过欧式距离找出其他近邻点直至kmin个;

B)找出每个样本点xi的最近邻点N(xi);

C)计算近邻图的权矩阵W,采用0-1权计算近邻图的权矩阵W

即:

D)计算对角矩阵和拉普拉斯矩阵L=D-W;

E)计算特征问题XLXTv=λXDXTv的特征值和特征向量,其中

F)根据E)步骤中所得的特征值的大小,依次输出d个最小特征值对应的特征 向量V=[v1,Λ,vd];

G)根据F)步骤中所得的特征向量V对每个样本点进行降维,获得低维数据 Y=VTX,其中

方法二包含如下步骤:

A)计算每个样本点xi的最近邻点zi或最近邻域εi

B)找出每个样本点xi的最近邻点N(xi);

C)计算近邻图的权矩阵W,采用0-1权计算近邻图的权矩阵W

即:

D)计算对角矩阵和拉普拉斯矩阵L=D-W;

E)计算特征问题XLXTv=λXDXTv的特征值和特征向量,其中

F)根据E)步骤中所得的特征值的大小,依次输出d个最小特征值对应的特征 向量V=[v1,Λ,vd];

G)根据F)步骤中所得的特征向量V对每个样本点进行降维,获得低维数据 Y=VTX,其中

ϵi=Exi~x~i(||xj-xi||2)=Σxjx~ip(xj)||xj-xi||2---(2);

然后执行后续任务。

其中,所述xi为样本点,所述1≤i≤N,所述x~i=[x1,Λ,xi-1,xi+1,Λ,xN],是‖xj-xi||2依据的数学期望,所述满足‖xi-xj||2≤εi的所有样本点 均为xi的最近邻点,若所得出的最近邻点个数不足规定的最小最近邻点个数kmin, 则通过欧式距离找出其他近邻点直至kmin个。

如图2所示(LPPANS对应本发明方法),由于本发明自动匹配数据潜在流行 的局部几何结构,使得1-NN分类器在低维数据上就可以获得好的分类性能。

实施例2

在真实的PIE数据集上,利用本发明进行降维,然后再进行聚类任务。

参阅图1:本发明一种邻域自适应的局部保持投影方法,有两种方法,方法 一包含如下步骤:

A)计算每个样本点xi的最近邻点zi

zi=Exi~x~i(xj)=Σxjx~ip(xj)xj---(1),

其中,所述xi为样本点,所述1≤i≤N,所述x~i=[x1,Λ,xi-1,xi+1,Λ,xN],是xj依据的数学期望,p(xj)指xj是xi最近邻点的概率,所述 所述kσ(xi,xj)是带宽为σ的核函数,所述满足‖xi-xj‖≤‖xi-zi‖ 的所有样本点均为xi的最近邻点,若所得出的最近邻点个数不足规定的最小最 近邻点个数kmin,则通过欧式距离找出其他近邻点直至kmin个;

B)找出每个样本点xi的最近邻点N(xi);

C)计算近邻图的权矩阵W,采用0-1权计算近邻图的权矩阵W

即:

D)计算对角矩阵和拉普拉斯矩阵L=D-W;

E)计算特征问题XLXTv=λXDXTv的特征值和特征向量,其中

F)根据E)步骤中所得的特征值的大小,依次输出d个最小特征值对应的特征 向量V=[v1,Λ,vd];

G)根据F)步骤中所得的特征向量V对每个样本点进行降维,获得低维数据 Y=VTX,其中

方法二包含如下步骤:

A)计算每个样本点xi的最近邻点zi或最近邻域εi

B)找出每个样本点xi的最近邻点N(xi);

C)计算近邻图的权矩阵W,采用0-1权计算近邻图的权矩阵W 即:

D)计算对角矩阵和拉普拉斯矩阵L=D-W;

E)计算特征问题XLXTv=λXDXTv的特征值和特征向量,其中

F)根据E)步骤中所得的特征值的大小,依次输出d个最小特征值对应的特征 向量V=[v1,Λ,vd];

G)根据F)步骤中所得的特征向量V对每个样本点进行降维,获得低维数据 Y=VTX,其中

ϵi=Exi~x~i(||xj-xi||2)=Σxjx~ip(xj)||xj-xi||2---(2);

然后执行后续任务。

其中,所述xi为样本点,所述1≤i≤N,所述x~i=[x1,Λ,xi-1,xi+1,Λ,xN],是||xj-xi||2依据的数学期望,所述满足‖xi-xj2≤εi的所有样本点 均为xi的最近邻点,若所得出的最近邻点个数不足规定的最小最近邻点个数kmin, 则通过欧式距离找出其他近邻点直至kmin

参阅图3-a~图3-h:即LPPANS对应本发明方法,由于本发明自动匹配数据 潜在流行的局部几何结构,使得K-Means聚类方法在低维数据上就可以获得好 的聚类性能。

上述实施例是对本发明的说明,不是对本发明的限定,任何对本发明简单 变换后的方案均属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号