首页> 中国专利> 一种基于无监督特征选择的分类方法

一种基于无监督特征选择的分类方法

摘要

本发明公开了一种基于无监督特征选择的分类方法,将高维数据表述成相似图形式,用信息理论度量学习(ITML)得到样本点之间的距离,建立原高维数据的相似矩阵;接着对相似矩阵和其对应的对角矩阵,采用SM算法完成原始样本集到特征向量空间的映射;然后通过学习稀疏系数向量和MCFS得分,得到原始样本集中每个属性的权重系数,并选出最能表达原样本信息的属性;最后用支持向量机对特征选择后的数据建立分类模型,对驾驶员的疲劳状况进行预测。本方法在建立分类模型前,对高维数据在保留数据簇结构的情况下进行特征选择,从而解决了维度灾难给数据分类带来的负面影响。

著录项

  • 公开/公告号CN103942568A

    专利类型发明专利

  • 公开/公告日2014-07-23

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201410166747.4

  • 发明设计人 郑宝芬;苏宏业;罗林;

    申请日2014-04-22

  • 分类号G06K9/62(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-12-17 01:00:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-05

    授权

    授权

  • 2014-08-20

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20140422

    实质审查的生效

  • 2014-07-23

    公开

    公开

说明书

技术领域

本发明涉及信号处理、数据挖掘以及聚类分析等数据处理领域,具体涉及一种利用基于 信息度量学习的无监督特征选择方法对高维数据进行降维,然后用支持向量机建立分类模型 的方法。

背景技术

随着互联网和信息行业的不断发展,经济、电子信息、医学、气象等多个领域的数据信 息也迎来了爆发式增长的阶段,其中不乏海量的高维数据。如何对高维数据进行分类,以更 好地发现潜在的有用信息,是数据挖掘领域的研究热点。

分类是通过建立描述预先定义的数据类或概念集的分类器,预测数据类标号的过程,有 助于我们更好地全面了解数据,广泛应用于数据挖掘、机器学习、模式识别等领域,在电子 商务等实际应用中创造了巨大的价值。

针对高维数据分类问题,传统方法通常是先对数据进行特征选择,再建立分类模型。然 而在特征选择的时候通常是通过某种评价标准来对高维数据的特征进行重要性排序,忽略了 不同的特征之间可能存在的关联,因此不能产生最优的特征子集,从而不能得到最优的分类 结果。

发明内容

本发明的目的在于针对现有技术的不足,提供一种基于无监督特征选择的分类方法。

本发明的目的是通过以下技术方案来实现的:一种基于无监督特征选择的分类方法,该 方法包括以下步骤:

(1)采集疲劳驾驶实验中志愿者的脑电图,对脑电图数据进行预处理,并进行特征抽取 和归一化,得到样本数据集;

(2)将步骤1得到的样本数据集表述成相似图形式,并采用信息理论度量学习得到到样 本数据集中不同样本点之间的距离,即建立样本数据集 的相似矩阵,其中,xi、xj代表两个不同的样本数据,M是一个d×d维的半正定矩阵,d 为输入空间的维度,WM(xi,xj)为xi、xj两个样本点之间的距离;

(3)采用SM算法,利用样本数据集的相似矩阵W和其对应的对角矩阵D得到相似图 的非规格拉普拉斯矩阵L,求解L的广义特征向量,取前k个记为Y=[y1,…,yk],完成样本 数据集到特征向量空间的映射;

(4)对样本数据集的每个维度的重要性,首先计算各维度沿每个特征向量的相关系数, 然后通过MCFS得分,得到每个维度对于样本数据集的相关系数;

(5)将每个维度对于样本数据集的相关系数从大到小进行排序,选择相关系数较大的维 度,完成高维数据的特征选择;

(6)用支持向量机对步骤5特征选择后的数据建立分类模型;

(7)采集驾驶员的脑电数据,将其进行步骤1到步骤5所述的处理后,输入步骤6建立 的分类模型,判断其是否处于疲劳状态。

进一步地,所述步骤2中所述的相似矩阵的建立方法如下:

(2.1)将样本数据集表示成相似图形式,具体方法为:若数据点为x=[x1,x2…,xd],将 数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作相应顶点连接边E的权 值,得到一个基于相似度的无向加权图G(V,E),每个顶点只与k个相似度最高的点连边,以 简化计算复杂度;

(2.2)采用信息理论度量学习(ITML)算法计算相似图中不同顶点的距离,其中马氏 距离的定义为ITML引入了LogDet散度正规化,即 Dld(M,M0)=tr(MM0-1)-logdet(MM0-1)-d,用最小化Dld(M,M0)方法求解半正定矩 阵M,其中u,v是阈值参数,M0为我们要保持接近的一 些PSD矩阵,Dld(M,M0)是LogDet散度。

进一步地,所述步骤3中所述的样本数据集到特征向量空间的映射的方法具体如下:

(3.1)定义一个对角矩阵D,其对角线上的数为W中对应行的和,即Dii=∑jWij。则 相似图的非规格拉普拉斯矩阵L定义为L=D-W;

(3.2)通过Ly=λDy计算得到拉普拉斯矩阵的前k个特征向量,记为Y=[y1,…,yk], 完成了样本数据集到特征向量空间的映射。

进一步地,所述步骤4中所述的得到每个维度对于样本数据集的相关系数的方法具体如 下:

(4.1)根据步骤3得到的yi(i=1,2,...,k),通过最小化拟合误差公式 找到一个最佳子集,其中ai为M维向量,代表不同维度的相关系 数,X是样本数据集矩阵,β是权重系数,求解该公式可采用最小角度回归(LARs)算法, 得到第i维数据沿第j个特征向量的相关系数ai,j

(4.2)根据步骤4.1得到的每个维度对应的k个相关系数,根据MCFS得分的公式:

MCFS(j)=maxi|ai,j|

得到第i维度对于样本数据集的相关系数MCFS(j)。

本发明的有益效果是,针对传统高维数据分类方法在特征选择时忽略了不同特征之间可 能存在的关联从而引起的分类精确度下降的问题,提供了一种能在保留数据簇结构的情况下, 进行特征选择并建立分类模型的方法,提升了分类速度和分类精确度。

附图说明

图1为本发明的算法流程图;

图2为高维数据挖掘的处理流程图;

图3为本发明提出的分类方法和传统分类方法的精确度对比图。

具体实施方式

本发明针对“维度灾难”对高维数据挖掘的影响,首先通过谱图理论和ITML度量学习获得 高维数据的相似矩阵,然后采用SM算法完成原始样本集到特征向量空间的映射,通过学习 稀疏系数向量和MCFS得分进行特征选择。最后,通过支持向量机对特征选择后的数据建立 分类模型并对驾驶员的脑电数据进行分类,验证算法的有效性。相比其他算法,本发明在建 立分类模型之前进行特征选择时,很好地保留了高维数据特征之间的关联,有利于克服“维 度灾难”对高维数据的影响。

如图1、图2所示,本发明基于无监督特征选择的分类方法,包括以下步骤:

(1)采集模拟驾驶的脑电图,数据预处理、特征抽取、归一化

在屏蔽室内搭建模拟驾驶的实验平台,用32通道的Ag/AgCI电极帽采集志愿者模拟驾驶 时的脑电数据。结合脑疲劳相关理论知识和实验数据质量的需要,每次实验持续2~2.5个小 时,记录志愿者模拟驾驶时的脑电图。然后,对脑电数据以5秒为一个样本点进行离散化, 进行缺失值填补、去噪等数据预处理,提取σ,θ,α,β四种代表大脑清醒程度的节律波, 采用小波变换、近似熵、样本熵和最大Lyapunov指数4种特征表示的方法进行特征抽取,得 到一个149×352的数据集,对该数据集进行归一化。

(2)将样本数据集表述成相似矩阵

(2.1)将样本数据集表示成相似图形式。假设数据点为x=[x1,x2…,xd],将数据集中的 每个对象看作是图的顶点V,将顶点间的相似度量化作相应顶点连接边E的权值,得到一个 基于相似度的无向加权图G(V,E),每个顶点只与k个相似度最高的点连边,以简化计算复杂 度。

(2.2)采用信息理论度量学习(ITML)算法计算相似图中不同顶点的距离,其中马氏 距离的定义为xi、xj代表两个不同的样本数据,M是 一个d×d维的半正定矩阵,保证了WM符合伪距离的条件。ITML引入了LogDet散度正规 化,即Dld(M,M0)=tr(MM0-1)-logdet(MM0-1)-d,用最小化Dld(M,M0)方法求解半 正定矩阵M,其中u,v是阈值参数。

(3)将样本数据集映射到特征向量空间

定义一个对角矩阵D,其对角线上的数为W中对应行的和,即Dii=∑jWij。则相似图 的非规格拉普拉斯矩阵定义为L=D-W。通过Ly=λDy计算得到拉普拉斯矩阵的前k个特 征向量,记为Y=[y1,…,yk],完成了原始样本集到特征向量空间的映射。

(4)计算样本数据集每个维度的相关系数

(4.1)计算各维度沿每个特征向量的相关系数。给定yi(i=1,2,...,k),通过最小化拟 合误差公式找到一个最佳子集,其中ai为M维向量,代表不同维 度的相关系数,X是样本数据矩阵,β是权重系数,求解该公式可采用最小角度回归(LARs) 算法。

(4.2)根据得到的每个维度对应的d个相关系数,采用MCFS得分的方法,即 选取其中最大的一个相关系数作为该维度的相关系数。

(5)对样本数据集进行特征选择

将每个维度对样本数据的相关系数从大到小进行排序,选择相关系数较大的维度,完成 样本数据的特征选择。

(6)对特征选择后的数据建立分类模型

采用支持向量机算法对特征选择后的数据建立分类模型,分类结果包括疲劳和不疲劳两 种状态。将模拟驾驶脑电数据的维度分别选取20、40、60、80、100,用支持向量机建立模 型。在每个特征选择后的样本集中,随机抽取70%作为训练集,用来建立分类模型,30%作 为测试集,用来预测模型的准确度。预测结果输出图如图3所示,其中MLUFS_SVM表示本 发明提出的分类方法。由图可以看出新的方法相比于传统方法,具有更高的预测精度,而且 更稳定。

(7)用建立好的分类模型进行分类

采集驾驶员的脑电数据,将其进行步骤1到步骤5的数据处理,然后输入到步骤6建立 的分类模型,判断某一时刻驾驶员是否处于疲劳状态。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的 不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根 据本发明构思所能够想到的等同技术手段。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号