首页> 中国专利> 基于粗糙分类知识发现的快速属性约简方法

基于粗糙分类知识发现的快速属性约简方法

摘要

一种基于粗糙分类知识发现的快速属性约简方法,涉及数据处理技术领域,所解决的是简化约简原理,最快压缩冗余数据的技术问题。该方法的具体步骤如下:1)在条件属性集中找出核属性组成核属性集,余下的条件属性组成待选属性集;2)判断核属性集是否为数据集的约简解,如果是则属性约简即告完成;3)以决策属性集的分类知识为标准评价各待选属性的分类能力,找出与核属性集组合后的分类知识相对决策属性集的分类知识一致性最高的待选属性移至核属性集;4)判断已选属性集是否为数据集的约简解,如果是则属性约简即告完成,如果不是则转至步骤3。本发明提供的方法,特别适用于高维数据集。

著录项

  • 公开/公告号CN102262682A

    专利类型发明专利

  • 公开/公告日2011-11-30

    原文格式PDF

  • 申请/专利权人 上海应用技术学院;

    申请/专利号CN201110239348.2

  • 发明设计人 徐宁;

    申请日2011-08-19

  • 分类号G06F17/30;

  • 代理机构上海申汇专利代理有限公司;

  • 代理人吴宝根

  • 地址 200235 上海市徐汇区漕宝路120号

  • 入库时间 2023-12-18 03:47:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-09

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20160120 终止日期:20180819 申请日:20110819

    专利权的终止

  • 2016-01-20

    授权

    授权

  • 2012-01-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110819

    实质审查的生效

  • 2011-11-30

    公开

    公开

说明书

技术领域

本发明涉及数据处理技术,特别是涉及一种基于粗糙分类知识发现的快速属性约简方法的技术。

背景技术

发现大数据集中潜藏知识的方法主要有以下两种:1)数据统计方法,该方法具有局限性明显的缺陷,在数据集庞大、数据稀疏的情况下其算时较长,而且当数据集属性较多时,其算时会呈指数式上升;2)粗糙理论,该理论提出在保持系统分类知识不变的情况下,可约简不需要的属性和数据,这改进了数据的压缩处理,但该理论在属性数量较多时,仍存在计算量问题。

为了克服发现大数据集中潜藏知识时因属性数量多而产生的计算量问题,产生了多种以粗糙理论为基础的启发式方法来选择数据集需要的属性,这些方法中又以属性重要性启发式方法为最多,即按照某种评价标准排序属性再依次选择。这些启发式方法的启发式规则多要借助其他理论:如信息论、生物计算、矩阵方法等,因此其约简属性的方法原理解释很复杂,一次约简后仍会存在冗余属性,不能确定距最小属性集的距离,具有对数据集适应性不强的缺陷。

发明内容

针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能有效克服了大计算量问题,且约简原理明确简单,能使运算快速逼近最小属性组合,最快压缩冗余数据的基于粗糙分类知识发现的快速属性约简方法。

为了解决上述技术问题,本发明所提供的一种基于粗糙分类知识发现的快速属性约简方法,包括待进行属性约简的数据集,所述数据集包含有多个属性,并根据数据集中各个对象的各个属性取值,对数据集中所有对象进行分类,同一属性的取值相同的各个对象,归在该属性分类的同一类,数据集中的属性分为两种,分别为决策属性、条件属性,所述决策属性是整个数据集分类的一种分类标准,各决策属性组成一个决策属性集,各条件属性组成一个条件属性集,其特征在于,该方法的具体步骤如下:

1)在条件属性集中找出必不可少的各个条件属性作为核属性,余下的各个条件属性作为待选属性,各核属性组成一个核属性集,各待选属性组成一个待选属性集;

2)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤 3;

3)以决策属性集的分类知识为标准评价各待选属性的分类能力,找出与核属性集组合后的分类知识相对决策属性集的分类知识一致性最高的待选属性,并将所找出的待选属性从待选属性集移至核属性集;

其中,待选属性分类能力评价时,先将待选属性集与核属性集进行交运算,再根据该交运算子集对数据集中所有对象进行分类,并将其每个分类,与根据决策属性集对数据集中所有对象进行分类后的每个分类进行比较,一个分类中相同的对象数越多,则表明该交运算子集的分类知识与决策属性集的分类知识一致性越高,反之则表明该交运算子集的分类知识与决策属性集的分类知识一致性越低;

4)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤 3。

进一步的,所述步骤3中待选属性分类能力评价时,先将待选属性集与核属性集进行交运算,再根据该交运算子集对数据集中所有对象进行分类,并将其每个分类,与根据决策属性集对数据集中所有对象进行分类后的每个分类进行比较,一个分类中相同的对象数越多,则表明该交运算子集的分类知识与决策属性集的分类知识一致性越高,反之则表明该交运算子集的分类知识与决策属性集的分类知识一致性越低。

进一步的,所述步骤3中的待选属性分类能力评价步骤如下:

3.1)将数据集记为:S={UAV, f };

其中,为数据集,U为对象的非空集合,CDC为对象的条件属性集,D为对象的决策属性集,V为属性取值集合,fUA间值域的映射函数,有f=U×aVaC

将核属性集记为R,待选属性记为c,有cC - R

3.2)根据决策属性集对数据集中的所有对象进行分类,得到决策属性分类集为:

πDU/ind(D)={Y1Y2,…,Yd};

其中,πD为决策属性分类集,Y1Yd为决策属性分类集中的对象;

3.3)根据核属性集对数据集中的所有对象进行分类,得到核属性分类集为:

πR= U/ind(R)={U1U2,…,Ur};

其中,πR为核属性划分类集,U1Ur为核属性分类集中的对象;

3.4)得到决策属性分类集与核属性分类集的交运算子集为:

π=πR·πD=U/ind(RD)=                                               

其中,

3.5)根据待选属性集对数据集中的所有对象进行分类,得到待选属性分类集为:

πc=U/={B1B2,…,Bq};

其中,πc为待选属性分类集,B1Bq为待选属性分类集中的对象;

3.6)用πc对πR 的进行交运算,得到:

πc·

其中,

3.7)得到待选择属性集的分类积分为:

sig(c) = 

 =

其中,sig(c) 为待选择属性集的分类积分;

3.8)将待选属性集中分类积分值最高的待选属性移至核属性集;

3.9)根据核属性集对U中的所有对象进行分类,并将独立为一个对象的分类中的对象从U中减去。

本发明提供的基于粗糙分类知识发现的快速属性约简方法,采用了基于粗糙理论的启发式方法,能有效克服大计算量问题,而且其启发规则是完全基于数据集的分类知识建立的,选择属性不仅从个体独立的分类知识,而且考虑选择后的集合分类知识,以及分类的标准以决策分类知识本身为标准,其约简原理明确,符合粗糙约简理论的分类知识不变思想,并根据约简过程和启发式特点,优化处理方法,能使运算快速逼近最小属性组合,最快压缩冗余数据。

 

附图说明

图1是本发明实施例的基于粗糙分类知识发现的快速属性约简方法的属性约简流程图。

具体实施方式

以下结合附图说明对本发明的实施例作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围。

如图1所示,本发明实施例所提供的一种基于粗糙分类知识发现的快速属性约简方法,包括待进行属性约简的数据集,所述数据集包含有多个属性,并根据数据集中各个对象的各个属性取值,对数据集中所有对象进行分类,同一属性的取值相同的各个对象,归在该属性分类的同一类,数据集中的属性分为两种,分别为决策属性、条件属性,所述决策属性是整个数据集分类的一种分类标准,各决策属性组成一个决策属性集,各条件属性组成一个条件属性集,其特征在于,该方法的具体步骤如下:

1)在条件属性集中找出必不可少的各个条件属性作为核属性,余下的各个条件属性作为待选属性,各核属性组成一个核属性集,各待选属性组成一个待选属性集;

2)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤 3;

3)以决策属性集的分类知识为标准评价各待选属性的分类能力,找出与核属性集组合后的分类知识相对决策属性集的分类知识一致性最高的待选属性,并将所找出的待选属性从待选属性集移至核属性集;

其中,待选属性分类能力评价时,先将待选属性集与核属性集进行交运算,再根据该交运算子集对数据集中所有对象进行分类,并将其每个分类,与根据决策属性集对数据集中所有对象进行分类后的每个分类进行比较,一个分类中相同的对象数越多,则表明该交运算子集的分类知识与决策属性集的分类知识一致性越高,反之则表明该交运算子集的分类知识与决策属性集的分类知识一致性越低;

4)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤 3。

本发明实施例中,所述步骤3中的待选属性分类能力评价步骤如下:

3.1)将数据集记为:S={UAV, f };

其中,为数据集,U为对象的非空集合,CDC为对象的条件属性集,D为对象的决策属性集,V为属性取值集合,fUA间值域的映射函数,有f=U×aVaC

将核属性集记为R,待选属性记为c,有cC - R

3.2)根据决策属性集对数据集中的所有对象进行分类,得到决策属性分类集为:

πDU/ind(D)={Y1Y2,…,Yd};

其中,πD为决策属性分类集,Y1Yd为决策属性分类集中的对象;

3.3)根据核属性集对数据集中的所有对象进行分类,得到核属性分类集为:

πR= U/ind(R)={U1U2,…,Ur};

其中,πR为核属性划分类集,U1Ur为核属性分类集中的对象;

3.4)得到决策属性分类集与核属性分类集的交运算子集为:

π=πR·πD=U/ind(RD)=

其中,

3.5)根据待选属性集对数据集中的所有对象进行分类,得到待选属性分类集为:

πc=U/={B1B2,…,Bq};

其中,πc为待选属性分类集,B1Bq为待选属性分类集中的对象;

3.6)用πc对πR 的进行交运算,得到:

πc·

其中,

3.7)得到待选择属性集的分类积分为:

sig(c) = 

 =

,;

其中,sig(c) 为待选择属性集的分类积分;

3.8)将待选属性集中分类积分值最高的待选属性移至核属性集;

3.9)根据核属性集对U中的所有对象进行分类,并将独立为一个对象的分类中的对象从U中减去,使U中只留下需要继续分类的对象,使分类知识的评价更为准确。

本发明实施例特别适用于高维数据集。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号