首页> 中国专利> 一种基于完备相容类的云平台不完备大数据填补方法

一种基于完备相容类的云平台不完备大数据填补方法

摘要

本发明公开了一种基于完备相容类的云平台不完备大数据填补方法,通过不完备大数据中的完备信息并行填补其缺失属性。本方法提高不完备数据填补的效率,有效填补缺失值过多的不完备大数据。建立了完备数据和不完备数据更为直接的联系,结合缺失属性的倒排索引和不完备数据的相容类,将数据集划分为若干完备相容类。获取完备部分中各缺失属性的频繁项集,根据频繁项集生成填补信息,并行填补具有相容关系的不完备数据,充分利用大数据的完备信息的频繁项集,并行填补具有相容关系的不完备数据。采用并行填补的方式也即采用多台机器同时去填补不同记录的缺失值也加大了填补的效率。

著录项

  • 公开/公告号CN104598618A

    专利类型发明专利

  • 公开/公告日2015-05-06

    原文格式PDF

  • 申请/专利权人 武汉理工大学;

    申请/专利号CN201510051653.7

  • 发明设计人 袁景凌;杨光;钟珞;陈旻骋;

    申请日2015-01-30

  • 分类号G06F17/30;

  • 代理机构武汉开元知识产权代理有限公司;

  • 代理人潘杰

  • 地址 430070 湖北省武汉市珞狮路122号武汉理工大学

  • 入库时间 2023-12-18 08:40:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-21

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2015100516537 登记生效日:20230411 变更事项:专利权人 变更前权利人:武汉理工大学 变更后权利人:武汉泽塔云科技股份有限公司 变更事项:地址 变更前权利人:430070 湖北省武汉市珞狮路122号武汉理工大学 变更后权利人:430050 湖北省武汉市汉阳区梅林东路19号华发四季二期写字楼14层(1)号

    专利申请权、专利权的转移

  • 2018-03-27

    授权

    授权

  • 2015-05-27

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150130

    实质审查的生效

  • 2015-05-06

    公开

    公开

说明书

技术领域

本发明涉及不完备信息处理和大数据处理领域,具体 是指一种基于完备相容类的云平台不完备大数据填补方法。

背景技术

不完备信息处理是指根据一定的策略和方法,处理不 完备信息系统中属性缺失的数据信息,从而让不完备数据发 挥与完备数据相同的价值。随着信息技术的不断发展,数据 呈爆发式增长。大数据成为各行各业日益关注的对象。大数 据不仅具有数据量大,数据多样化,数据变化快和数据价值 大的4V特性,而且大数据往往是不完备的。不完备信息的 处理,特别是不完备大数据的处理具有十分重大的意义。

目前处理不完备数据的方法主要是数据填补和模型 扩充,数据填补具有更为广泛的适应范围,填补后的数据可 以直接作为完备数据进行应用。目前的不完备数据填补大多 是依据粗糙集中的相容块和极大相容块填补缺失属性值。但 是相容块和极大相容块的求取本身是十分耗时的过程,而且 无法有效处理空值过多的不完备数据集,填补记录的过程也 十分低效。

为了解决这个问题,需要研究怎样有效利用完备信 息,发现完备信息与不完备信息的联系;并且高效的计算需 要填补的值,以及高效的填补缺失数据。云计算是一种有效 的手段。云计算是指利用云平台的并行化有效,采用分布式 并行系统处理问题。在云平台结合大数据分析,是云计算的 一种实际运用。根据大数据的完备信息,划分数据集为完备 相容类,能够高效计算填补值,并行填补不完备数据,以满 足填补不完备大数据的信息需求。如何将上述技术应用于不 完备数据的填补,是一个亟待研究的课题。

发明内容:

本发明的目的是为了解决上述背景技术存在的不足, 提出一种基于完备相容类的云平台不完备大数据填补方法, 提高不完备数据填补的效率,有效填补缺失值过多的不完备 大数据。

为了实现上述目的,本发明所采用的技术方案为:

一种基于完备相容类的云平台不完备大数据填补方 法,该方法包括如下步骤:步骤一,扫描待处理的大数据, 生成以缺失属性序列为关键字的倒排索引;步骤二,依据倒 排索引将待处理的大数据中的不完备数据划分为若干相容 类;步骤三,对待处理的大数据中完备数据进行映射端连接 操作,得到映射端输出中间结果,结合步骤二所得的若干相 容类将待处理的大数据划分为若干完备相容类;步骤四,依 次读取各个完备相容类中对于缺失属性序列的频繁项集,从 频繁项集中生成对缺失属性序列的值覆盖,用值覆盖填补该 完备相容类中的不完备数据。

较佳地,步骤二是依据缺失属性序列的倒排索引,比 较缺失属性相同的不完备数据记录;将除缺失属性外剩余属 性值相同的记录划分到同一相容类。

较佳地,步骤三具体包括以下步骤:31)对待处理的 大数据中完备数据进行映射端连接操作,得到映射端输出中 间结果;32)读取映射端输出文件与步骤二所得相容类中不 完备数据具有相容关系的完备数据;33)将步骤32)所得的完 备数据与步骤二所得的相容类组合成为若干完备相容类。

较佳地,每个完备相容类包括具有相容关系的不完备 数据记录和用于获取填补值的完备数据。

较佳地,完备相容类具有类标签,类标签包括缺失属 性序列及除缺失属性序列之外剩余属性值。

较佳地,步骤四是依次对步骤三所得各完备相容类做 如下操作:41)读取完备相容类在缺失属性序列中的属性值, 从所有属性值中挖掘频繁项集;42)从频繁项集中生成对缺 失属性序列的值覆盖;43)用值覆盖填补完备相容类中的缺 失数据;44)若缺失属性序列未填补完毕,则从填补后的完 备相容类中剩余的缺失属性序列中继续挖掘频繁项集,然后 回到步骤42);若缺失属性序列均已填补完毕则退出。

较佳地,步骤41)是采用频繁模式增长方法FP-growth 从所有属性值中挖掘频繁项集。

较佳地,步骤42)从频繁项集中生成对缺失属性序列 的值覆盖时,优先选择包含属性序列个数最多的频繁项。

较佳地,生成对缺失属性序列的值覆盖时,若存在多 个频繁项所包含的属性序列个数相同,则从中选择出现频度 最大的频繁项。

较佳地,用所述值覆盖填补完备相容类中的缺失数据 时采用并行填补方式。

本发明的有益效果在于:提出了一种基于完备相容类 的云平台不完备大数据填补方法,通过不完备大数据中的完 备信息并行填补其缺失属性。本方法提高不完备数据填补的 效率,有效填补缺失值过多的不完备大数据。建立了完备数 据和不完备数据更为直接的联系,结合缺失属性的倒排索引 和不完备数据的相容类,将数据集划分为若干完备相容类。 获取完备部分中各缺失属性的频繁项集,根据频繁项集生成 填补信息,并行填补具有相容关系的不完备数据,充分利用 大数据的完备信息的频繁项集,并行填补具有相容关系的不 完备数据。采用并行填补的方式也即采用多台机器同时去填 补不同记录的缺失值也加大了填补的效率。

附图说明

图1是本发明实施例的流程图,

图2是本发明实施例缺失属性序列的倒排索引结构图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

一种基于完备相容类的云平台不完备大数据填补方法 (图1),该方法包括如下步骤:

步骤S1,扫描待处理的大数据,生成以缺失属性序列 为关键字的倒排索引;

扫描待处理的数据集,检测每条数据记录的是否存在 缺失值。统计缺失属性序列及其对应的记录,以缺失属性序 列为关键字,生成指向缺失属性所在记录的倒排索引。读取 全部记录后,生成缺失属性序列的列表以及缺失属性序列的 倒排索引。

序列1、3和序列2、5分别表示两种缺失属性序列(图 2)。序列1、3表示记录中存在属性缺失,而且缺失的属性 为第1个属性和第3个属性。其中“*”表示缺失属性值,Vi,j 表示第i条记录的第j个属性的值。这样,每个缺失属性序 列指向对应的数据记录。根据缺失属性的倒排索引结构,只 需比较相同缺失属性序列的剩余属性值,就可判断不完备数 据间是否具有相容关系。

这种方法可以高效的将具有相容关系的完备数据划分 到相同相容类。而且可以在划分完备相容类和并行填补过程 中,都可通过该索引直接找到目标记录或目标数据块。

步骤S2,依据所述倒排索引将待处理的大数据中的不 完备数据划分为若干相容类;

依据缺失属性序列的倒排索引,比较缺失属性相同的 不完备数据记录;将除缺失属性外剩余属性值相同的记录划 分到同一相容类。

具体的,根据步骤S1所得的缺失属性序列的倒排索引 结构,以缺失属性为key,剩余属性为value构成键值对 (key/value),并交由hadoop平台的多个mapreduce任务处理。 通过reduce任务规约合并相同缺失属性key的不完备记录, 此处的不完备记录包括缺失属性记录,将相同剩余属性 value的原始记录值输出到相同文件,这里所说的原始记录 为包括缺失属性和剩余属性共同在内的各个记录。通过上述 方法将除缺失属性之外的各剩余属性值相同的记录划分到 同一相容类,完成了将大数据中的不完备数据划分为若干相 容类的步骤。

步骤S3,划分大数据为若干完备相容类。对待处理的 大数据中完备数据进行映射端连接操作,得到映射端输出中 间结果,结合步骤二所得的若干相容类将所述待处理的大数 据划分为若干完备相容类;具体为:

S31对待处理的大数据中完备数据进行映射端连接操 作,得到映射端输出中间结果;

具体是将步骤S2所得全部相容类以数据块的形式上传 至分布式文件系统,按照属性序列及其属性值,对原始数据 集中的完备数据进行Map端的连接操作(map端join)。

S32读取所述映射端输出文件与所述步骤S2所得相容 类中不完备数据具有相容关系的完备数据;

S33将步骤S32所得的完备数据与步骤S2所得的相容 类组合成为若干完备相容类。

每个完备相容类包括具有相容关系的不完备数据记录 和用于获取填补值的完备数据。所述完备相容类具有类标 签,所述类标签包括缺失属性序列及除缺失属性序列之外剩 余属性值。

步骤S4,依次读取各个所述完备相容类中对于缺失属 性序列的频繁项集,从所述频繁项集中生成对缺失属性序列 的值覆盖,用所述值覆盖并行填补该完备相容类中的不完备 数据。

依次对所述步骤S3所得各完备相容类做如下操作:

S41读取完备相容类在缺失属性序列中的属性值,从所 有属性值中挖掘频繁项集;采用频繁模式增长方法FP-growth 从所有属性值中挖掘频繁项集。

S42从所述频繁项集中生成对所述缺失属性序列的值 覆盖;从所述频繁项集中生成对所述缺失属性序列的值覆盖 时,优先选择包含属性序列个数最多的频繁项。生成对所述 缺失属性序列的值覆盖时,若存在多个频繁项所包含的属性 序列个数相同,则从中选择出现频度最大的频繁项。

S43用所述值覆盖并行填补完备相容类中的缺失数据。 以完备相容类为单位,结合L的倒排索引,找到完备相容类 中不完备数据。本实施例采用并行填补的方式也即采用多台 机器机器同时去填补不同记录的缺失值也大大提高了填补 的效率。

S44若缺失属性序列未填补完毕,则从填补后的完备相 容类中剩余的缺失属性序列中继续挖掘频繁项集,然后回到 步骤42),依据步骤S42所述的方法继续挖掘剩余未填补缺 失属性序列的频繁项集,读取剩余部分的最长频繁项,继续 生成对剩余的缺失属性序列的值覆盖。若缺失属性序列均已 填补完毕则退出循环,数据填补完毕。

依次对所述步骤三所得各完备相容类做上述步骤S41 至步骤S44的操作时,根据完备相容类的数目和集群环境中 节点数目,设置每个job任务中map任务的数目。将同一完 备相容类中的数据交由不同map任务处理。

本实施例所述方法中,对不完备数据构建了以缺失属 性序列为关键字的倒排索引。然后结合相容类,建立包含不 完备数据及其相关完备信息的完备相容类。通过求得完备相 容类中完备部分的属性频繁项集,分析出缺失属性序列的合 理填补值。并且并行填补各完备相容类中具有相容关系的不 完备数据,在保障数据效用的同时,高效填补不完备大数据。 更重要的是,面对云平台上的不完备的大数据,可以使用此 方法来进行不完备数据填补,能够在保证数据效用的同时, 高效填补大数据中过多的缺失属性值,具有很大的价值,可 以有效的进行不完备大数据的处理。

应当理解的是,对本领域普通技术人员来说,可以根 据上述说明加以改进或变换,而所有这些改进和变换都应属 于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号