首页> 中国专利> 一种高维数据模式分类方法、装置及系统

一种高维数据模式分类方法、装置及系统

摘要

本申请公开了一种高维数据模式分类方法、装置及系统,方法包括:主节点读取待分类的高维数据,高维数据为三维数组,任意行和列组合对应位置处的数据集合作为一个目标,目标为Bands维列向量,Bands为三维数组的层数;主节点读取标记有分类类别的训练样本集,并在从属节点中分配存储空间,将三维数据、训练样本集拷贝到对应存储空间,以供从属节点启动若干个线程,每个线程分别利用训练样本集,对自身负责的若干个目标进行模式分类计算;主节点将从属节点计算的各目标的分类结果拷贝到主节点。本申请中主节点负责流程控制,从属节点负责并行处理高维数据的模式分类计算工作,提高了计算效率。

著录项

  • 公开/公告号CN105760427A

    专利类型发明专利

  • 公开/公告日2016-07-13

    原文格式PDF

  • 申请/专利权人 中国科学院遥感与数字地球研究所;

    申请/专利号CN201610059942.6

  • 申请日2016-01-28

  • 分类号G06F17/30;G06K9/62;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人王宝筠

  • 地址 100101 北京市朝阳区大屯路甲20号北

  • 入库时间 2023-06-19 00:06:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-30

    授权

    授权

  • 2016-08-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160128

    实质审查的生效

  • 2016-07-13

    公开

    公开

说明书

技术领域

本申请涉及模式分类技术领域,更具体地说,涉及一种高维数据模式分 类方法、装置及系统。

背景技术

现代生活逐渐进入物联网时代,各种不同类别和功能的实体目标通过数 字化描述和网络通信实现相互联系,极大提高了生活质量和生产效率。传感 器技术依据电磁波等介质与目标作用原理,能够经济便捷地采集实体目标的 多种属性数据,有力支撑了人们对实体目标数字化管理和科学认知。

伴随着传感器类型及其应用程度的不断增加,人们能够获取的目标属性 数据的种类和数量不断增大,通过挖掘蕴含在大量数据中的不同类别的模式 信息,为日常生活和科研活动带来了更多可能。

然而,实际应用中关于目标的属性数据通常包含数个乃至百千个维度, 具有很强的复杂性和巨大的数据量,给模式分类在效率上带来了很大困难。 高维数据模式分类在实际应用中的难点主要体现在:在数据处理环节,高维 数据通常数据量大,计算效率低,制约了其在时效性要求比较高的场景中应 用。

发明内容

有鉴于此,本申请提供了一种高维数据模式分类方法、装置及系统,用 于解决现有高维数据模式分类计算效率低下的问题。

为了实现上述目的,现提出的方案如下:

一种高维数据模式分类方法,应用于主节点,所述主节点与从属节点具 备通信连接关系,该方法包括:

读取待分类的高维数据,所述高维数据为由行、列和层组成的三维数组R, 其中,任意行和列组合对应位置处的数据集合作为一个目标,目标为Bands 维列向量,Bands为三维数组R的层数;

读取标记有分类类别的训练样本集S;

在所述从属节点中为所述三维数组R分配第一存储空间DeviceR、为所 述训练样本集S分配第二存储空间DeviceS、为分类结果C分配第三存储空间 DeviceC;

将所述三维数组R拷贝到第一存储空间DeviceR中、将所述训练样本集 S拷贝到第二存储空间DeviceS中,以供所述从属节点启动若干个线程,每个 线程分别利用所述训练样本集S,对自身负责的三维数组R中的若干个目标 进行模式分类计算,并将各目标的分类结果存储到所述第三存储空间DeviceC 中;

将从属节点的第三存储空间DeviceC中的各目标的分类结果拷贝到本地。

优选地,在所述将从属节点的第三存储空间DeviceC中的各目标的分类 结果拷贝到本地之后,该方法还包括:

向所述从属节点发送存储空间释放指令,以释放在所述从属节点中分配 的存储空间。

优选地,所述主节点为中央处理器CPU,所述从属节点为图形处理单元 GPU。

一种高维数据模式分类方法,应用于从属节点,所述从属节点与主节点 具备通信连接关系,该方法包括:

响应所述主节点分配存储空间的指令,在本地存储空间中分配第一存储 空间DeviceR、第二存储空间DeviceS和第三存储空间DeviceC;

将主节点发送的三维数组R存储在所述第一存储空间DeviceR中,将主 节点发送的标记有分类类别的训练样本集S存储到所述第二存储空间DeviceS 中;三维数组R中存储的是待分类的高维数据,所述三维数组R由行、列和 层组成,任意行和列组合对应位置处的数据集合作为一个目标,目标为Bands 维列向量,Bands为三维数组R的层数;

启动若干线程,按照预置分配策略将三维数组R中各目标依次分配给各 线程,由各线程利用所述训练样本集S对自身负责的目标进行模式分类计算, 并将目标的分类结果存储到所述第三存储空间DeviceC中;

响应主节点的分类结果拷贝指令,将所述第三存储空间DeviceC中的各 目标的分类结果拷贝到主节点。

优选地,在所述响应主节点的分类结果拷贝指令,将所述第三存储空间 DeviceC中的各目标的分类结果拷贝到主节点之后,该方法还包括:

响应主节点的存储空间释放指令,释放已分配的存储空间。

优选地,所述训练样本集S包含N个类别的训练样本子集,每个类别的 训练样本子集为一个Bands维列数组,列数组中的每一行记录该类别的一个 训练样本,则各线程利用所述训练样本集S对目标进行模式分类计算的过程, 包括:

根据预置多层次特征集合构建策略,对所述目标进行多层次特征集合构 建,得到目标的Bands层的目标特征集合,其中第i层的目标特征集合包含C (Bands,i)个元素;

根据所述预置多层次特征集合构建策略,对所述训练样本集S中的每个 训练样本进行多层次特征集合构建,得到每个训练样本的Bands层的训练样 本特征集合,其中第i层的训练样本特征集合包含C(Bands,i)个元素;

依次计算目标的每一层的目标特征集合中的每一个元素,与各个训练样 本的对应层的训练样本特征集合中的对应元素的距离,并确定距离最小的训 练样本,为该训练样本对应的类别记一票;

依据同层的目标特征集合中的所有元素的类别投票结果,统计N个类别 的得票个数,得到该层表征N个类别各自得票个数的类别特征列向量;

将所述类别特征列向量除以该层的目标特征集合的元素个数,得到归一 化后的类别特征列向量;

按照设定的各层权重值,将所有层的归一化后的类别特征列向量进行加 权相加,得到总的类别特征列向量;

在所述总的类别特征列向量中选取值最大的类别,作为目标所属的类别。

优选地,所述依次计算目标的每一层的目标特征集合中的每一个元素, 与各个训练样本的对应层的训练样本特征集合中的对应元素的距离,包括:

依次计算目标的每一层的目标特征集合中的每一个元素,与各个训练样 本的对应层的训练样本特征集合中的对应元素的欧氏距离。

一种高维数据模式分类装置,应用于主节点,所述主节点与从属节点具 备通信连接关系,该装置包括:

高维数据读取单元,用于读取待分类的高维数据,所述高维数据为由行、 列和层组成的三维数组R,其中,任意行和列组合对应位置处的数据集合作 为一个目标,目标为Bands维列向量,Bands为三维数组R的层数;

训练样本集读取单元,用于读取标记有分类类别的训练样本集S;

空间分配单元,用于在所述从属节点中为所述三维数组R分配第一存储 空间DeviceR、为所述训练样本集S分配第二存储空间DeviceS、为分类结果 C分配第三存储空间DeviceC;

数据拷贝单元,用于将所述三维数组R拷贝到第一存储空间DeviceR中、 将所述训练样本集S拷贝到第二存储空间DeviceS中,以供所述从属节点启 动若干个线程,每个线程分别利用所述训练样本集S,对自身负责的三维数组 R中的若干个目标进行模式分类计算,并将各目标的分类结果存储到所述第 三存储空间DeviceC中;

分类结果拷贝单元,用于将从属节点的第三存储空间DeviceC中的各目 标的分类结果拷贝到本地。

一种高维数据模式分类装置,应用于从属节点,所述从属节点与主节点 具备通信连接关系,该装置包括:

空间分配指令响应单元,用于响应所述主节点分配存储空间的指令,在 本地存储空间中分配第一存储空间DeviceR、第二存储空间DeviceS和第三存 储空间DeviceC;

数据存储单元,用于将主节点发送的三维数组R存储在所述第一存储空 间DeviceR中,将主节点发送的标记有分类类别的训练样本集S存储到所述 第二存储空间DeviceS中;三维数组R中存储的是待分类的高维数据,所述 三维数组R由行、列和层组成,任意行和列组合对应位置处的数据集合作为 一个目标,目标为Bands维列向量,Bands为三维数组R的层数;

线程执行单元,用于启动若干线程,按照预置分配策略将三维数组R中 各目标依次分配给各线程,由各线程利用所述训练样本集S对自身负责的目 标进行模式分类计算,并将目标的分类结果存储到所述第三存储空间DeviceC 中;

分类结果拷贝指令响应单元,用于响应主节点的分类结果拷贝指令,将 所述第三存储空间DeviceC中的各目标的分类结果拷贝到主节点。

一种高维数据模式分类系统,包括主节点以及从属节点,其中:

所述主节点用于,读取待分类的高维数据,所述高维数据为由行、列和 层组成的三维数组R,其中,任意行和列组合对应位置处的数据集合作为一 个目标,目标为Bands维列向量,Bands为三维数组R的层数;读取标记有 分类类别的训练样本集S;在所述从属节点中为所述三维数组R分配第一存 储空间DeviceR、为所述训练样本集S分配第二存储空间DeviceS、为分类结 果C分配第三存储空间DeviceC;将所述三维数组R拷贝到第一存储空间 DeviceR中、将所述训练样本集S拷贝到第二存储空间DeviceS中;

所述从属节点用于,启动若干线程,按照预置分配策略将三维数组R中各 目标依次分配给各线程,由各线程利用所述训练样本集S对自身负责的目标进 行模式分类计算,并将目标的分类结果存储到所述第三存储空间DeviceC中; 响应主节点的分类结果拷贝指令,将所述第三存储空间DeviceC中的各目标的 分类结果拷贝到主节点。

从上述的技术方案可以看出,本申请实施例提供的高维数据模式分类方 法应用于主节点中,该主节点与从属节点具备通信连接关系,主节点读取待 分类的高维数据,高维数据由行、列和层组成三维数组R,其中,任意行和 列组合对应位置处的数据集合作为一个目标,目标为Bands维列向量,Bands 为三维数组R的层数,进一步主节点读取标记有分类类别的训练样本集S, 并在从属节点中为三维数据R分配第一存储空间DeviceR、为所述训练样本 集S分配第二存储空间DeviceS、为分类结果C分配第三存储空间DeviceC, 将所述三维数组R拷贝到第一存储空间DeviceR中、将所述训练样本集S拷 贝到第二存储空间DeviceS中,以供所述从属节点启动若干个线程,每个线程 分别利用所述训练样本集S,对自身负责的三维数组R中的若干个目标进行 模式分类计算,并将各目标的分类结果存储到所述第三存储空间DeviceC中, 最后由主节点将从属节点的第三存储空间DeviceC中的各目标的分类结果拷 贝到主节点本地。本申请中主节点负责流程控制,从属节点负责并行处理高 维数据的模式分类计算工作,提高了计算效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请从主节点侧公开的一种高维数据模式分类方法流程图;

图2为本申请从主节点侧公开的另一种高维数据模式分类方法流程图;

图3为本申请从从属点侧公开的一种高维数据模式分类方法流程图;

图4为本申请从主节点侧公开的一种高维数据模式分类装置结构示意图;

图5为本申请从从属节点侧公开的一种高维数据模式分类装置结构示意 图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供了一种高维数据模式分类方法,该方法基于主节点以及与其 进行通信连接的从属节点。其中,主节点仅负责流程控制以及部分小计算量 的工作,从属节点负责并行处理高维数据的模式分类计算。

考虑到现有GPU(GraphicProcessingUnit,图形处理单元)通常拥有多 达几百个运算单元,非常适合并行计算,因此可以选用GPU作为从属节点。 而主节点可以选用常见的中央处理单元CPU。

接下来,参见图1,图1为本申请从主节点侧公开的一种高维数据模式分 类方法流程图。

如图1所示,该方法包括:

步骤S100、读取待分类的高维数据;

其中,所述高维数据为由行、列和层组成的三维数组R,其中,任意行 和列组合对应位置处的数据集合作为一个目标,目标为Bands维列向量,Bands 为三维数组R的层数。

针对一个目标而言,其Bands维列向量中的每一个元素均可以看作目标 的一个属性值,根据目标的属性的个数确定Bands值大小。

步骤S110、读取标记有分类类别的训练样本集S;

具体地,训练样本集S由已知分类类别的多个训练样本组成。

可选的,训练样本集S可以包含N个类别的训练样本子集,每个类别的 训练样本子集为一个Bands维列数组,列数组中的每一行记录该类别的一个 训练样本,列数组的行数即为该类别的训练样本的个数。

步骤S120、在所述从属节点中为三维数组R、训练样本集S和分类结果 C分配存储空间;

具体地,主节点可以在从属节点中为所述三维数组R分配第一存储空间 DeviceR、为所述训练样本集S分配第二存储空间DeviceS、为分类结果C分 配第三存储空间DeviceC。其中,第三存储空间DeviceC用于存储从属节点计 算得到各目标的分类结果。

步骤S130、将三维数组R、训练样本集S分别拷贝到从属节点中已分配 的对应存储空间中;

具体地,将所述三维数组R拷贝到第一存储空间DeviceR中、将所述训 练样本集S拷贝到第二存储空间DeviceS中。

对于从属节点而言,其可以启动若干个线程,每个线程分别利用所述训 练样本集S,对自身负责的三维数组R中的若干个目标进行模式分类计算, 并将各目标的分类结果存储到所述第三存储空间DeviceC中。

其中,主节点根据三维数组R中的目标的个数,以及总的可以启动的线 程的个数,确定需要启动多少个线程,并设定目标与线程间的分配策略。进 而向从属节点发送线程启动指令,由从属节点启动线程,并参照主节点的分 配策略,将各目标分配给各启动的线程。

对于从属节点的线程进行目标的模式分类计算的过程,可以参照下文相 关介绍。

步骤S140、将从属节点的第三存储空间DeviceC中的各目标的分类结果 拷贝到本地。

具体地,主节点在确定从属节点已经完成三维数组R中各目标的模式分类 计算后,将从属节点的第三存储空间DeviceC中的各目标的分类结果拷贝到本 地。进一步可选的,主节点可以将拷贝的分类结果存储到外部磁盘进行保存。

本申请实施例提供的高维数据模式分类方法应用于主节点中,该主节点 与从属节点具备通信连接关系,主节点读取待分类的高维数据,高维数据由 行、列和层组成三维数组R,其中,任意行和列组合对应位置处的数据集合 作为一个目标,目标为Bands维列向量,Bands为三维数组R的层数,进一 步主节点读取标记有分类类别的训练样本集S,并在从属节点中为三维数据R 分配第一存储空间DeviceR、为所述训练样本集S分配第二存储空间DeviceS、 为分类结果C分配第三存储空间DeviceC,将所述三维数组R拷贝到第一存 储空间DeviceR中、将所述训练样本集S拷贝到第二存储空间DeviceS中, 以供所述从属节点启动若干个线程,每个线程分别利用所述训练样本集S,对 自身负责的三维数组R中的若干个目标进行模式分类计算,并将各目标的分 类结果存储到所述第三存储空间DeviceC中,最后由主节点将从属节点的第 三存储空间DeviceC中的各目标的分类结果拷贝到主节点本地。本申请中主 节点负责流程控制,从属节点负责并行处理高维数据的模式分类计算工作, 提高了计算效率。

可选的,上述步骤S100和步骤S110的先后顺序可以颠倒或者同时执行, 图1仅仅示例了一种可选方案。

进一步,参见图2,图2为本申请从主节点侧公开的另一种高维数据模式 分类方法流程图。

如图2所示,该方法包括:

步骤S200、读取待分类的高维数据;

其中,所述高维数据为由行、列和层组成的三维数组R,其中,任意行 和列组合对应位置处的数据集合作为一个目标,目标为Bands维列向量,Bands 为三维数组R的层数。

步骤S210、读取标记有分类类别的训练样本集S;

具体地,训练样本集S由已知分类类别的多个训练样本组成。

步骤S220、在所述从属节点中为三维数组R、训练样本集S和分类结果 C分配存储空间;

具体地,主节点可以在从属节点中为所述三维数组R分配第一存储空间 DeviceR、为所述训练样本集S分配第二存储空间DeviceS、为分类结果C分 配第三存储空间DeviceC。其中,第三存储空间DeviceC用于存储从属节点计 算得到各目标的分类结果。

步骤S230、将三维数组R、训练样本集S分别拷贝到从属节点中已分配 的对应存储空间中;

具体地,将所述三维数组R拷贝到第一存储空间DeviceR中、将所述训 练样本集S拷贝到第二存储空间DeviceS中。

对于从属节点而言,其可以启动若干个线程,每个线程分别利用所述训 练样本集S,对自身负责的三维数组R中的若干个目标进行模式分类计算, 并将各目标的分类结果存储到所述第三存储空间DeviceC中。

步骤S240、将从属节点的第三存储空间DeviceC中的各目标的分类结果 拷贝到本地;

步骤S250、向所述从属节点发送存储空间释放指令,以释放在所述从属 节点中分配的存储空间。

具体地,前述已经在从属节点中分配了第一存储空间DeviceR、第二存储 空间DeviceS中和第三存储空间DeviceC。本步骤中释放上述分配的三个存储 空间。

相比于上一实施例,本实施例在主节点获取从属节点计算得到的各目标 的分类结果后,将从属节点中已经分配的存储空间进行释放。

接下来,以从属节点的角度对本申请方案再次进行介绍。参见图3,图3 为本申请从从属点侧公开的一种高维数据模式分类方法流程图。

如图3所示,该方法包括:

步骤S300、响应所述主节点分配存储空间的指令,在本地存储空间中分 配第一存储空间DeviceR、第二存储空间DeviceS和第三存储空间DeviceC;

具体地,主节点向从属节点发送的分配存储空间的指令中,携带有为待 分类的高维数据分配存储空间的子指令、为训练样本集S分配存储空间的子 指令,以及为分类结果分配存储空间的子指令。从属节点收到主节点的指令 后,在本地存储空间中为三维数组形式的高维数据分配第一存储空间 DeviceR、为训练样本集S分配第二存储空间DeviceS、为分类结果分配第三 存储空间DeviceC。

步骤S310、将主节点发送的三维数组R及训练样本集S分别存储到对应 的存储空间中;

具体地,从属节点将主节点发送的三维数组R存储在所述第一存储空间 DeviceR中,将主节点发送的标记有分类类别的训练样本集S存储到所述第二 存储空间DeviceS中。

三维数组R中存储的是待分类的高维数据,所述三维数组R由行、列和 层组成,任意行和列组合对应位置处的数据集合作为一个目标,目标为Bands 维列向量,Bands为三维数组R的层数。

步骤S320、启动若干线程,向启动的线程分配目标,由各线程对目标进 行模式分类计算,并将分类结果存储到第三存储空间DeviceC中;

具体地,主节点根据三维数组R中的目标的个数,以及总的可以启动的 线程的个数,确定需要启动多少个线程,并设定目标与线程间的分配策略。 进而向从属节点发送线程启动指令,由从属节点启动线程,并参照主节点的 分配策略,将各目标分配给各启动的线程。由各线程利用所述训练样本集S 对自身负责的目标进行模式分类计算,并将目标的分类结果存储到所述第三 存储空间DeviceC中。

步骤S330、响应主节点的分类结果拷贝指令,将所述第三存储空间 DeviceC中的各目标的分类结果拷贝到主节点。

具体地,主节点在确定从属节点已经完成各目标的模式分类计算后,向 从属节点发送分类结果拷贝指令,进而将从属节点的第三存储空间DeviceC 中的各目标的分类结果拷贝到主节点。

本申请中主节点负责流程控制,从属节点负责并行处理高维数据的模式 分类计算工作,提高了计算效率。

进一步可选的,在上述步骤S330之后,该方法还可以包括:

从属节点响应主节点的存储空间释放指令,释放已分配的存储空间。

也即,主节点拷贝了分类结果之后可以向从属节点发送存储空间释放指 令,进而指示从属节点释放已经分配的存储空间。

接下来,本实施例对从属节点各线程利用训练样本集S对目标进行模式分 类计算的过程进行介绍。

首先,再次对目标和训练样本集S进行介绍。

目标为Bands维列向量,而训练样本集S包含N个类别的训练样本子集 S1-SN,每个类别的训练样本子集为一个Bands维列数组,列数组中的每一行 记录该类别的一个训练样本。

则模式分类计算过程包括:

A、根据预置多层次特征集合构建策略,对所述目标进行多层次特征集合 构建,得到目标的Bands层的目标特征集合;

具体地,通过多层次特征集合构建,丰富了目标的属性。具体构建策略 可以是:

第一层次的目标特征集合为原始的Bands维列向量,共计Bands个元素;

第二层次的目标特征集合包含,对第一层次的目标特征集合中任意两个 元素组合形成的二维特征向量集合,共计C(Bands,2)个元素,其中C(a,b) 为从a个元素中取出b个元素的所有组合的个数;

第三层次的目标特征集合包含,对第一层次的目标特征集合中任意三个 元素组合形成的三维特征向量集合,共计C(Bands,3)个元素;

……

第i层次的目标特征集合包含,对第一层次的目标特征集合中任意i个元 素组合形成的i维特征向量集合,共计C(Bands,i)个元素。

B、根据所述预置多层次特征集合构建策略,对所述训练样本集S中的每 个训练样本进行多层次特征集合构建,得到每个训练样本的Bands层的训练 样本特征集合;

具体地,按照与目标多层次特征集合构建时所使用的相同的策略,对每 个训练样本也进行多层次特征集合构建,详细构建策略参照上文。

C、依次计算目标的每一层的目标特征集合中的每一个元素,与各个训练 样本的对应层的训练样本特征集合中的对应元素的距离,并确定距离最小的 训练样本,为该训练样本对应的类别记一票;

具体地,在本步骤中,如果存在两个及两个以上的训练样本与目标的距 离相同且最小,则可以取排序在前的训练样本对应的类别,为该类别记一票。

举例如:目标的第一层的第a(1≤a≤Bands)个元素分别与每一个训练样本 的第一层的第a个元素进行距离计算,选出距离最小的训练样本对应的类别 Xa,为类别Xa记一票。

D、依据同层的目标特征集合中的所有元素的类别投票结果,统计N个 类别的得票个数,得到该层表征N个类别各自得票个数的类别特征列向量;

具体地,针对某一层的目标特征集合中所有元素的类别投票结果,统计N 个类别的各自得票个数,形成一个与类别个数N大小一致的列向量。

举例如,假设类别个数N为3。通过对目标的第一层的目标特征集合中 所有元素的类别投票结果进行统计,得到类别特征列向量:

342

通过该类别特征列向量可知,第一类别的得票个数为3,第二类别的得票 个数为4,第三类别的得票个数为2。

E、将所述类别特征列向量除以该层的目标特征集合的元素个数,得到归 一化后的类别特征列向量;

F、按照设定的各层权重值,将所有层的归一化后的类别特征列向量进行 加权相加,得到总的类别特征列向量;

具体地,本申请预先设定了各层次的权重值,进而对归一化后的类别特 征列向量进行加权相加,得到总的类别特征列向量。

G、在所述总的类别特征列向量中选取值最大的类别,作为目标所属的类 别。

本实施例提供的模式类别计算方法,通过对目标及训练样本进行多层次 特征集合构建,丰富了元素对比范围,使得计算得到的分类结果更加精确。

为了便于理解上述计算过程,本申请列举一个具体实例进行说明:

假设目标为:x1x2x3

训练样本集合S包含2个类别的训练样本子集,分别为:

类别1的训练样本子集:A1B1C1A2B2C2

类别2的训练样本子集:(A3B3C3)

首先,对目标进行多层次特征集合构建,得到:

第1层目标特征集合:x1x2x3

第2层目标特征集合:(x1x2)(x1x3)(x2x3)

第3层目标特征集合:[(x1x2x3)]

同时,对三个训练样本进行多层次特征集合构建,此处仅以训练样本 (A1B1C1)为例进行说明:

第1层训练样本特征集合:(A1B1C1)

第2层训练样本特征集合:A1B1A1C1B1C1

第3层训练样本特征集合:[A1B1C1]

接下来,计算目标的第k(k属于[1,3])层目标特征集合中第i(i属于[1,C(3, k)])个元素与各个训练样本的对应层训练样本特征集合中对应元素的距离, 从中确定距离最小的训练样本所对应的类别,为该类别记一票;

假定目标的第1层的目标特征集合中各元素的类别投票结果组成的类别 特征列向量为:

201

也即,类别1得到2票,类别2得到0票,类别3得到1票;

目标的第2层的目标特征集合中各元素的类别投票结果组成的类别特征 列向量为:

111

也即,类别1得到1票,类别2得到1票,类别3得到1票;

目标的第3层的目标特征集合中各元素的类别投票结果组成的类别特征 列向量为:

100

也即,类别1得到1票,类别2得到0票,类别3得到0票。

对三个层得到的类别特征列向量分别进行归一化,归一化后依次为:

2/301/3,1/31/31/3,100

预先设定的各层权重值分别为0.5、0.3、0.2,则对归一化后的类别特征列 向量进行加权相加,得到总的类别特征列向量:

0.5*2/301/3+0.3*1/31/31/3+0.2*100=19/303/308/30

由此可知,投票值最大的为类别1,因此将类别1确定为目标的类别。

进一步需要说明的是,上述在计算目标的每一层的目标特征集合中的每 一个元素,与各个训练样本的对应层的训练样本特征集合中的对应元素的距 离时,可以选用欧氏距离,或者街区距离、马氏距离等。

下面对本申请实施例提供的高维数据模式分类装置进行描述,下文描述 的高维数据模式分类装置与上文描述的高维数据模式分类方法可相互对应参 照。

首先,对应用于主节点的高维数据模式分类装置进行介绍。参见图4,图 4为本申请从主节点侧公开的一种高维数据模式分类装置结构示意图。

如图4所示,该装置包括:

高维数据读取单元41,用于读取待分类的高维数据,所述高维数据为由 行、列和层组成的三维数组R,其中,任意行和列组合对应位置处的数据集 合作为一个目标,目标为Bands维列向量,Bands为三维数组R的层数;

训练样本集读取单元42,用于读取标记有分类类别的训练样本集S;

空间分配单元43,用于在所述从属节点中为所述三维数组R分配第一存 储空间DeviceR、为所述训练样本集S分配第二存储空间DeviceS、为分类结 果C分配第三存储空间DeviceC;

数据拷贝单元44,用于将所述三维数组R拷贝到第一存储空间DeviceR 中、将所述训练样本集S拷贝到第二存储空间DeviceS中,以供所述从属节 点启动若干个线程,每个线程分别利用所述训练样本集S,对自身负责的三维 数组R中的若干个目标进行模式分类计算,并将各目标的分类结果存储到所 述第三存储空间DeviceC中;

分类结果拷贝单元45,用于将从属节点的第三存储空间DeviceC中的各 目标的分类结果拷贝到本地。

进一步,对应用于从属节点的高维数据模式分类装置进行介绍。参见图5, 图5为本申请从从属节点侧公开的一种高维数据模式分类装置结构示意图。

如图5所示,该装置包括:

空间分配指令响应单元51,用于响应所述主节点分配存储空间的指令, 在本地存储空间中分配第一存储空间DeviceR、第二存储空间DeviceS和第三 存储空间DeviceC;

数据存储单元52,用于将主节点发送的三维数组R存储在所述第一存储 空间DeviceR中,将主节点发送的标记有分类类别的训练样本集S存储到所 述第二存储空间DeviceS中;三维数组R中存储的是待分类的高维数据,所 述三维数组R由行、列和层组成,任意行和列组合对应位置处的数据集合作 为一个目标,目标为Bands维列向量,Bands为三维数组R的层数;

线程执行单元53,用于启动若干线程,按照预置分配策略将三维数组R 中各目标依次分配给各线程,由各线程利用所述训练样本集S对自身负责的 目标进行模式分类计算,并将目标的分类结果存储到所述第三存储空间 DeviceC中;

分类结果拷贝指令响应单元54,用于响应主节点的分类结果拷贝指令, 将所述第三存储空间DeviceC中的各目标的分类结果拷贝到主节点。

再进一步的,本申请还提供了一种高维数据模式分类系统,包括主节点 以及从属节点,其中:

所述主节点用于,读取待分类的高维数据,所述高维数据为由行、列和 层组成的三维数组R,其中,任意行和列组合对应位置处的数据集合作为一 个目标,目标为Bands维列向量,Bands为三维数组R的层数;读取标记有 分类类别的训练样本集S;在所述从属节点中为所述三维数组R分配第一存 储空间DeviceR、为所述训练样本集S分配第二存储空间DeviceS、为分类结 果C分配第三存储空间DeviceC;将所述三维数组R拷贝到第一存储空间 DeviceR中、将所述训练样本集S拷贝到第二存储空间DeviceS中;

所述从属节点用于,启动若干线程,按照预置分配策略将三维数组R中 各目标依次分配给各线程,由各线程利用所述训练样本集S对自身负责的目 标进行模式分类计算,并将目标的分类结果存储到所述第三存储空间DeviceC 中;响应主节点的分类结果拷贝指令,将所述第三存储空间DeviceC中的各 目标的分类结果拷贝到主节点。

本申请的高维数据模式分类系统由主节点负责流程控制,从属节点负责 并行处理高维数据的模式分类计算工作,提高了计算效率。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……” 限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存 在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下, 在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号