首页> 中国专利> 一种无线传感器网络中核分类器的分布式训练方法

一种无线传感器网络中核分类器的分布式训练方法

摘要

一种无线传感器网络中核分类器的分布式训练方法,本发明属于无线传感器网络中数据融合技术领域,涉及一种无线传感器网络中核分类器的分布式训练方法。针对已有的无线传感器网络中核分类器训练方法存在的高通信代价问题,本发明提出了一种网内分布式协同训练核分类器的方法。该方法中各节点对本地基于L1正则化核分类优化问题进行稀疏模型求解,相邻节点间以交换本地稀疏模型和错分样本的方式进行协作,当各节点得到稳定模型后,利用平均一致性方法实现各节点模型的一致性。与现有方法相比,本发明可以得到与集中式训练相当的预测效果、稀疏率明显低于集中式训练模型的稀疏效果,而且能显著降低无线传感器网络中核分类器训练时的数据通信代价。

著录项

  • 公开/公告号CN104573720A

    专利类型发明专利

  • 公开/公告日2015-04-29

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN201410853469.X

  • 发明设计人 侯义斌;及歆荣;侯翠琴;

    申请日2014-12-31

  • 分类号G06K9/62(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-12-18 08:25:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-12

    授权

    授权

  • 2015-05-27

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20141231

    实质审查的生效

  • 2015-04-29

    公开

    公开

说明书

技术领域

本发明涉及一种无线传感器网络中核分类器的分布式训练方法,具体是一种基于L1正则化的核最 小平方误差分类器的分布式训练方法,可以用于无线传感器网络中核分类器的训练,属于无线传感器网络 中数据融合技术领域。

背景技术

无线传感器网络应用中,分类是一项最基础也是最重要的任务。然而,在无线传感器网络中,分类 器的训练数据都分散在各个传感器节点上。通过多跳路由将所有训练数据传输到数据融合中心进行集中式 训练,将会占用大量的带宽且消耗节点的大量能量,这与无线传感器网络上节点能源替换代价非常高甚至 不可替换、带宽资源非常有限相冲突,同时也容易使数据中心周围的节点成为整个系统的瓶颈。针对上述 问题,通过相邻节点间的相互协作,利用节点本身的计算能力在网内分布式协同训练分类器的方法引起了众 多研究者的关注.核分类器是一类性能优越的分类器,是当前机器学习的主流方法。因此,在无线传感器 网络中,研究仅依赖相邻节点间的协作,在网内分布式协同训练核分类器的方法对减少通信代价、延长网 络生命周期以及核分类器的分布式学习理论研究都具有极其重要的意义。

目前的无线传感器网络中核分类器的分布式训练方法主要分为基于共享数据的分布式训练方法和 基于支持向量的增量式分布式训练方法。基于共享数据的代表性分布式训练方法包括Predd J.B.等人提出 的相邻节点共享数据预测一致的分布式协同训练方法;Forero P.A等人提出的基于共享数据集约束模型一 致的分布式训练方法。基于支持向量的增量式分布式训练方法是针对经典的核分类器——支持向量机的分 布式训练方法,主要包括Flouri.K等人提出的基于支持向量增量训练的DFP-SVM方法;Yumao Lu等人 提出的基于可配置网络连通度的分布式并行DPSVM方法。目前提出的这些分布式训练方法存在以下主要 缺陷:基于共享数据的分布式训练算法要求相邻节点间必须有共享数据,而且方法受共享数据多小的影响 比较明显,在相邻节点间共享数据少或没有的情况下,该方法收敛速度缓慢甚至不能用。基于支持向量的 增量式分布式训练方法,因受支持向量机的hinge损失函数特殊性的影响,其支持向量的稀疏性受到限制, 所以仍存在通信代价大的问题。

发明内容

本发明的目的是提供一种无线传感器网络中核分类器的分布式训练方法。使用该方法仅通过相邻节 点间的协作就可以使每个节点得到所有训练数据集中训练时的预测效果,而且也可以大大减少分类器训练 过程中的数据通信代价,以降低节点能量消耗、延长网络生命。为了实现上述目的,本发明在核分类器训 练过程中包括三个重要机制。

机制1:节点本地核分类优化问题稀疏求解方法。

在核分类器分布式训练过程中,为减少节点间传输的数据量,本发明引入了稀疏因子——L1正则化 对节点本地训练样本构建核分类优化问题。利用分布式优化方法——交替方向乘子方法对基于L1正则化 的核分类优化问题进行求解,在合适参数值下,可以得到比较稀疏的解,相应的节点间交换的模型信息携 带的信息量就少。

机制2:节点模型差异快速消除机制。

为了尽快得到全局最优模型,相邻节点间除了交换本地得到的稀疏模型外,还利用接收到的邻居节 点模型在本地训练样本中找出它们不能正确分类的样本——错分样本,将这些错分样本也传递给邻居节点 以协助它们快速地得到正确模型。该机制可以使节点间快速消除模型的不一致来达到稳定模型。

机制3:节点模型一致性机制

当各节点都达到稳定模型后,各节点上的模型基本一致,但是由于受本地没有与邻居节点交换过的 训练样本的影响,各节点模型还有稍微差别。为了使各节点最后得到完全一致的模型,同样仅依靠相邻节 点间的协作,在相邻节点间传递得到的稳定的稀疏模型,当每个节点上都接收到所有其他节点的模型时, 在本地对这些模型进行平均来得到一致模型。

基于机制1、机制2和机制3的无线传感器网络中核分类器的分布式训练方法有六个阶段,分别是: 1.节点本地初始化;2.节点本地稀疏模型求解;3.节点将本地稀疏模型和错分样本发送给单跳邻居节点;4. 节点接收信息;5.节点循环优化求解;6.节点模型一致性。

一种无线传感器网络中核分类器的分布式训练方法,其是在以下前提条件下进行的:

a.网络中每个节点都有唯一的ID号;

b.网络中各节点仅仅与其单跳邻居节点进行通信;

c.网络中各节点使用相同的核函数和相同的参数值;

无线传感器网络中核分类器分布式训练方法的步骤如下:

步骤1:节点本地初始化

这一阶段的特征是各节点对本地训练样本进行处理,并初始化各参数。该阶段具体步骤如下:

步骤1.1:各节点本地训练样本的特征信息归一化处理;

步骤1.2:各节点本地核参数σ和正则系数λ的初始化、网络规模N的初始化;

步骤2:节点本地稀疏模型求解

这一阶段的特征是将具有稀疏特性的L1正则化引入核分类优化问题进行稀疏模型求解;

首先各节点根据本地训练样本构建基于L1正则化的核最小平方误差优化问题,然后利用交替方向 乘子方法对优化问题进行稀疏模型求解,最后将得到的非零解与对应的训练样本组成稀疏模型。这一阶段 的具体步骤描述如下:

步骤2.1:各节点为本地训练样本增加表示字段node_ID和example_ID以唯一标识每个训练样本, 增加发送标志字段is_sended以说明该样本是否已经发送过来避免重复发送;

步骤2.2:各节点利用高斯核函数k(xi,xj)=exp(-||xi-xj||2/2σ2)对本地归一化后的训练样本进行核矩 阵计算;

步骤2.3:各节点对得到的核矩阵进行增广,结合正则系数λ构建核优化问题;

步骤2.4:各节点利用交替方向乘子法对构建的核优化问题进行求解;

步骤2.5:将解中非零项以及对应的样本信息提取出来作为本节点上的稀疏模型;

步骤3:节点将本地稀疏模型和错分样本发送给单跳邻居节点

这一阶段的特征是各节点对本地得到的最新稀疏模型进行整理,将整理后的稀疏模型和最新错分 样本组合在一起发送给单跳邻居节点。在对稀疏模型进行整理过程中,借助了is_sended标识字段查看对 应样本的特征信息是否发送过,以决定样本对应的特征信息在稀疏模型中携带与否,从而减少数据传输量。 这一阶段的具体步骤描述如下:

步骤3.1:各节点整理要发送出去的最新稀疏模型,如果最新稀疏模型中训练样本的is_sended字段 为0,表示该样本还没有被发送过,此时需要将该训练样本的原始特征信息保留在模型中;如果is_sended 字段为1,代表该训练样本的原始特征信息已经发送过,此时只将该样本的标识字段信息保留在模型中;

步骤3.2:各节点将整理好的模型信息和错分样本信息组织在一起,发送给其单跳邻居节点;

步骤4:节点接收信息

这一阶段的特征是各节点首先利用接收到的邻居节点模型,逐个对本地训练样本集进行测试,以 找出邻居节点模型不能正确分类的训练样本,记作错分样本;然后,各节点将接收到的邻居节点模型中带 有原始特征信息的训练样本加入到本地训练样本集合;同样,各节点将接收到的邻居节点的错分样本加入 到本地训练样本集;最后,各节点对本地训练样本集进行去重处理,得到最新的训练样本集合;

步骤4.1:各节点接收邻居节点发送过来的数据包,然后将数据包逐个分解,分解出稀疏模型和错 分样本;

步骤4.2:各节点利用接收到的每个稀疏模型对本地训练样本集进行测试,找出所有邻居节点不能 正确分类的训练样本,记作错分样本;

步骤4.3:对找到的错分样本去除重复处理,并对去重后的错分样本依据is_sended字段的值进行整 理,如果错分样本的is_sended字段为0,表示该样本还没有被发送过,则将该样本作为错分样本,如果 is_sended字段为1,表示该样本已经发送过,则该样本不作为错分样本;

步骤4.4:各节点将接收到的每个稀疏模型中带有原始特征信息的训练样本加入到本地训练样本集 合;

步骤4.5:各节点将接收到的所有错分样本加入到本地训练集合;

步骤4.6:各节点对本地训练样本集合去重处理,得到最新的训练样本集合;

步骤5:各节点循环优化求解

这一阶段的特征是在各节点本地训练样本集没有稳定之前,按着步骤2、步骤3、步骤4的顺序循 环优化求解,直至各节点本地训练样本集和稀疏模型稳定。这一阶段的具体步骤如下:

步骤5.1:各节点按照阶段2、阶段3、阶段4的顺序进行优化求解;

步骤5.2:各节点判断最新本地训练样本集与前一次训练样本集是否一致,当所有节点都前后两次 的训练数据集都一致时,执行步骤6,否则,各节点按照阶段2、阶段3、阶段4的顺序进行优化求解;

步骤6:节点模型一致性

这一阶段的特征是仅依靠相邻节点间的相互协作使各节点得到所有其他节点上的模型,然后在本 地对所有模型进行平均,以实现模型一致性。该阶段具体步骤如下:

步骤6.1:各节点将本地稀疏模型发送给单跳邻居节点;

步骤6.2:各节点接收邻居节点发送过来的稀疏模型,将模型保存在本地并去重处理;

步骤6.3:各节点将新接收到的模型转发给单跳邻居节点;

步骤6.4:当各节点都得到所有节点的稀疏模型后,在节点本地进行平均,得到一致性模型;

与现有的无线传感器网络中核分类器分布式训练方法对比,本发明具有有益效果。

(1)本发明能够使各节点得到完全一致的分类模型,而且得到的分类模型具有与集中式训练方法相当 的预测效果,保证了模型的预测精度。

(2)本发明仅依靠相邻节点间交换稀疏模型和错分样本的方式进行协作,减少了核分类器训练过程中 的数据传输量,而且避免了链路建立和维护的能量消耗,有效降低了节点能量消耗,延长网络的生命周期。

(3)本发明基于L1正则化得到了较稀疏的分类模型,该稀疏模型可以大大降低预测的时间代价和计 算成本,从而能降低节点在实际预测时的能量消耗。

(4)本发明可适用于不同规模、不同拓扑结构和不同连通度的无线传感器网络。

附图说明

图1为本发明的实施流程图。

图2为本发明的预测错误率和收敛速度的仿真结果图。

图3为本发明的数据传输量的仿真效果图。

图4为本发明的模型稀疏率的仿真效果图。

具体实施方式

如图1-4所示,下面详细描述本发明的实施方式。本发明的实施基于以下前提条件:a.网络中每个 节点都有唯一的ID号;b.网络中各节点仅仅与其单跳邻居节点通信;c.网络中各节点上使用相同的核函数 和相同的参数值;

1.节点本地初始化阶段的实施说明

本阶段要完成节点本地训练样本的归一化、核参数σ和正则系数λ的初始化、网络规模N的初始化。

各节点对本地训练样本的特征信息进行归一化处理;

各节点对核参数σ、正则系数λ及网络规模N进行初始值设置;

2.节点本地稀疏模型求解阶段的实施说明

本阶段对节点本地训练样本集合构建基于L1正则化的核优化问题,利用优化方法对构建的优化问 题进行稀疏求解,整理节点本地稀疏模型。

各节点利用高斯核函数k(xi,xj)=exp(-||xi-xj||2/2σ2)对本地归一化后的训练样本进行核矩阵计算;

各节点对得到的核矩阵进行增广,结合正则系数λ构建核优化问题;

各节点利用交替方向乘子方法对本地核优化问题进行求解;

各节点从求得的解中提取非零项,并将非零项对应的训练样本特征信息提取出来,整理出本地稀 疏模型;

3.节点将本地稀疏模型和错分样本发送给单跳邻居节点阶段的实施说明

本阶段各节点首先根据训练样本的is_sended标识组织要发送给邻居节点的模型信息,然后将整理 好的模型信息和错分样本组合在一起,发送给其单跳邻居节点。

各节点对本地稀疏模型中每个训练样本的is_sended标识进行查看,如果某个训练样本的is_sended 标识为0,则该训练样本的特征信息保留在稀疏模型中,否则,只将该训练样本的node_ID和example_ID 保留在稀疏模型中,而不携带样本的特征信息;

各节点将整理好的稀疏模型和错分样本组织在一起,发送给单跳邻居节点;

4.节点接收信息阶段的实施说明

本阶段各节点对接收到的信息进行存储、分解,然后利用接收到的模型信息对本地训练样本进行 预测,找出不能被邻居节点模型正确分类的错分样本;最后将接收到的模型中的训练样本和错分样本加入 到本地训练样本集。

各节点将接收到的邻居节点信息缓存到本地;

各节点对接收到的每个数据包逐一分解,分解出模型信息和错分样本;

各节点利用分解出的多个模型对本地训练样本进行预测,找出不能被正确分类的样本,记作错分 样本;

各节点对得到的所有错分样本去重处理,并查看每个错分样本的is_sended标识,只对is_sended 标识为0的训练样本记作错分样本;

各节点将多个模型信息中带有训练样本特征信息的样本加入到本地训练样本集中;

各节点将接收到的多个错分样本集中带的训练样本加入到本地训练样本集中;

各节点对本地训练样本集做去重处理,更新本地训练样本集;

5.节点循环优化阶段的实施说明

本阶段实现各节点模型的迭代优化,直至各节点模型稳定。

各节点按照阶段2、阶段3、阶段4的顺序进行优化求解;

各节点判断最新本地训练样本集与前一次训练样本集是否一致;当两次训练样本集一致,将 node_ID和“1”组成一条消息发送给单跳邻居节点;当不一致时,节点按各节点按照阶段2、阶段3、阶 段4的顺序继续优化求解;

当各节点收到所有node_ID加“1”的消息时,停止循环,进入下一个阶段;

6.节点模型一致性阶段的实施说明

本阶段工作是消除各节点模型的不一致,对网内所有节点的模型进行平均,使各节点得到一致的 模型。

各节点将本地稀疏模型发送给单跳邻居节点;

各节点接收邻居节点发送过来的稀疏模型,将模型保存在本地并去重处理;

各节点将新接收到的模型转发给单跳邻居节点;

当各节点都得到其他所有网络节点的稀疏模型后,在节点本地进行平均,得到一致性模型;

7.仿真实验评估

采用仿真软件MATLAB2013版,在Microsoft windows 7,CPU主频为3.2GHz,内存4.0GB下仿 真验证本发明的方法。使用模拟数据集和UCI数据库中的4个基准数据集对本发明的方法进行实验验证。 其中模拟数据集由两类非线性可分的数据组成,一类服从均值为mu1=[0,0]T,协方差矩阵为Σ=[0.6,0;0,0.4]T的二维高斯分布;另一类服从混合参数分别为π1=0.3和π2=0.7,均值分别为mu2=[-2,-2]T和mu3=[2,2]T, 协方差矩阵均为Σ的二维混合高斯分布;每类训练数据个数为300,每类测试数据个数为200。实验中使 用的网络由30个节点构成,为了验证不同网络连通度对算法在预测精度和模型稀疏率上的影响,使用了 连通度为0.0896、平均度为2.7333的网络结构和连通度为0.0345、平均度为1.0000的环状结构进行实验。 本实验中核函数选用高斯核函数k(xi,xj)=exp(-||xi-xj||2/2σ2),实验中使用的参数值为σ=0.2,λ=1.2, C=2。UCI数据库中的4个基准数据集的基本信息如表1所示,各数据集实验设置及参数值如表2所示。 在模拟数据集上的实验进行了100次,在UCI数据库中的4个基准数据集上的实验各进行了20次。

表1 UCI数据集基本信息

表2 UCI数据集实验设置及最优参数值

实验结果分析。图2显示了在模拟数据集上该发明的模型预测错误率的收敛效果和收敛速度,从图 2可以看出本发明的方法可以收敛到集中式训练方法的预测错误率;图3显示了在UCI数据库中的4个基 准数据集上的数据传输量与其他方法的对比,从图3显示的效果可以看出在数据传输量上明显少于对比方 法;图4显示了在UCI数据库中的4个基准数据集上的稀疏模型的稀疏率与其他方法的对比,从图4显 示的结果可以看出,本发明的稀疏率显著低于集中式训练得到的模型稀疏率。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号