首页> 中国专利> 基于鉴别流形的跨数据域的转移学习分类方法

基于鉴别流形的跨数据域的转移学习分类方法

摘要

本发明实施例公开了一种基于鉴别流形的跨数据域的转移学习分类方法,包括以下步骤:输入各个数据域的数据和用于训练的标签数据,对数据建立用于谱图几何调节的邻接图;对输入的数据、标签信息和建立的邻接图,将优化目标结合,建立统一的数学模型;根据建立的数学模型,推导变量的更新公式,以交替迭代的方式更新各个数据域的各个维度的隐藏因子,域间共享的关系结构,以及回归系数,直到收敛为止;利用得到的参数,对目标域的数据进行类属标签预测,得到对目标域数据预测的类属标签。本发明用于学习得到一种鉴别的数据流形空间,新的表达因子具有有利于分类的高度鉴别结构,也保持了数据原有的聚类流形结构。

著录项

  • 公开/公告号CN103177114A

    专利类型发明专利

  • 公开/公告日2013-06-26

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201310113911.0

  • 发明设计人 方正;张仲非;

    申请日2013-04-02

  • 分类号G06F17/30(20060101);

  • 代理机构杭州宇信知识产权代理事务所(普通合伙);

  • 代理人刘芬豪

  • 地址 310027 浙江省杭州市西湖区浙大路38号

  • 入库时间 2024-02-19 19:20:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-27

    授权

    授权

  • 2013-07-31

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130402

    实质审查的生效

  • 2013-06-26

    公开

    公开

说明书

技术领域

本发明属于数据处理技术领域,特别地涉及一种基于鉴别流形的跨数据域 的转移学习分类方法。

背景技术

在以海量大数据为代表的信息时代,各种数据以几何级数爆发增长,数据 潜在价值的挖掘已成为人们关注和研究的热点。不管是互联网,还是移动通信、 金融领域,日常生活都不断地产生大量的数据,其中分类技术是一种挖掘数据 潜在有用知识的非常有效地方法。例如,互联网用户每天都需要收发大量的电 子邮件,如何帮助用户分门别类地将邮件整理分类,自动地识别垃圾邮件就需 要准确有效的分类技术来智能地帮助用户。又如,在网路路由器节点上,如何 有效地对数据流进行分类检测,及时发现异常现象和木马病毒数据,对维护网 络的安全和稳定性有着极大的作用。而在金融领域的对用户交易行为的监测和 分类,有助于识别恶意的欺诈交易行为,从而能够避免其将带来的重大经济损 失。

另一方面,在实际的数据挖掘分类问题中,往往需要可靠的标签数据作为 训练样本。而要得到这样的训练数据,需要大量的人力、物力和时间。这样经 常导致研究的对象领域只有少量有限的被人工分类的标签数据可用以训练模 型。但如果同时在相关的类似数据域中有一定量的已分类的可靠数据,通过有 效地利用不同数据域的关系进行知识的迁移,就可以在训练数据匮乏的情况下, 也能够对目标域的数据也进行建模和准确分类。不仅如此,以互联网为例,尽 管在某一时刻,的研究数据中有充分的标签数据,但随着时间的发展,未来时 刻的数据将发生演化,通过之前数据训练的已有模型未必能适应之后的未来数 据对象,需要重新调整或者训练,这就又将带来繁重的人力和时间投入。如何 借鉴和利用先前时刻训练数据中的信息和知识,降低重新训练所带来的投入要 求,对于研究不同时间的数据域的分类问题有着至关重要的意义。现有的许多 先进技术中最为代表性的转移学习技术,就是致力于解决如何利用其他数据域 的标签和有用信息,来辅助目标对象数据域的聚类、分类等知识挖掘问题。

在现有的转移学习文本挖掘算法中,很多研究人员提出了挖掘潜在数据表 达因子,利用数据维度的隐藏因子和特征维度的隐藏因子之间的关系结构作为 多个域之间共享的物理量。通过这种共享隐藏因子关系结构建立起来的多数据 域间关系,在一定程度上达到了迁移数据域间知识的作用,可以在目标域只有 少量训练样本的情况下,利用辅助域的标签数据进行训练和分类。然而在转移 学习技术的大部分隐藏因子挖掘算法中,得到的隐藏因子缺乏有利于准确分类 的鉴别特性。由于多数隐藏因子是通过矩阵分解联合聚类的框架模型得到的, 在保持数据内在的聚类结构的同时,忽略了数据鉴别结构的挖掘,从而失去了 进一步提高对于所属类别准确预测的能力。而且尽管在转移学习的过程中,利 用和共享了目标域和辅助域的各个维度隐藏因子的潜在联系,最终学习到的隐 藏因子之间还是存在不同域之间的分布差距。尤其是当目标数据域和辅助数据 域的分类判决函数相同的情况下,尽管能对辅助域的数据进行准确的分类,但 由于数据分布的域间偏移,分类器在目标域里还是不能达到理想的分类效果。

鉴于现有的基于隐藏因子挖掘的转移学习分类方法中存在的缺点和不足, 本发明提出的转移学习分类技术能够在保持数据良好聚类结构的同时,挖掘数 据中利于分类的鉴别结构,而且通过不同数据域的最大均值差异(Maximum  Mean Discrepancy,MMD)距离的调节,最终得到的隐藏因子的域间偏差能够 极大地减小。从而,有效地解决了跨数据域之间的转移学习分类的问题。相比 于现有的基于隐藏因子挖掘的转移学习分类技术,提出的分类器在准确率和稳 定性上有了很大的提高。

发明内容

为解决上述问题,本发明的目的在于提供一种基于鉴别流形的跨数据域的 转移学习分类方法,用于在跨数据域转移学习分类的同时,通过一定约束条件 下的联合矩阵分解和回归鉴别模型的统一结合,学习得到一种鉴别的数据流形 空间,在这一流形空间里的数据新的表达因子具有有利于分类的高度鉴别结构, 同时也保持了数据原有的聚类流形结构。通过域间数据分布距离MMD (Maximum Mean Discrepancy,最大均值差异)的最小化,不同数据域间学习 得到的隐藏因子的域间差异得到极大地减小,从而进一步提高了跨数据域的转 移学习分类器的准确性和稳定性。

为实现上述目的,本发明的技术方案为:

一种基于鉴别流形的跨数据域的转移学习分类方法,包括以下步骤:

S1O,输入各个数据域的数据和用于训练的标签数据,对数据建立用于谱 图几何调节的邻接图;

S20,对所述输入的数据、标签信息和建立的邻接图,将跨数据域的联合 矩阵分解模型、鉴别回归模型、跨数据域的距离调节、流形几何调节等优化目 标结合,建立统一的数学模型;

S30,根据所述建立的数学模型,推导变量的更新公式,以交替迭代的方 式更新各个数据域的各个维度的隐藏因子,域间共享的关系结构,以及回归系 数,直到收敛为止;

S40,利用得到的参数,对目标域的数据进行类属标签预测,得到对目标 域数据预测的类属标签。

优选地,S10中具体包括以下步骤:

S101,输入辅助数据域和目标数据域的训练样本数据,包括辅助数据 域的标签数据以及对应的标签信息矩阵以及目 标域的数据当目标域有少量的标签数据时,输入标签指示 信息Pt矩阵来指明目标域哪些数据是有标签的,并且同时输入目标域数据的标 签信息用集合表示不同数据域的下标,当指的数据域为时,它所对应的另外一个数据域记为

S102,利用输入的数据分别构建辅助域的数据维度的邻接图和特征维度 的邻接图邻接图的点之间的边权重分别如下:

其中Np(x)表示数据x的p领域,取p=5,

构建目标域的数据维度邻接图和特征维度邻接图,邻接图的点之间的边 权重分别如下:

其中Np(x)表示数据x的p领域,取p=5。

优选地,S20中具体包括以下步骤:

S201,建立跨数据域的联合矩阵分解模型:

矩阵分解模型将目标数据域和辅助数据域的数据同时分解到低维的数据表 达中去,并且保留了两个数据域间共同的知识结构,其中, 表示π数据域的特征的低维聚类结构,km是特征维 度的聚类个数;表示π数据域的数据低维聚类结构,同 时也是数据的低维隐藏表示因子,kn是数据的聚类个数;表示π数据域 里特征类和数据类之间的关系结构,而且目标数据域和辅助数据域共享这一 稳定的关系结构;

S202,融合鉴别回归模型,对数据的低维隐藏表示因子进行监督性约束:

其中是作用在数据隐藏因子上的回归系数,标签指示信息Pt矩阵是 一个对角矩阵,表示π数据域里的第i个元素用于监督的回归鉴别约束, 否则Piiπ=0;

S203,减小目标数据域和辅助数据域间的差异,引入最大均值差异MMD 距离的调节;

数据维度上的域间差异距离定义如下:

特征维度上的域间差异距离定义如下:

为了降低目标数据域和辅助数据域间的差异,期望得到的数据隐藏表示因 子和特征低维聚类结构表示因子,能使各自维度上的域间差异距离能够尽可能 的小,从而将这两个距离函数作为最小化目标调节因子融合到上一步S202得到 的模型中去,并且得到:

S204,保持数据的低维流形结构,根据谱图几何理论,利用步骤S102中 得到的辅助域的数据维度的邻接图,建立度量数据映射函数在低维流形空间 沿测地线的光滑性的测度:

其中,Dsv=diag(Σi(Wsv)ij)

利用步骤S102中得到的辅助域的特征维度的邻接图,建立度量数据特征映 射函数在低维流形空间沿测地线的光滑性的测度:

其中,Dsu=diag(Σi(Wsu)ij)

类似地,利用步骤S102中得到的目标域的数据维度的邻接图,在目标域 在数据维度上,建立度量数据映射函数在低维流形空间沿测地线的光滑性的 测度:

其中,Dtv=diag(Σi(Wtv)ij)

利用步骤S102中得到的目标域的特征维度的邻接图,在特征维度上,建立 度量数据特征映射函数在低维流形空间沿测地线的光滑性的测度:

其中,Dtu=diag(Σi(Wtu)ij)

S205:建立基于鉴别流形的跨数据域的转移学习分类模型如下:

s.t.Vs,Vt,Us,Ut,H≥0

优选地,S30中进行交替迭代具体包括以下步骤:

S301,更新辅助域数据隐藏因子Vs

其中Bs=ATYsPsPsT,Bs+=(|Bs|+Bs)/2,Bs-=(|Bs|-Bs)/2,Es=ATAVsPsPsT,R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,

S302,更新目标域数据隐藏因子Vt

其中Bt=ATYtPtPtT,Bt+=(|Bt|+Bt)/2,Bt-=(|Bt|-Bt)/2,Et=ATAVtPtPtT,R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,

S303,更新辅助域特征维度低维因子Us

S304,更新目标域特征维度低维因子Ut

S305,更新辅助域和目标域之间的共享因子:数据维度的隐藏因子和特征 维度的隐藏因子之间的关系结构,更新公式如下:

其中

S306,更新回归系数A:

其中γ=αβ.

优选地,S40进一步包括以下步骤:

S401,利用得到的回归系数A和目标域文档隐藏因子Vt对目标域的文档进 行类属标签预测,得到对目标域新闻文档进行预测的类属标签

Y~t=AVt;

S402,根据每列文档因子的最大元素所在的下标确定该数据的类属。

与现有技术相比,本发明的有益效果如下:

(1)本发明实施例的分类器将鉴别回归模型引入转移学习的隐藏因子的 挖掘算法中,使得学习得到的数据隐藏因子具有利于分类的鉴别结构,从而提 高了分类器的鉴别性和分类准确率;

(2)本发明实施例在挖掘数据潜在的有用结构的同时,利用最小化数据 域间差异距离(Maximum Mean Discrepancy,MMD),使得学习得到的隐藏因 子的域间差异最小,从而减小了不同域间由于数据分布漂移带来的差异性,通 过域间共享特征维度和数据维度的聚类结构的关系矩阵,进一步克服了传统转 移学习算法中的一大困难问题;

(3)本发明实施例将辅助域和目标域的数据进行联合矩阵分解的同时, 通过谱图几何调节,在挖掘得到的隐藏因子的子空间中保留了数据内在的流形 结构,学习得到的隐藏因子在具有分类鉴别结构的同时,还保留了原始数据的 聚类结构,从而提高了分类器的抗噪能力和鲁棒性;

(4)本发明实施例提出了基于鉴别流形的跨数据域的转移学习的分类器 (Transfer Learning Classifier on Discriminative Manifold,TLCDM),并且创新 性地提出了一套有效地参数迭代更新的方法来训练分类器。

附图说明

图1为本发明实施例的基于鉴别流形的跨数据域的转移学习分类方法的步 骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。

相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替 代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解, 在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技 术人员来说没有这些细节部分的描述也可以完全理解本发明。

本发明实施例提出一种鉴别流形的跨数据域的转移学习的分类器(Transfer  Learning Classifier on Discriminative Manifold,TLCDM),其中以输入数据为新 闻文本数据,对新闻数据进行主题分类为例进行说明,当然,本发明实施例的 分类方法也可以应用于跨域的各种类型的数据分类问题中,比如目标域是视频 数据,辅助域是互联网的图片数据,进行视频数据分类;或者,目标域和辅助 域是不同的用户的电子邮件数据,进行垃圾邮件分类。

参考图1,所示为本发明实施例的基于鉴别流形的跨数据域的转移学习分 类方法的步骤流程图,其包括以下步骤:

S10,输入各个数据域的数据和用于训练的类属标签数据,对数据建立用于 谱图几何调节的邻接图。具体包括步骤S101至S102:

S101,输入辅助数据域和目标数据域的训练样本数据,包括辅助数据 域的标签数据以及对应的标签信息矩阵以及目 标域的数据当目标域有少量的类属标签数据时,输入类属 标签指示信息Pt矩阵来指明目标域哪些数据是有标签的,并且同时输入目标域 数据的类属标签信息

S102,对于新闻数据,数据维度为每篇新闻文档,特征维度为新闻中的文 本词,分别构建辅助域的文档邻接图和文本词邻接图邻接图的点之间的 边权重分别如下:

其中Np(x)表示对象x的p领域,这里取p=5。

构建目标域的文档邻接图和文本词邻接图邻接图的点之间的边权重 分别如下:

其中Np(x)表示对象x的p领域,这里取p=5。

S20,对所输入的数据、标签信息和建立的邻接图,将跨数据域的联合矩 阵分解模型、鉴别回归模型、跨数据域的距离调节、流形几何调节等优化目标 结合,建立统一的数学模型,具体包括步骤S201至S204:

S201,建立跨数据域的联合矩阵分解模型:

其中为了讨论的方便和建模的表达简洁,用集合表示不同数据域的 下标,当指的数据域为时,它所对应的另外一个数据域记为

这一矩阵分解模型将目标数据域和辅助数据域的文档和文本词同时分解到 低维的数据表达中去,并且保留了两个数据域间共同的知识结构。其中, 表示π数据域的文本词的低维聚类结构,km是文本 词的聚类个数;表示π数据域的文档低维聚类结构,同 时也是文档的低维隐藏表示因子,kn是文档的聚类个数;表示π数据域 里文本词类和文档类之间的关系结构。经验证明目标数据域和辅助数据域共 享这一稳定的关系结构。

S202,融合鉴别回归模型,对文档的低维隐藏表示因子进行监督性约束:

其中是作用在数据隐藏因子上的回归系数,类属指示信息Pt矩阵是 一个对角矩阵,表示π数据域里的第i个元素用于监督的回归鉴别约束, 否则Piiπ=0.

S203,减小目标数据域和辅助数据域间的差异,引入最大均值差异(MMD) 距离的调节。

数据维度上的域间差异距离定义如下:

特征维度上的域间差异距离定义如下:

为了降低目标数据域和辅助数据域间的差异,期望得到的在文档隐藏因子 上定义的域间差异距离能够尽可能的小,和文本词的低维表达因子上定义的域 间差异距离能够尽可能的小。从而将这两个距离函数作为最小化目标调节因子 融合到上一步S202得到的模型中去,并且得到:

S204,保持数据的低维流形结构。根据谱图几何理论,利用步骤S102中得 到的辅助域的文档维度的邻接图,建立度量映射文档的函数在低维流形空间 沿测地线的光滑性的测度:

其中,Dsv=diag(Σi(Wsv)ij).

利用步骤S102中得到的辅助域的文本词维度的邻接图,建立度量映射文本 词的函数在低维流形空间沿测地线的光滑性的测度:

其中,Dsu=diag(Σi(Wsu)ij).

类似地,利用步骤S102中得到的目标域的文档维度的邻接图,在目标域在 文档维度上,建立度量映射文档的函数在低维流形空间沿测地线的光滑性的测 度:

其中,Dtv=diag(Σi(Wtv)ij).

利用步骤S102中得到的目标域的文本词维度的邻接图,在文本词维度上,建立 度量映射文本词的函数在低维流形空间沿测地线的光滑性的测度:

其中,Dtu=diag(Σi(Wtu)ij).

S205,建立基于鉴别流形的跨数据域的转移学习分类模型。

为了使在目标域和辅助域中,数据在各个维度流形空间里保持内在的原始结构 (尤其是数据的空间光滑性),将目标域和辅助域中各个维度的函数光滑性测 度作为矩阵分解模型的约束调节,融合到统一的数学模型中。同时考虑到得到 的各个维度的低维表示因子的非负性以及关系结构矩阵的非负性,最终得到以 下基于鉴别流形的跨数据域的转移学习分类模型:

s.t.Vs,Vt,Us,Ut,H≥0

通过以上利用联合矩阵分解模型挖掘隐藏因子,利用鉴别回归模型提高隐 藏因子的鉴别性,利用跨数据域的距离调节减小不同数据域的隐藏因子的分布 差异,利用流形几何调节保持原始数据的局部聚类结构,学习得到的隐藏因子 在具有分类鉴别结构的同时,还保留了原始数据的聚类结构,从而提高了分类 器的抗噪能力和鲁棒性。

S30,根据S20中建立的数学模型,推导变量的更新公式,以交替迭代的方 式更新各个数据域的文档和文本词维度上的隐藏因子,域间共享的关系结构, 以及回归系数,直到收敛为止。每次迭代,具体包括步骤S301至S306:

S301,更新辅助域文档隐藏因子Vs

其中Bs=ATYsPsPsT,Bs+=(|Bs|+Bs)/2,Bs-=(|Bs|-Bs)/2,Es=ATAVsPsPsT,R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,

S302,更新目标域文档隐藏因子Vt

其中Bt=ATYtPtPtT,,Bt+=(|Bt|+Bt)/2,Bt-=(|Bt|-Bt)/2,Et=ATAVtPtPtT,R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,

S303,更新辅助域文本词低维表示因子Us

S304,更新目标域文本词低维表示因子Ut

S305,更新辅助域和目标域之间的共享的结构因子:文档的聚类结构和文 本词聚类结构之间的关系因子。更新公式如下:

其中

S306,更新回归系数A:

其中γ=αβ

S40,利用得到的参数,对目标域的数据进行类属标签预测,得到对目标域 数据预测的类属标签。

具体包括,

S401,利用S30中得到的回归系数A和目标域文档隐藏因子Vt对目标域的文 档进行类属标签预测,得到对目标域新闻文档进行预测的类属标签

Y~t=AVt.

S402,根据每列文档因子的最大元素所在的下标确定该数据的类属。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号