首页> 中国专利> 基于判别式多模态深度置信网多模态数据融合方法和系统

基于判别式多模态深度置信网多模态数据融合方法和系统

摘要

本发明公开了一种基于判别式多模态深度置信网的多模态数据融合方法,该方法包括以下步骤:建立判别式多模态深度置信网;对于多个模态数据对应的深度置信网,利用限制波尔兹曼机,获得深度置信网优化后的网络权重;采用交替优化的策略来最小化判别式多模态玻尔兹曼机的目标函数,获得优化后的玻尔兹曼机权重,得到最终的判别式多模态深度置信网模型;向深度置信网模型输入待融合的多模态数据,得到融合结果。本发明还公开了一种基于判别式多模态深度置信网的多模态数据融合系统。本发明通过在传统多模态深度置信网络中引入有监督的标签信息,判别式的挖掘不同模态数据之间的关联性,从而在大规模多模态数据分类和检索任务中可以保证较高的准确率。

著录项

  • 公开/公告号CN103838836A

    专利类型发明专利

  • 公开/公告日2014-06-04

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN201410064933.7

  • 发明设计人 王亮;谭铁牛;王威;黄岩;

    申请日2014-02-25

  • 分类号G06F17/30(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人宋焰琴

  • 地址 100190 北京市海淀区中关村东路95号

  • 入库时间 2024-02-20 00:11:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-09-28

    授权

    授权

  • 2014-07-02

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140225

    实质审查的生效

  • 2014-06-04

    公开

    公开

说明书

技术领域

本发明涉及模式识别与机器学习领域,特别涉及一种基于判别式多模 态深度置信网的多模态数据融合方法和系统。

背景技术

一个概念或者内容通常可以被多个模态数据来表示,例如,图像和其 相应的文字注释是表示相同内容的两种模态数据;当人们在阅读时,嘴唇 的动作和相应的声音也是两种对应的模态数据。大量的工作已经证实,与 单个模态数据相比,多个模态数据可以为概念提供更为全面的描述,从而 可以潜在地帮助一些常见的模式识别问题,例如分类和检索。多模态数据 融合的一般做法是将多模态数据融合为同一个表达,然后这个共同表达可 以进一步用于后续的分类或者检索任务。

现有的多模态数据融合工作可以大致分为两类:第一类是利用“浅” 层的融合模型,即模型只包括输入和共同表达这两层结构。实际上,由于 各个模态都包含其模态相关的特性,会对数据融合过程带来负面的影响, 从而会很大程度上降低最后数据融合的质量;另外一类工作是使用“深” 层模型进行数据融合,虽然这些模型可以很好的处理多模态数据的复杂特 性,但是现有大量的模型都是生成式的模型,并不能很好的适用于判别性 的任务,例如分类和检索。

发明内容

本发明的目的是提供一种基于判别式多模态深度置信网的多模态数 据融合方法和系统。为了增强多模态数据融合结果的判别性,本发明在传 统无监督多模态玻尔兹曼机的基础上引入有监督的类别信息,使得融合结 果更适用于分类和检索等判别型的任务。

根据本发明的一方面,本发明提出了一种基于判别式多模态深度置信 网的多模态数据融合方法,该方法包括以下步骤:

步骤1、建立判别式多模态深度置信网,并设置网络的层数和节点数;

步骤2、对于多个模态数据对应的深度置信网,分别把相邻的两层结 构看作一个限制的波尔兹曼机,采用无监督地自底向上的逐层训练方法来 训练网络,获得多个模态数据对应的深度置信网优化后的网络权重;

步骤3、把多个模态数据对应的深度置信网中的隐含层处理结果输入 到判别式多模态玻尔兹曼机中进行数据融合,并采用交替优化的策略来最 小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重,从而得到 最终的判别式多模态深度置信网模型;

步骤4、向所述判别式多模态深度置信网模型输入待融合的多模态数 据,得到对应的融合结果。

根据本发明的另一方面,本发明还提出了一种基于判别式多模态深度 置信网的多模态数据融合系统,所述系统包括:网络建立模块、网络权重 优化模块和数据融合模块,其中:

所述网络建立模块,用于建立判别式多模态深度置信网,并设置网络 的层数和节点数;

所述网络权重优化模块,用于对于多个模态数据对应的深度置信网, 分别把相邻的两层结构看作一个限制的玻尔兹曼机,采用无监督的自底向 上的逐层训练方法来训练网络,以获得多个模态数据对应的深度置信网优 化后的网络权重;对于判别式多模态玻尔兹曼机,采用交替优化的策略来 最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重,从而得 到最终的判别式多模态深度置信网模型;

所述数据融合模块,用于向所述判别式多模态深度置信网模型输入待 融合的多模态数据,得到输出层节点值,即为多模态数据融合结果。

由于本发明通过推广无监督多模态深度模型适以最大间隔方式来解 决多模态数据融合,从而可以使得融合结果更具判别性。同时在训练多个 模态相关的置信网权重阶段,还可以利用大量无类别标签的模态数据。

附图说明

图1是本发明基于判别式多模态深度置信网的多模态数据融合方法流 程图。

图2是本发明一实施例的解决图像和文本融合问题的模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明自,以下结合具体实 施例,并参照附图,对本发明进一步详细说明。

根据本发明的一方面,提出一种基于判别式多模态深度置信网的多模 态数据融合方法,能够广泛地应用于多模态数据的分类和检索问题。

图1示出了本发明提出的基于判别式多模态深度置信网的多模态数据 融合方法的流程图,如图1所示,所述方法包括以下步骤:

步骤1、建立判别式多模态深度置信网,并设置网络的层数和节点数;

其中,所述判别式多模态深度置信网为多层网络结构,包括多个模态 数据对应的深度置信网和一个判别式波尔兹曼机。所述判别式多模态深度 置信网的输入层为训练多模态数据,比如可以为对应图像的像素点,在本 发明一实施例中,要求所有模态内的数据保持相同的大小,例如同样大小 的图像;所述输入层不仅限于图像和文本模态,还包括语音等可以表示为 列向量的数据;输出层用于表示训练多模态数据的融合结果;该判别式多 模态深度置信网具有网络权重,用于根据当前层节点值获得下一层节点值。 所述深度置信网的输入层和输出层的节点数是固定的,但是其各隐含层的 节点数需要手工调节以使得该模型的效果最优。

图2示出了本发明一实施例中所使用的判别式多模态深度置信网结构, 其中图2(a)表示判别式多模态深度置信网,图2(b)和图2(c)分别 表示多个模态对应的深度置信网和判别式多模态玻尔兹曼机,该实施例对 图像和文本两个模态的数据进行融合,对于其他多模态数据的融合同理类 推。如图2所示,这是一个五层的判别式多模态深度置信网,每层中的圆 形点表示网络节点。最底两层分别代表图像和文本输入层,图像输入层输 入的是一个维的图像列向量文本输入层输入的是一个维 的列向量向量的每一维度用一个节点表示,其取值范围为0 到1的实数,对应归一化后的输入向量。最高层为类别层,图像和文本的 类别表示为一个c维的向量y∈Rc×1,向量的每一维取值为0或1,对应是 否属于相应的c个类别。对于中间分别包含个节点的四个 隐含层和和最后包含dh个节点的输出层h,则分别得到和dh维的五个列向量,相应的值分别由该层前一层的向量值计算 得到:

其中,g(x)=1/(1+e-x),为特 征变换矩阵,其与向量进行乘法运算,可以得到关于图像的多个特征表达, 即多个隐含层的向量值,表示针 对于文本数据的特征变换矩阵,分别是网络层与层之间的连接 权重。

步骤2、对于多个模态数据对应的深度置信网,分别把相邻的两层结 构看作一个限制的波尔兹曼机(restricted Boltzmann machine,RBM),采 用无监督的自底向上的逐层训练方法来训练网络,获得多个模态数据对应 的深度置信网优化后的网络权重;

以图2最下面的两层网络为例进行说明,把输入层数据,比如图像v和 第一隐含层当作一个限制的波尔兹曼机,其能量函数定义为:

F(v,h1v)=-vTV1h1v-b1v-b2h1v

其中,V1表示输入层节点与隐含层节点之间的连接权重,b1和b2分别 表示输入层和隐含层各节点的常数偏置项。

在能量函数的基础上可以得到输入层数据,比如图像v的概率分布 P(v):

p(v)=Σh1Σv,hexp(-F(v,h1v))exp(-F(v,h1v)),

利用梯度下降算法来最小化-logP(v),从而可以以迭代的方式对V1进 行调整:

V1V1-logp(v)V1,

其中,∈表示一个常数学习率。对上式中的的具体简化求 解方式,可以参考Hinton等人2006年发表在Neural Computation上的文 章“A fast learning algorithm for deep belief nets”。迭代地使用来调 整深度置信网络最底两层之间的连接权重V1,进而把调整后的结果当作对 V1的优化结果。自底向上,分别把网络中其余相邻的两层看作RBM并初 始化其相应的权重,直至完成对网络中其他权重的计算。

步骤3、把多个模态数据对应的深度置信网中的隐含层处理结果,即 隐含层得到的对应于原始输入数据的输出向量,输入到判别式多模态玻尔 兹曼机中进行数据融合,并采用交替优化的策略来最小化该玻尔兹曼机的 目标函数来获得优化后的玻尔兹曼机权重,从而得到最终的判别式多模态 深度置信网模型;

所述判别式多模态玻尔兹曼机是由多模态数据比如图像和文本的最 高隐含层和(这里简写为v和u),共享隐含层h和类别层y组成的三层网 络结构。所述玻尔兹曼机的目标函数E的定义包括两项:其一Lmax为真实 类别与错误类别的条件概率(给定数据)之间差值的合页损失(hinge loss); 其一Lgen为多模态数据及其类别的负对数似然函数:

E=Lmax+λLgen,

Lmax=Σimax(Δ-Σy,yyi[logp(yi|vi,ui)-log(y|vi,ui)],0),

Lgen=-Σip(vi,ui,yi),

其中,λ表示比例参数,△表示间隔参数,vi,ui和yi分别表示两个模态的 数据和相应的类别,y表示任意与yi不同的类别,p(v,u,y)表示v,u和y的 联合概率分布,其值由该网络的能量函数F(v,u,y,h)计算得到:

p(v,u,y)=Σh1Σv,u,y,he-F(v,u,y,h)e-F(v,u,y,h),

F(v,u,y,h)=-vTVh-uTUh-yTWh-aTv-bTu-cTy-dTh

其中,{a,b,c,d}表示各层相应的偏置项。而调节概率p(y|v,u)可以下式计 算得到:

p(y|u,v)=ectΠj(1+edj+ΣiVijvi+ΣiUkjuk+Wtj)ΣleclΠj(1+edj+ΣiVijvj+ΣiUkjuk+Wlj),

其中y=1t

步骤4、向所述判别式多模态深度置信网模型输入待融合的多模态数 据,比如图像v和文本u,得到输出层节点值,即为对应的多模态数据融合 结果h。

根据本发明的另一方面,还提出了一种基于判别式多模态深度置信网 的多模态数据融合系统,所述系统包括:网络建立模块、网络权重优化模 块和数据融合模块,其中:

所述网络建立模块,用于建立判别式多模态深度置信网,并设置网络 的层数和节点数;

其中,所述判别式多模态深度置信网为多层网络结构,包括多个模态, 并设置网络的层数和节点数对应的深度置信网和一个判别式波尔兹曼机; 所述判别式多模态深度置信网的输入层为训练多模态数据,输出层表示训 练多模态数据的融合结果;所述判别式多模态深度置信网具有网络权重, 用于根据当前层节点值获得下一层节点值;

所述网络权重优化模块,用于对于多个模态数据对应的深度置信网, 分别把相邻的两层结构看作一个限制的玻尔兹曼机,采用无监督的自底向 上的逐层训练方法来训练网络,以获得多个模态数据对应的深度置信网优 化后的网络权重;对于判别式多模态玻尔兹曼机,采用交替优化的策略来 最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重,从而得 到最终的判别式多模态深度置信网模型;

所述数据融合模块,用于向所述判别式多模态深度置信网模型输入待 融合的多模态数据,得到输出层节点值,即为多模态数据融合结果。

为了详细说明本发明的具体实施方式,以某图像数据集为例说明。该 数据集包含25000张日常生活中的图像,图像相应的文本以及两者共同的 类别,总共属于38个类别,包括鸟、湖、花和夜晚等。实现的模型可以 自动对这些图像和文本数据进行融合,进而有利于后续的分类和检索任务。 具体步骤如下:

步骤S1,将数据集中的15000个图像文本对作为训练集,剩下的10000 个图像文本对作为测试集。

步骤S2,使用一个四层的判别式多模态深度置信网模型,其两个输入 层、两个隐含层、输出层和类别层分别包含3857、2000、1000、1000、1000 和38个结点。

步骤S3,对于每张图像提取Pyramid、Histogram of Words(PHOW)、 Gist和MPEG-7descriptors特征,并将他们按照顺序串联为一个3857维的 向量作为图像输入层的输入。对于每个图像对应的文本,使用词袋表示法 (Bag ofWord)形成一个2000维的向量作为文本输入层的输入。

步骤S4,对于图像和文本的深度置信网分别把两层结构3857-1000、 1000-1000、2000-1000和1000-1000当作限制的玻尔兹曼机来优化权重。 对于判别式玻尔兹曼机,优化是以迭代优化的方式进行的,这里设置最大 迭代次数为400可以保证收敛。

步骤S6,把测试图像和文本输入训练好的模型,输出层输出融合后的 结果。然后对融合结果执行检索任务或者利用logistic分类器执行分类任 务。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而 已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号