首页> 中国专利> 基于判别式多模态深度置信网多模态数据融合方法和系统

基于判别式多模态深度置信网多模态数据融合方法和系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于判别式多模态深度置信网的多模态数据融合方法，该方法包括以下步骤：建立判别式多模态深度置信网；对于多个模态数据对应的深度置信网，利用限制波尔兹曼机，获得深度置信网优化后的网络权重；采用交替优化的策略来最小化判别式多模态玻尔兹曼机的目标函数，获得优化后的玻尔兹曼机权重，得到最终的判别式多模态深度置信网模型；向深度置信网模型输入待融合的多模态数据，得到融合结果。本发明还公开了一种基于判别式多模态深度置信网的多模态数据融合系统。本发明通过在传统多模态深度置信网络中引入有监督的标签信息，判别式的挖掘不同模态数据之间的关联性，从而在大规模多模态数据分类和检索任务中可以保证较高的准确率。

著录项

公开/公告号CN103838836A

专利类型发明专利
公开/公告日2014-06-04

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN201410064933.7
发明设计人王亮;谭铁牛;王威;黄岩;
展开▼

申请日2014-02-25
分类号G06F17/30(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人宋焰琴
地址 100190 北京市海淀区中关村东路95号
入库时间 2024-02-20 00:11:30

法律信息

法律状态公告日

法律状态信息

法律状态
2016-09-28

授权

授权
2014-07-02

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140225

实质审查的生效
2014-06-04

公开

公开

说明书

技术领域

本发明涉及模式识别与机器学习领域，特别涉及一种基于判别式多模态深度置信网的多模态数据融合方法和系统。

背景技术

一个概念或者内容通常可以被多个模态数据来表示，例如，图像和其相应的文字注释是表示相同内容的两种模态数据；当人们在阅读时，嘴唇的动作和相应的声音也是两种对应的模态数据。大量的工作已经证实，与单个模态数据相比，多个模态数据可以为概念提供更为全面的描述，从而可以潜在地帮助一些常见的模式识别问题，例如分类和检索。多模态数据融合的一般做法是将多模态数据融合为同一个表达，然后这个共同表达可以进一步用于后续的分类或者检索任务。

现有的多模态数据融合工作可以大致分为两类：第一类是利用“浅” 层的融合模型，即模型只包括输入和共同表达这两层结构。实际上，由于各个模态都包含其模态相关的特性，会对数据融合过程带来负面的影响，从而会很大程度上降低最后数据融合的质量；另外一类工作是使用“深” 层模型进行数据融合，虽然这些模型可以很好的处理多模态数据的复杂特性，但是现有大量的模型都是生成式的模型，并不能很好的适用于判别性的任务，例如分类和检索。

发明内容

本发明的目的是提供一种基于判别式多模态深度置信网的多模态数据融合方法和系统。为了增强多模态数据融合结果的判别性，本发明在传统无监督多模态玻尔兹曼机的基础上引入有监督的类别信息，使得融合结果更适用于分类和检索等判别型的任务。

根据本发明的一方面，本发明提出了一种基于判别式多模态深度置信网的多模态数据融合方法，该方法包括以下步骤：

步骤1、建立判别式多模态深度置信网，并设置网络的层数和节点数；

步骤2、对于多个模态数据对应的深度置信网，分别把相邻的两层结构看作一个限制的波尔兹曼机，采用无监督地自底向上的逐层训练方法来训练网络，获得多个模态数据对应的深度置信网优化后的网络权重；

步骤3、把多个模态数据对应的深度置信网中的隐含层处理结果输入到判别式多模态玻尔兹曼机中进行数据融合，并采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重，从而得到最终的判别式多模态深度置信网模型；

步骤4、向所述判别式多模态深度置信网模型输入待融合的多模态数据，得到对应的融合结果。

根据本发明的另一方面，本发明还提出了一种基于判别式多模态深度置信网的多模态数据融合系统，所述系统包括：网络建立模块、网络权重优化模块和数据融合模块，其中：

所述网络建立模块，用于建立判别式多模态深度置信网，并设置网络的层数和节点数；

所述网络权重优化模块，用于对于多个模态数据对应的深度置信网，分别把相邻的两层结构看作一个限制的玻尔兹曼机，采用无监督的自底向上的逐层训练方法来训练网络，以获得多个模态数据对应的深度置信网优化后的网络权重；对于判别式多模态玻尔兹曼机，采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重，从而得到最终的判别式多模态深度置信网模型；

所述数据融合模块，用于向所述判别式多模态深度置信网模型输入待融合的多模态数据，得到输出层节点值，即为多模态数据融合结果。

由于本发明通过推广无监督多模态深度模型适以最大间隔方式来解决多模态数据融合，从而可以使得融合结果更具判别性。同时在训练多个模态相关的置信网权重阶段，还可以利用大量无类别标签的模态数据。

附图说明

图1是本发明基于判别式多模态深度置信网的多模态数据融合方法流程图。

图2是本发明一实施例的解决图像和文本融合问题的模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明自，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

根据本发明的一方面，提出一种基于判别式多模态深度置信网的多模态数据融合方法，能够广泛地应用于多模态数据的分类和检索问题。

图1示出了本发明提出的基于判别式多模态深度置信网的多模态数据融合方法的流程图，如图1所示，所述方法包括以下步骤：

步骤1、建立判别式多模态深度置信网，并设置网络的层数和节点数；

其中，所述判别式多模态深度置信网为多层网络结构，包括多个模态数据对应的深度置信网和一个判别式波尔兹曼机。所述判别式多模态深度置信网的输入层为训练多模态数据，比如可以为对应图像的像素点，在本发明一实施例中，要求所有模态内的数据保持相同的大小，例如同样大小的图像；所述输入层不仅限于图像和文本模态，还包括语音等可以表示为列向量的数据；输出层用于表示训练多模态数据的融合结果；该判别式多模态深度置信网具有网络权重，用于根据当前层节点值获得下一层节点值。所述深度置信网的输入层和输出层的节点数是固定的，但是其各隐含层的节点数需要手工调节以使得该模型的效果最优。

图2示出了本发明一实施例中所使用的判别式多模态深度置信网结构，其中图2(a)表示判别式多模态深度置信网，图2(b)和图2(c)分别表示多个模态对应的深度置信网和判别式多模态玻尔兹曼机，该实施例对图像和文本两个模态的数据进行融合，对于其他多模态数据的融合同理类推。如图2所示，这是一个五层的判别式多模态深度置信网，每层中的圆形点表示网络节点。最底两层分别代表图像和文本输入层，图像输入层输入的是一个维的图像列向量文本输入层输入的是一个维的列向量向量的每一维度用一个节点表示，其取值范围为0 到1的实数，对应归一化后的输入向量。最高层为类别层，图像和文本的类别表示为一个c维的向量y∈R^c×1，向量的每一维取值为0或1，对应是否属于相应的c个类别。对于中间分别包含个节点的四个隐含层和和最后包含d^h个节点的输出层h，则分别得到和d^h维的五个列向量，相应的值分别由该层前一层的向量值计算得到：

其中，g(x)=1／(1+e^-x)，为特征变换矩阵，其与向量进行乘法运算，可以得到关于图像的多个特征表达，即多个隐含层的向量值，表示针对于文本数据的特征变换矩阵，分别是网络层与层之间的连接权重。

步骤2、对于多个模态数据对应的深度置信网，分别把相邻的两层结构看作一个限制的波尔兹曼机(restricted Boltzmann machine，RBM)，采用无监督的自底向上的逐层训练方法来训练网络，获得多个模态数据对应的深度置信网优化后的网络权重；

以图2最下面的两层网络为例进行说明，把输入层数据，比如图像v和第一隐含层当作一个限制的波尔兹曼机，其能量函数定义为：

$F (v, h_{1}^{v}) = - v^{T} V_{1} h_{1}^{v} - b_{1} v - b_{2} h_{1}^{v}$

其中，V₁表示输入层节点与隐含层节点之间的连接权重，b₁和b₂分别表示输入层和隐含层各节点的常数偏置项。

在能量函数的基础上可以得到输入层数据，比如图像v的概率分布 P(v)：

$p (v) = Σ_{h} \frac{1}{Σ_{v, h} \exp (- F (v, h_{1}^{v}))} \exp (- F (v, h_{1}^{v})),$

利用梯度下降算法来最小化-logP(v)，从而可以以迭代的方式对V₁进行调整：

$V_{1} \leftarrow V_{1} - \in \frac{\partial \log p (v)}{\partial V_{1}},$

其中，∈表示一个常数学习率。对上式中的的具体简化求解方式，可以参考Hinton等人2006年发表在Neural Computation上的文章“A fast learning algorithm for deep belief nets”。迭代地使用来调整深度置信网络最底两层之间的连接权重V1，进而把调整后的结果当作对 V₁的优化结果。自底向上，分别把网络中其余相邻的两层看作RBM并初始化其相应的权重，直至完成对网络中其他权重的计算。

步骤3、把多个模态数据对应的深度置信网中的隐含层处理结果，即隐含层得到的对应于原始输入数据的输出向量，输入到判别式多模态玻尔兹曼机中进行数据融合，并采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重，从而得到最终的判别式多模态深度置信网模型；

所述判别式多模态玻尔兹曼机是由多模态数据比如图像和文本的最高隐含层和(这里简写为v和u)，共享隐含层h和类别层y组成的三层网络结构。所述玻尔兹曼机的目标函数E的定义包括两项：其一L_max为真实类别与错误类别的条件概率(给定数据)之间差值的合页损失(hinge loss)；其一L_gen为多模态数据及其类别的负对数似然函数：

$E = L_{\max} + {λL}_{gen},$

$L_{\max} = Σ_{i} \max (Δ - Σ_{\forall y, y \neq y^{i}} [\log p (y^{i} | v^{i}, u^{i}) - \log (y | v^{i}, u^{i})], 0),$

$L_{gen} = - Σ_{i} p (v^{i}, u^{i}, y^{i}),$

其中，λ表示比例参数，△表示间隔参数，vⁱ，uⁱ和yⁱ分别表示两个模态的数据和相应的类别，y表示任意与yⁱ不同的类别，p(v，u，y)表示v，u和y的联合概率分布，其值由该网络的能量函数F(v，u，y，h)计算得到：

$p (v, u, y) = Σ_{h} \frac{1}{Σ_{v, u, y, h} e^{- F (v, u, y, h)}} e^{- F (v, u, y, h)},$

F(v，u，y，h)=-v^TVh-u^TUh-y^TWh-a^Tv-b^Tu-c^Ty-d^Th

其中，{a，b，c，d}表示各层相应的偏置项。而调节概率p(y|v，u)可以下式计算得到：

$p (y | u, v) = \frac{e^{c_{t}} Π_{j} (1 + e^{d_{j} + Σ_{i} V_{ij} v_{i} + Σ_{i} U_{kj} u_{k} + W_{tj}})}{Σ_{l} e^{c_{l}} Π_{j} (1 + e^{d_{j} + Σ_{i} V_{ij} v_{j} + Σ_{i} U_{kj} u_{k} + W_{lj}})},$

其中y=1_t。

步骤4、向所述判别式多模态深度置信网模型输入待融合的多模态数据，比如图像v和文本u，得到输出层节点值，即为对应的多模态数据融合结果h。

根据本发明的另一方面，还提出了一种基于判别式多模态深度置信网的多模态数据融合系统，所述系统包括：网络建立模块、网络权重优化模块和数据融合模块，其中：

所述网络建立模块，用于建立判别式多模态深度置信网，并设置网络的层数和节点数；

其中，所述判别式多模态深度置信网为多层网络结构，包括多个模态，并设置网络的层数和节点数对应的深度置信网和一个判别式波尔兹曼机；所述判别式多模态深度置信网的输入层为训练多模态数据，输出层表示训练多模态数据的融合结果；所述判别式多模态深度置信网具有网络权重，用于根据当前层节点值获得下一层节点值；

所述数据融合模块，用于向所述判别式多模态深度置信网模型输入待融合的多模态数据，得到输出层节点值，即为多模态数据融合结果。

为了详细说明本发明的具体实施方式，以某图像数据集为例说明。该数据集包含25000张日常生活中的图像，图像相应的文本以及两者共同的类别，总共属于38个类别，包括鸟、湖、花和夜晚等。实现的模型可以自动对这些图像和文本数据进行融合，进而有利于后续的分类和检索任务。具体步骤如下：

步骤S1，将数据集中的15000个图像文本对作为训练集，剩下的10000 个图像文本对作为测试集。

步骤S2，使用一个四层的判别式多模态深度置信网模型，其两个输入层、两个隐含层、输出层和类别层分别包含3857、2000、1000、1000、1000 和38个结点。

步骤S3，对于每张图像提取Pyramid、Histogram of Words(PHOW)、 Gist和MPEG-7descriptors特征，并将他们按照顺序串联为一个3857维的向量作为图像输入层的输入。对于每个图像对应的文本，使用词袋表示法 (Bag ofWord)形成一个2000维的向量作为文本输入层的输入。

步骤S4，对于图像和文本的深度置信网分别把两层结构3857-1000、 1000-1000、2000-1000和1000-1000当作限制的玻尔兹曼机来优化权重。对于判别式玻尔兹曼机，优化是以迭代优化的方式进行的，这里设置最大迭代次数为400可以保证收敛。

步骤S6，把测试图像和文本输入训练好的模型，输出层输出融合后的结果。然后对融合结果执行检索任务或者利用logistic分类器执行分类任务。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于判别式多模态深度置信网多模态数据融合方法和系统 [P] . 中国专利： CN103838836B . 2016.09.28
2. 基于判别式多模态深度置信网多模态数据融合方法和系统 [P] . 中国专利： CN103838836A . 2014-06-04
3. WIRELESS MOBILE FOR MULTIMODAL BASED ON BROWSER, SYSTEM FOR GENERATING FUNCTION OF MULTIMODAL BASED ON MOBIL WAP BROWSER AND METHOD THEREOF [P] . 韩国专利： KR100826778B1 . 2008-04-30

机译：基于浏览器的多模态无线移动系统，基于移动WAP浏览器的多模态生成系统及其方法
4. WIRELESS MOBILE FOR MULTIMODAL BASED ON BROWSER, SYSTEM FOR GENERATING FUNCTION OF MULTIMODAL BASED ON MOBIL WAP BROWSER AND METHOD THEREOF [P] . 韩国专利： KR20070119153A . 2007-12-20

机译：基于浏览器的多模态无线移动系统，基于移动WAP浏览器的多模态生成系统及其方法
5. Systems and methods for deep learning model based product matching using multi modal data [P] . US10949907B1 . 2021-03-16

机译：基于深度学习模型的系统和方法使用多模态数据匹配