法律状态公告日
法律状态信息
法律状态
2020-01-31
授权
授权
2018-05-01
实质审查的生效 IPC(主分类):G06F17/30 申请日:20171114
实质审查的生效
2018-04-06
公开
公开
技术领域
本发明涉及跨媒体检索方法,更具体地说,涉及一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法。
背景技术
随着多媒体技术的发展,越来越多的数据可以表示成不同的模态,而且不同模态的数据可能有着同样的语义信息。因此,如何探索这些具有相同语义但表现为不同模态数据之间的关系变得尤为重要。其中,在最近的多年中,跨媒体检索技术越来越引起研究者的关注。跨媒体检索就是指用一种模态的数据作为查询数据来检索具有相同语义信息的其他模态的数据。以图片和文本的检索为例,可以使用图片去检索具有相应语义信息的文本,简称:I2T;或者使用文本去检索具有相应语义信息的图片,简称:T2I。本发明以图片和文本间的检索为例进行分析和实验,但是此方法可以扩展到其他不同模态之间的检索。
在跨媒体检索技术中,最主要的问题是:不同模态的数据会有不同的特征表示,这些不同的特征是在不同的维度空间里,这样异构数据之间的相似性是没法直接比较的。因此,跨媒体检索领域主要关注的问题就是如何跨越这种语义鸿沟。一种流行的解决方法就是子空间学习法。子空间学习法旨在学习一个潜在的语义空间,在这个潜在的语义空间中异构数据的相似性可以被直接测量。传统的子空间学习法是学习一对投影矩阵,通过这一对投影矩阵就可以将不同模态的数据映射到一个潜在的语义空间内,这样异构数据的相似性就可以被测量了。一种流行的方法是:典型相关分析(Canonical CorrelationAnalysis,CCA),CCA学习了一对投影矩阵,在将不同模态的特征映射到语义空间时最大化异构数据之间的相关性。基于CCA,语义相关匹配(Semantic Correlation Match,SCM)使用逻辑回归来获得语义空间。另一种流行的方法是:偏最小二乘(Partial Least Squares,PLS),PLS旨在通过最大化异构数据之间的相关性来学习两个潜在的语义空间。除此之外,归一化多视角分析(generalized multi-view analysis,GMA)以及基于GMA的GMLDA和GMMFA通过使用标签信息获取多角度的特征,并且取得了更好的效果。
然而,通常的跨媒体检索任务存在方向性,即图像检索文本(I2T)和文本检索图像(T2I),以上方法仅仅学习一对投影矩阵,并没有强调查询数据的重要性。具体来说,在I2T任务中,图片对于学习投影矩阵更具决定性;同理,T2I任务中,则更加强调文本的重要性。因此,学习一对投影矩阵的方法很难达到最优的效果。为了强调不同任务中查询数据的重要性,基于模态的跨媒体检索(Modality-dependent Cross-media Retrieval,MDCR)方法提出学习两对投影矩阵,即对I2T和T2I任务分别学习一对投影矩阵,这样就可以充分考虑查询数据的重要性,因此检索的精度也得到了很大的提升。
但是,以上方法都只是有监督的方法,仅仅使用有标记的数据进行训练而忽略了未标记的数据,同时更没法扩充固有的数据集。其次,当前方法仅仅从如何测量异构数据之间的相似性的角度出发,旨在学习更有效的投影矩阵,从来在语义空间内可以得到更准确的比较,但是,他们都忽略了在学习投影矩阵时对信息含量更丰富、更具区分性特征的选择。因此,我们基于MDCR发明了一种可以随机生成虚拟数据点的半监督方法,同时采用l2,1范数进行特征选择。
发明内容
本发明提供了一种基于特征选择和伪随机数据生成的半监督跨媒体检索技术。传统的跨媒体检索方法,要么是仅仅使用有标记数据进行训练的有监督方法,要么是选出一部分未标记数据加入训练的半监督方法。本发明提出,在有标记的数据基础上生成一些与之相关的伪随机虚拟数据点,这样不仅仅可以考虑未标记的数据,还可以增添一些相关的虚拟数据点以提高训练的精度。同时,与传统的检索方法不同的是:我们的方法对于不同的任务学习不同的投影矩阵,在学习投影矩阵时采用l2,1范数进行特征选择。总体来说,我们的方法同时考虑了训练数据的多样性以及有效特征的选择。
本发明的具体技术方案如下:
一种基于特征选择和虚拟数据生成的半监督跨媒体检索技术,包括以下步骤:
步骤1:给定数据集n代表数据对的总数,xi代表图片特征,ti代表文本特征,那么,图片和文本特征矩阵可以分别表示成:XG=[x1,x2,...,xn-1,xn]和TG=[t1,t2,t3,...,tn-1,tn];
步骤2:生成伪随机虚拟数据点,对原有数据集进行扩充,具体方法为:计算XG和TG每一类的类中心,即对于每一类数据,计算该类数据每一维度的均值,得到的各维度均值构成的新向量作为该类的类中心;然后,以每一维度的均值作为中心,在其上下随机生成n'个数值,将所有维度上的随机值组合在一起生成n'个伪随机虚拟数据,将所述伪随机虚拟数据点加入原有数据集得到扩充后的数据集Gall={G,G'},扩充后的图片和文本特征矩阵分别表示成:X=[x1,...xn,x1',x'2...x'n]和T=[t1,...,tn,t1',t'2,...,t'n];
步骤3:构建目标函数:
定义目标函数:
其中,U,V代表本方法要学习的一对投影矩阵,C(U,V)是相关性分析项,使得多模态的数据可以在潜在的语义空间内保持成对的近邻关系;L(U,V)是从图像或文本模态特征空间到语义空间的线性回归项,用于保持具有相同语义的不同模态数据的近邻关系;N(U,V)是正则项,用于特征的选择;
根据公式(1),分别得到图像检文本I2T和文本检图像T2I检索任务的目标函数,如下:
(1)I2T的目标函数为:
其中,U1,V1是I2T任务中要学习得到的投影矩阵,分别对应于公式(1)中的U,V,β是平衡系数且0≤β≤1,Y是语义矩阵;
(2)T2I的目标函数为:
其中,U2,V2是T2I任务中要学习得到的投影矩阵,分别对应于公式(1)中的U,V;
步骤4:通过迭代求解方法,得到最优的投影矩阵:
由于公式(2)和(3)是非凸的,故采用控制变量的方法求解,即分别对U和V求偏导,并令其等于零,可得投影矩阵U和V的值;然后经过不断的迭代,直至收敛,求得投影矩阵U和V的最优值。
特别地,步骤3中,N(U,V)=λ1||U||2,1+λ2||V||2,1,其中λ1,λ2用来平衡两个正则项,且都为正数,此约束项用于在学习投影矩阵的时候选择更加具有区分性和丰富信息的特征。
附图说明
图1为本发明方法流程图。
具体实施方式
1.数据集处理:
Wikipedia,总共包含10个类,2866个图片-文本对。我们选择2173个图片-文本对作为初始训练数据,剩余部分为测试数据。其图片特征为4096维的CNN特征,文本特征为100维LDA特征。
Pascal Sentence,总共20个类,每类50个图片-文本对。我们选择每类中30个图像-文本对作为初始训练数据,其余为测试数据。其图片特征为4096维的CNN特征,文本特征为100维LDA特征。
INRIA-Websearch,总共353类,71478个图像-文本对。我们随机选择其中的70%作为初始训练数据,其余为测试数据。其图片特征为4096维的CNN特征,文本特征为1000维LDA特征。
2.本发明具体实施步骤:
步骤1:给定数据集n代表数据对的总数,xi代表图片特征,ti代表文本特征,那么,图片和文本特征矩阵可以分别表示成:XG=[x1,x2,...,xn-1,xn]和TG=[t1,t2,t3,...,tn-1,tn]。
步骤2:生成伪随机虚拟数据点,对原有数据集进行扩充,具体方法为:计算XG和TG每一类的类中心,即对于每一类数据,计算该类数据每一维度的均值,得到的各维度均值构成的新向量作为该类的类中心;然后,以每一维度的均值作为中心,在其上下随机生成n'个数值,将所有维度上的随机值组合在一起生成n'个伪随机虚拟数据将所述伪随机虚拟数据点加入原有数据集得到扩充后的数据集Gall={G,G'},扩充后的图片和文本特征矩阵分别表示成:X=[x1,...xn,x1',x'2...x'n]和T=[t1,...,tn,t′1,t′2,...,t′n]。
步骤3:构建目标函数:
定义目标函数:
其中,U,V代表本方法要学习的一对投影矩阵,C(U,V)是相关性分析项,使得多模态的数据可以在潜在的语义空间内保持成对的近邻关系;L(U,V)是从图像或文本模态特征空间到语义空间的线性回归项,用于保持具有相同语义的不同模态数据的近邻关系;N(U,V)是正则项,用于特征的选择;
根据公式(1),分别得到图像检文本I2T和文本检图像T2I检索任务的目标函数,如下:
(1)I2T的目标函数为:
其中,U1,V1是I2T任务中要学习得到的投影矩阵,β是平衡系数且0≤β≤1,Y是语义矩阵,且:N(U1,V1)=λ1||U1||2,1+λ2||V1||2,1,其中λ1,λ2用来平衡两个正则项,且都为正数;
(2)T2I的目标函数为:
其中,U2,V2是T2I任务中要学习得到的投影矩阵N(U2,V2)=λ1||U2||2,1+λ2||V2||2,1;
步骤4:通过迭代求解方法,得到最优的投影矩阵:
由于公式(2)和(3)是非凸的,故采用控制变量的方法求解,即分别对U和V求偏导,并令其等于零,可得投影矩阵U和V的值;然后经过不断的迭代,直至收敛,求得投影矩阵U和V的最优值。
特别地,对于l2,1范数可利用迹来求导,例如:定义矩阵U,则:||U||2,1=Tr(UTRU),R是一个对角矩阵,ui代表U的每一行,ε是一个极小的实数。
3.评估标准(mAP)
我们采用平均精度均值(mean average precision,mAP)评估标准,来评价最后的检索效果。首先我们定义每一次查询的average precision:
其中,N代表测试数据中样本的总数,当第i次检索的结果排序中有与对应的类标签相同时rel(i)=1,否则rel(i)=0。P(i)代表第i次检索排序结果的精度。那么,所有查询的AP值的平均就是mAP。
4.算法实现
(1)I2T:
输入:图片特征矩阵XG和文本特征矩阵TG,样本标记矩阵Y,参数λ1,λ2,β
生成虚拟数据:对于每一类数据,首先计算每一维度的均值,以此为这一类的类中心,
然后,以每一维度的均值作为中心,在其上下随机生成n'个数值,所有维度上的随机值组合在一起就可以构成n'个虚拟的数据,最后,把生成的虚拟数据加入输入的图片和文本特征矩阵,得到新的训练图片特征矩阵X和文本特征矩阵T。
初始化:初始化投影矩阵U1,V1为单位矩阵。
求解最优解:根据求得的U1=(XXT+λ1R11)-1[βXY+(1-β)XTTV1]和
V1=[(1-β)TTT+λ2R12]-1(1-β)TXTU1,通过不断地迭代,直至结果收敛得到最优的U1,V1。
此过程伪代码如下所示:
(2)T2I:
与I2T任务类似,最后得到最优的投影矩阵U2,V2
5.结果比较
我们分别在三个数据集上进行实验,并对比了当前比较流行的其他7种方法(PLS,CCA,SM,SCM,GMMFA,GMLDA,MDCR),下表显示本发明方法在不同数据集上都表现出更好的检索效果。
机译: 提供关于虚拟卷的连续数据保护的方法,一种生成关于虚拟卷的即时数据的方法以及一种提供关于虚拟卷的连续数据保护的系统,该系统能够通过使用分配分配来保护连续数据
机译: 一种使用GAN生成从虚拟世界中的虚拟数据中获取的训练数据以减少用于自动驾驶的神经网络的学习过程所需的注释成本的学习方法和学习设备,以及使用该学习方法的测试方法和测试设备方法和学习装置。
机译: 用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法,该方法具有用于生成视频信号的装置,该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率,每个帧图像由多个扫描线组成,扫描线由多个像素组成,图像中的每个像素由彩色数字分量组成(该方法包括确定功能的步骤);基于彩色数字(b)的三个分量中的至少一个的亮度像素,基于两个像素之间的亮度差异,针对当前图像表的扫描线中的至少大部分像素,确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素,以及至少(c)比较决策参数与