法律状态公告日
法律状态信息
法律状态
2020-07-31
未缴年费专利权终止 IPC(主分类):G06F17/50 授权公告日:20140806 终止日期:20190817 申请日:20120817
专利权的终止
2014-08-06
授权
授权
2013-02-20
实质审查的生效 IPC(主分类):G06F17/50 申请日:20120817
实质审查的生效
2013-01-02
公开
公开
技术领域
本发明属于图像处理和应用技术,具体涉及一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法,
背景技术
随着数字多媒体数据的爆炸式增长,网络上的视频数量与日俱增,用什么样的特征来表示视频变的越来越重要,目前较流行的是提取视频的颜色、纹理和形状等方面的特征,这些特征统称为底层视觉特征。然而,这些传统的视频特征难以精准地描述视频,从而给后续的视频处理带来困难,相比之下,人类却可以瞥一眼正在播放的视频就知道其具体内容,这一现象给了科学家很大的启发,目前,有些学者已经从测试者观看视频时采集的大脑信号中提取相关特征来作为视频的特征,并将这些特征用于视频分类中,这些从大脑信号中提取的特征称之为高层特征,其中利用功能磁共振成像技术采集大脑信号并从这些信号中提取的特征称之为脑功能成像空间特征,与之相关的研究只关注如何提取脑功能成像空间特征,并利用该特征进行视频分类和检索,这些研究目前还处于探索阶段。如何更好地提取大脑信号中的脑功能成像空间特征,并且将脑功能成像空间特征与底层视觉特征相结合,来提高视频聚类的准确率在国内外还属于空白领域,因此,找到更好的脑功能成像空间特征提取方法,并将其与底层视觉特征结合起来提高视频聚类的准确率是一个非常有价值的研究课题,对于视频聚类研究具有非常重要的意义。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法,将人脑认知信息中的脑功能成像空间特征与视频底层视觉 特征结合起来用于视频聚类中,提高视频聚类技术的准确性。
技术方案
一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法,其特征在于步骤如下:
步骤1提取脑功能成像空间特征,具体步骤如下:
步骤a1:利用公式>提取N个功能磁共振图像序列中的,第i个功能磁共振图像序列上大脑M个区域的信号向量Si,j和Si,k的皮0。。。。尔森相关系数pi,j,k,得到第i个功能磁共振图像序列的皮尔森相关系数矩阵:
>
其中:信号向量Si,j=[Si,j,1,si,j,2,...,Si,j,r,...Si,j,n],信号向量Si,k=[Si,k,1,Si,k,2,...,Si,k,r,...Si,k,n],i表示N个功能磁共振图像序列中的第i个功能磁共振图像序列的序号,i=1,2,...,N,j,k=1,2,...,M,j表示第i个功能磁共振图像序列中大脑的第j个区域的序号,k表示第i个功能磁共振图像序列中大脑的第k个区域的序号,r表示信号向量Si,j和Si,k中第r个元素的序号,N∈[1,1000],M∈[1,1000],N表示功能磁共振图像序列的总数,M表示功能磁共振图像序列中大脑区域的总数;Si,j,r表示信号向量Si,j的第r个元素;si,k,r表示信号向量Si,k的第r个元素;n表示信号向量Si,j和Si,k的长度;
所述N个功能磁共振图像序列,是利用功能磁共振技术,在测试者观看N个视频时测得的功能磁共振图像;
步骤b1:取皮尔森相关系数矩阵Pi上三角部分,拉伸成向量Qi=[qi,1,qi,2,...,qi,d], d=(M×M)/2-M/2,然后将N个Qi向量按行排列构成矩阵D:
>
其中,qi,1,qi,2,...,qi,d表示Qi的第1,2,…,d个元素;
步骤c1:计算矩阵D每一列元素的均值,将矩阵D的每一列元素减去该列元素的均值,得到矩阵U:
>
在矩阵U的第v列Uv=[u1,v,u2,v,...,uN,v]T中找出属于第K类视频的元素,并计算属于第K类视频的元素均值
再利用公式>计算累计分布函数参数F;
利用公式>计算参数g;
当g<T时,T∈(0,10000],保留矩阵U中的第v列;否则,从矩阵U中删除该列,得到经过单因素方差分析选择后的矩阵B:
>
其中,C表示视频的类别总数;||表示取绝对值;L=[l1,l2,..,lK,..lC,]T;lK表示Uv中属于第K类视频的元素个数;θ为向量
步骤d1:遍历矩阵B的每一列,利用相关特征选择方法将参数
>
其中:下标y表示从B中选取的列向量的个数;
>
中所有元素的均值;rs,o表示矩阵C的第s个列向量Cs与第o个列向量Co的相关性参数;>co,h表示向量Co中的第h个元素;p(co,h)表示co,h在Co中的概率分布;p(cs,h|co,h)表示cs,h在Cs中的条件概率分布;
步骤2提取视频库中所有Na个视频数据的底层视觉特征向量Fvid,具体步骤如下:
步骤a2:利用尺度不变特征变换算法提取第id个视频第一帧的Nsi个描述向量集合FSid={Fsiid,1,Fsiid,2,...,Fsiid,sh,...,Fsiid,Nsi},sh=1,2,...,Nsi,id=1,2,..,Na,Na∈(0,100000],Nsi∈[0,10000],对Na个视频都提取描述向量集合,得到 >
步骤b2:利用k均值算法对
步骤c2:计算FSid={Fsiid,1,Fsiid,2,...,Fsiid,sh,...,Fsiid,Nsi}中分别属于G类的向量个数[Numid,1,Numid,2,...,Numid,G],得到第id个视频的底层视觉特征向量:Fvid=[Numid,1,Numid,2,...,Numid,G];
步骤3利用高斯过程回归算法预测Na-N个视频数据的脑功能成像空间特征向量:
利用脑功能成像空间特征矩阵C和其对应N个视频的底层视觉特征[Fv1,Fv2,...,Fvidp,...,FvN],idp=1,2,...,N,建立高斯过程回归模型GPM,利用高斯过程回归模型GPM预测得到Na-N个视频的脑功能成像空间特征向量:
>
步骤4利用Na个脑功能成像空间特征向量[C1,C2,...,Cid,...,CNa]和底层视觉特征[Fv1,Fv2,...,Fvid,...,FvNa]进行多模态谱聚类,具体步骤如下:
步骤a3:计算[C1,C2,...,Cid,...,CNa]中与空间中的一个点Cid=(cid,1,cid,2,...,cid,y)欧氏距离最近的k个点,并定义为近邻关系,k=[1,10000];再计算[Fv1,Fv2,...,Fvid,...,FvNa]中与空间中的一个点Fvid=(fvid,1,fvid,2,...,fvid,y)欧氏距离最近的k个点,并定义为近邻关系;其中:
步骤b3:利用
>
同理,利用
>
其中:Cid和Cjd表示第id个视频和第jd个视频的脑功能成像空间特征向量;Π表示连乘积;cid,l和cjd,l表示Cid和Cjd的第l个元素;l=1,2,...,y;σl表示一个常数,σl∈(0,1];Fvid和Fvjd表示第id个视频和第jd个视频的底层视觉特征向量;Fvid,l和Fvjd,l表示Fvid和Fvjd的第l个元素;
步骤c3:在矩阵CWeight中令CWeightid,id=0;在矩阵FvWeight中令FvWeightid,id=0;再利用公式>计算CWeight和FvWeight的拉普拉斯矩阵;利用公式Lmulti-modal=LC+αI+LFv+αI计算多模态拉普拉斯矩阵Lmulti-modal,大小为Na×Na;其中:LC和LFv表示矩阵CWeight和FvWeight的拉普拉斯矩阵;DC表示[C1,C2,...,Cid,...,CNa]中两两脑功能成像空间特征向量之间的欧式距离所构成的矩阵;DFv表示[Fv1,Fv2,...,Fvid,...,FvNa]中两两底视觉层特征向量之间的欧式距离所构成的矩阵;I表示单位矩阵,大小为Na×Na;α表示常数;
步骤d3:计算多模态拉普拉斯矩阵Lmulti-modal的特征值和特征向量,将特征值从大到小排列,选取前C个特征值对应的特征向量Vector1,Vector2,...,Vectorc,构成矩阵VecMatrix=[Vector1,Vector2,...,Vectorc],大小为Na×C,计算矩阵VecMatrix每一行的和,然后用该行元素分别除以该行元素的和,得到矩阵VecMatrixNew,大小为Na×C;其中:C表示视频库中视频类别个数;
步骤e3:将VecMatrixNew每行中值最大的元素置为1,其余元素置为0,得到VecMatrixNew1;
步骤f3:将VecMatrixNew1的每一行视为高维空间中的一个点,用光谱旋转算法对VecMatrixNew1矩阵中的Na个点进行聚类,得到类别矩阵Index,大小为Na×C;
步骤g3:利用公式Index0=Index+0.2得到初始类别矩阵Index0,计算Indexnew=Index0×diag[[diag(Index0T×I×Index0)]-1]-1/2,将Indexnew赋给Index0,再次 计算Indexnew=Index0×diag[[diag(Index0T×I×Index0)]-1]1-/2,将Indexnew赋给Index0,重复Ne次,Ne∈[1,10000],得到最终的Indexnew,大小为Na×C,计算Indexnew每行最大值所在的第cg列,将最终标签Indexfinal对应行置为cg,cg∈[1,2,..,C],Indexfinal大小为Na×1;其中,diag表示提取矩阵的对角线元素;I表示单位向量;
步骤h3:计算Indexfinal与视频真实类别标签IndexTrue的相同元素个数,除以Na得到视频聚类准确率。
所述个数聚类G∈[20,10000]。
所述常数α∈[10-2,102]。
所述步骤4的步骤h采用归一化互信息NMI方法或者精度Purity方法计算聚类准确率。
有益效果
本发明提出的一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法,首先,提取功能磁共振图像序列中的信号向量,其次,计算信号向量的皮尔森相关系数矩阵,利用单因素方差分析和相关特征选择方法从皮尔森相关系数矩阵中提取脑功能成像空间特征,第三,利用视频的底层视觉特征和脑功能成像空间特征建立高斯过程回归模型,用该模型计算出视频库中没有进行功能磁共振成像的视频的脑功能成像空间特征,最后,利用多模态谱聚类算法对底层视觉特征和脑功能成像空间特征进行聚类,得到更高的视频聚类准确率。
本发明提出的利用脑功能成像空间特征和底层视觉特征进行视频聚类的方法,用功能磁共振图像序列中提取的脑功能成像空间特征和传统的底层视觉特征融合聚类来提高视频的聚类准确性,将人脑认知信息应用到视频聚类中,与传统视频聚类只利用底层视觉特征或者只利用脑功能成像空间特征相比,大大提高了视频聚类的准确率。
附图说明
图1:本发明方法的基本流程图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
用于实施的硬件环境是:Intel(R)Core(TM)2Duo CPU2.93GHz、2GB内存、256M显卡,运行的软件环境是:Matlab2009a和Windows7。我们用Matlab软件实现了本发明提出的方法。
本发明具体实施如下:
1提取脑功能成像空间特征:
对N个的功能磁共振图像序列提取脑功能成像空间特征,N=51,功能磁共振图像序列由测试者观看N个视频时利用功能磁共振成像技术测得,视频来自TRECVID2005媒体库。
该功能磁共振图像序列采集在3T GE信号采集器上完成,测试参数为:功能磁共振扫描:64×64矩阵;层厚为4mm;视场为220mm;30层;TR为1.5s;TE为25ms;ASSET为2。
选取功能磁共振图像序列中大脑M个区域的功能磁共振成像信号,M=358。这些区域包括工作记忆区域、视觉网络区域、听力和语言区域等,对第i个功能磁共振图像序列,提取功能磁共振图像序列上大脑M个区域信号向量Si,j=[si,j,1,Si,j,2,...,si,j,r,...Si,j,n],i=1,2,..,N,j=1,2,...,M,计算Si,j的皮尔森相关系数矩阵Pi,利用单因素方差分析和相关特征选择方法从N个皮尔森相关系数矩阵Pi中提取脑功能成像空间特征Ci。具体步骤如下:
(1)利用公式>计算信号向量Si,j=[Si,j,1,Si,j,2,...,Si,j,r,...Si,j,n]和Si,k=[Si,k,1,Si,k,2,...,Si,k,r,...Si,k,n]的皮尔森相关系数pi,j,k,得到第i个功能磁共振图像序列的皮尔森相关系数矩阵:
>
其中,si,j,r表示信号向量Si,j的第r个元素;si,k,r表示信号向量Si,k的第r个元素;n表示信号向量Si,j和Si,k的长度;
(2)取皮尔森相关系数矩阵Pi上三角部分,拉伸成向量Qi=[qi,1,qi,2,...,qi,d],d=(M×M)/2-M/2=63903,将N=51个视频的Qi向量按行排列构成矩阵:
>
其中,qi,1,qi,2,...,qi,d表示Qi中的第1,2,…,d个元素;
(3)对矩阵D按列进行单因素方差分析,步骤为:
计算矩阵D每一列元素的均值,将矩阵D的每一列元素减去该列元素均值,得到矩阵:
>
对矩阵U的第v列Uv,找出属于第K类视频的元素,并计算属于第K类视频的元素均值
>
其中,C表示视频的类别总数,C=3;L=[l1,l2,..,lK,..lC,]T;lK表示Uv中属于第K类视频的元素个数;θ为两向量
(4)遍历矩阵B的每一列,利用相关特征选择方法寻找参数
>
其中:下标y表示从B中选取的列向量的个数;
>
中所有元素的均值;rs,o表示子矩阵C的第s个列向量Cs与第o个列向量Co的相关性参数;>co,h表示向量Co中的第h个元素;p(co,h)表示co,h在Co中的概率分布;p(cs,h|co,h)表示cs,h在Cs中的条件概率分布;
2提取视频库中所有Na=1307个视频数据的底层视觉特征向量Fvid:
具体步骤为:
(1)利用尺度不变特征变换匹配算法提取第id个视频第一帧的Nsi个描述向量集合 FSid={Fsiid,1,Fsiid,2,...,Fsiid,sh,...,Fsiid,Nsi},sh=1,2,...,Nsi,id=1,2,...,Na,Na∈(0,100000],Nsi∈[0,10000],对Na个视频都提取描述向量集合,得到
提取FSid={Fsiid,1,Fsiid,2,...,Fsiid,sh,...,Fsiid,Nsi}的具体方法为:提取视频库中第id个视频数据的第一帧作为第id个视频的关键帧图像Iid,每个关键帧为代表该视频片段主要内容的一幅图像,对关键帧进行高斯平滑处理,得到图像
(2)利用k均值算法对
1)从
>
其中,L表示两个描述向量之间的欧式距离,f1,f2,...,f65表示描述向量F的65维上的数值,f[i]1,f[i]2,...,f[i]65表示初始中心点F[i]65维上的数值。
2)如果F={f1,f2,...,f65}与F[i]={f[i]1,f[i]2,...,f[i]65}距离最接近,则将此描述向量归到第i类,重新计算每一类中描述向量的平均值,即对该类中所有描述向量的每一维取平均,得到新的中心点F[i]′。
3)将F[i]′赋给F[i],作为新的初始中心点重复计算65个初始中心点之外的描述向量F={f1,f2,...,f65}与65个初始中心点F[i]={f[i]1,f[i]2,...,f[i]65}的欧式距离,直到F[i]′与F[i]的欧式距离小于0.00000l为止。
计算
3 用高斯过程回归预测Na-N个视频数据的脑功能成像空间特征向量:
利用脑功能成像空间特征矩阵:
>
和其对应N个视频数据的底层视觉特征[FV1,Fv2,...,FVidp,...,FvN],idp=1,2,...,N,建立高斯过程回归模型GPM,利用高斯过程回归模型GPM预测Na-N个视频数据的脑功能成像空间特征向量:
>
具体步骤如下:
(1)选取高斯核函数:
>
选取相关系数计算公式:
cfng,mg=cf(Fvng,Fvmg)=kng,mg+β-1δng,mg
其中,Fvng、Fvmg表示N个视频数据中任意两个视频数据的底层视觉特征向量,ng=1,2,...N,mg=1,2,...N;θ0、ηu,θ1表示高斯核函数中的超参数;fvng,ug、fvmg,ug表示Fvng、Fvmg中第ug维上的数值,ug=1,2,...,G;c(Fvng,Fvmg)表示向量Fvng和Fvmg之间的相关系数;β表示随机噪声;>
(2)对脑功能成像空间特征
>
第cb=1,2,...,y维构建方程组:
>
计算第cb维脑功能成像空间特征对应的超参数θ0、ηu和θ1。其中,ci,cb表示第i个 视频数据的脑功能成像空间特征的第cb个元素,cb=1,2,;Ki=[ki,1,ki,2,...,ki,i-1,ki,i+1,...,ki,N];
其中,
(3)利用超参数对Na-N个脑功能成像空间特征未知的视频数据第cb=1,2,...,y维脑功能成像空间特征向量进行预测,计算公式如下:
>
其中,Ks=[ks,1,ks,2,...,ks,N],ks,1=k(FVs,Fvl),s=N+1,...,Na,Cs=[cf(FVnge,FVmge)],nge=N+1,...,Na,mge=N+1,...,Na,
4 利用Na个脑功能成像空间特征[C1,C2,...,Cid,...,CNa]和底层视觉特征[FV1,Fv2,...,FVid,...,FVNa]进行多模态谱聚类,得到l到Na个视频的类别标签向量Indexfinal,并计算Indexfinal的聚类准确率:
具体步骤如下:
(1)将Cid=(cid,1,cid,2,...,cid,y)视为空间中的一个点,
其中:cid,1,Cid,2,...,cid,表示脑功能成像空间特征Cid中的第l、2和y个元素;fvid,1,fvid,2,...,fvid,y表示底层视觉特征Fvid中的第1、2和y个元素;
(2)如果Cid和Cjd是近邻关系,
>
在矩阵CWeight中令CWeightid,id=0;同理,如果特征Fvi和Fvj是近邻关系,利用
>
在矩阵FvWeight中令FvWeightid,id=0;
其中:Cid和Cjd表示第id个视频和第jd个视频的脑功能成像空间特征向量;∏表示连乘积;cid,l和cjd,l表示Cid和Cjd的第l个元素;l=1,2,...,y;σl表示一个常数,σl=0.05;Fvid和Fvjd表示第id个视频和第jd个视频的底层视觉特征向量;Fvid,l和Fvjd,l表示Fvid和Fvjd的第l个元素;
(3)利用公式>计算CWeight和FvWeight的拉普拉斯矩阵;利用公式Lmulti-modal=LC+αI+LFv+αI计算多模态拉普拉斯矩阵Lmulti-modal,大小为Na×Na;
其中:LC和LFv表示矩阵CWeigh和FvWeight的拉普拉斯矩阵;DC表示 [C1,C2,...,Cid,...,CNa]中两两脑功能成像空间特征向量之间的欧式距离所构成的矩阵;DFv表示[Fv1,Fv2,...,Fvid,...,FvNa]中两两底视觉层特征向量之间的欧式距离所构成的矩阵;I表示单位矩阵,大小为Na×Na;α表示常数,α∈[10-2,102];
(4)计算多模态拉普拉斯矩阵Lmulti-modal的特征值和特征向量,将特征值从大到小排列,选取前C个特征值对应的特征向量Vecto1,Vector2,...,VectorC,构造矩阵VecMatrix=[Vector1,Vector2,...,VectorC],大小为Na×C,计算矩阵VecMatrix每一行的和,然后用该行元素分别除以该行元素的和,得到矩阵VecMatrixNew,大小为Na×C;其中:C表示视频库中视频类别个数;
(5)将VecMatrixNew每行中值最大的元素置为1,其余元素置为0,得到
(6)将VecMatrixNew1的每一行视为高维空间中的一个点,用光谱旋转算法对VecMatrixNew1矩阵中的Na个点进行聚类,得到类别矩阵Index,大小为Na×C;光谱旋转算法步骤为:计算VecMatrixNew2=VecMatrixNew×VecMatrixNewT;对 中每个元素求-1/2方,得到VecMatrixNew3;将VecMatrixNew3中除对角线元素外都置为0,得到VecMatrixNew4;
计算VecMatrixNew5=VecMatrixNew4×VecMatrixNew;
计算VecMatrixNew6=VecMatrixNew5T×VecMatrixNew1;
对VecMatrixNew6进行SVD分解,得到矩阵USVD,dSVD,VSVD;计算QSvD=USVD×VSVDT;计算MSVD=VecMatrixNew5×QSVD;将MSVD每行中最大元素置为1,其余置为0,得到M1SVD;将M1S V赋给VecMatr1;重新计算VecMatrixNew6=VecMatrixNew5T×VecMatrixNew1;重复计算30次,得到M1SVD,将其赋给Index;
(7)利用公式Index0=Index+0.2得到初始类别矩阵Index0,计算Indexnew=Index0×diag[[diag(Index0T×I×Index0)]-1]-1/2,将Indexnew赋给Index0,重复Ne次,Ne∈[1,10000],得到最终的Indexnew,大小为Na×C,求出Indexnew每行最大 值所在的第cg列,将最终标签Indexfinal对应行置为cg,cg∈[1,2,..,C],Indexfinal大小为Na×1;其中,diag表示取矩阵的对角线元素;I表示单位向量;
(8)比较Indexfinal与视频真实类别标签IndexTrue,计算准确率,采用三种方法来计算准确率,分别是:聚类准确率ACC、归一化互信息NMI和精度。
聚类准确率ACC:对比Indexfinal与视频真实类别标签IndexTrue的对应元素,找出两者相同的个数,除以Na=1307得到聚类准确率;
归一化互信息NMI:
1)计算>其中,min(Indexfinal)表示取Indexfinal的最小值;min(IndexTrue)表示取IndexTrue的最小值;
2)找出Indexfinalnew和IndexTruenew中属于3类视频的个数,构成矩阵:
>
其中,IndexG1,1表示Indexfinalnew中属于第一类、并且IndexTruenew中属于第一类的视频的个数,其余元素同理。
3)计算向量Pm和Pn,公式如下:
>
>
4)计算
H1=∑-Pm/sumIndex×log2(-Pm/sumIndex)
H2=∑-Pn/sumIndex×log2(-Pn/sumIndex)
其中,sumIndex表示IndexG中元素之和;
5)计算Pmn=IndexG/sumIndex;
6)计算>将PPP中绝对值小于10-12的元素值置为1;
7)计算MI=sum(Pmn×log2PPP),其中sum(Pmn×log2PPP)表示对Pmn×log2PPP求和;
8)计算MIhat=MI/max(H1,H2),其中,max(H1,H2)表示取H1,H2中的最大值;MIhat即为归一化互信息;
精度Purity:
找出Indexfinal中属于第一类视频的标签序号,在IndexTrue对应序号位置提取其元素,统计这些元素中个数最多的标签数目Index1;同理,对第二类视频、第三类视频进行同样的计算,得到Index2,Index3,计算精度Purity=(Index1+Index2+Index3)/Na;
表1
利用本文算法进行视频聚类,并利用三种方法计算聚类准确率,如表1所示,结果显示脑功能成像空间特征和底层视觉特征融合进行视频聚类能大大提高视频聚类的准确率,为视频聚类问题提供了新的解决思路。
机译: 利用全局特征和图像区域特征的融合进行视频搜索的方法和系统
机译: 利用视觉特征和几何约束进行机器人定位的装置和方法
机译: 基于结构特征和静态内容特征对电子文档进行聚类的方法和装置