首页> 中国专利> 利用脑成像空间特征和底层视觉特征进行视频聚类的方法

利用脑成像空间特征和底层视觉特征进行视频聚类的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种利用脑功能成像空间特征和底层视觉特征进行视频聚类的方法，其特征在于：提取功能磁共振图像序列中的大脑信号向量，计算信号向量的皮尔森相关系数矩阵，利用单因素方差分析和相关特征选择方法从皮尔森相关系数矩阵中提取脑功能成像空间特征，利用部分视频的底层视觉特征和对应的脑功能成像空间特征建立高斯过程回归模型，将剩余视频的底层视觉特征映射到脑功能成像空间特征上，将所有视频的脑功能成像空间特征和底层视觉特征进行多模态谱聚类。利用本发明方法，可以实现脑功能成像空间特征和底层视觉特征的融合聚类，与基于底层视觉特征如颜色、形状等视频聚类方法及单独使用脑功能特征空间聚类相比，大大提高了聚类准确性。

著录项

公开/公告号CN102855352A

专利类型发明专利
公开/公告日2013-01-02

原文格式PDF
申请/专利权人西北工业大学;
展开▼

申请/专利号CN201210293171.9
发明设计人韩军伟;吉祥;郭雷;胡新韬;
展开▼

申请日2012-08-17
分类号G06F17/50;
代理机构西北工业大学专利中心;
代理人王鲜凯
地址 710072 陕西省西安市友谊西路127号
入库时间 2024-02-19 17:04:01

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-31

未缴年费专利权终止 IPC(主分类):G06F17/50 授权公告日:20140806 终止日期:20190817 申请日:20120817

专利权的终止
2014-08-06

授权

授权
2013-02-20

实质审查的生效 IPC(主分类):G06F17/50 申请日:20120817

实质审查的生效
2013-01-02

公开

公开

说明书

技术领域

本发明属于图像处理和应用技术，具体涉及一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，

背景技术

随着数字多媒体数据的爆炸式增长，网络上的视频数量与日俱增，用什么样的特征来表示视频变的越来越重要，目前较流行的是提取视频的颜色、纹理和形状等方面的特征，这些特征统称为底层视觉特征。然而，这些传统的视频特征难以精准地描述视频，从而给后续的视频处理带来困难，相比之下，人类却可以瞥一眼正在播放的视频就知道其具体内容，这一现象给了科学家很大的启发，目前，有些学者已经从测试者观看视频时采集的大脑信号中提取相关特征来作为视频的特征，并将这些特征用于视频分类中，这些从大脑信号中提取的特征称之为高层特征，其中利用功能磁共振成像技术采集大脑信号并从这些信号中提取的特征称之为脑功能成像空间特征，与之相关的研究只关注如何提取脑功能成像空间特征，并利用该特征进行视频分类和检索，这些研究目前还处于探索阶段。如何更好地提取大脑信号中的脑功能成像空间特征，并且将脑功能成像空间特征与底层视觉特征相结合，来提高视频聚类的准确率在国内外还属于空白领域，因此，找到更好的脑功能成像空间特征提取方法，并将其与底层视觉特征结合起来提高视频聚类的准确率是一个非常有价值的研究课题，对于视频聚类研究具有非常重要的意义。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，将人脑认知信息中的脑功能成像空间特征与视频底层视觉特征结合起来用于视频聚类中，提高视频聚类技术的准确性。

技术方案

一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，其特征在于步骤如下：

步骤1提取脑功能成像空间特征，具体步骤如下：

步骤a1：利用公式 $> p_{i, j, k} = \frac{Σ s_{i, j, r} s_{i, k, r} - \frac{Σ s_{i, j, r} Σ s_{i, k, r}}{n}}{\sqrt{(Σ s_{i, j, r}^{2} - \frac{{(Σ s_{i, j, r})}^{2}}{n}) (Σ s_{i, k, r}^{2} - \frac{{(Σ s_{i, k, r})}^{2}}{n})}}$ >提取N个功能磁共振图像序列中的，第i个功能磁共振图像序列上大脑M个区域的信号向量S_i，j和S_i，k的皮0。。。。尔森相关系数p_i，j，k，得到第i个功能磁共振图像序列的皮尔森相关系数矩阵：

$> P_{i} = (\begin{matrix} p_{i, 1,1}, p_{i, 1,2}, . . ., p_{i, 1, k}, . . ., p_{i, 1, M} \\ p_{i, 2,1}, p_{i, 2,2}, . . ., p_{i, 2, k}, . . ., p_{i, 2, M} \\ . . . \\ p_{i, j, 1}, p_{i, j, 2}, . . ., p_{i, j, k}, . . ., p_{i, j, M} \\ . . . \\ p_{i, M, 1}, p_{i, M, 2}, . . . p_{i, M, k}, . . . p_{i, M, M} \end{matrix})$ >

其中：信号向量S_i，j＝[S_i，j，1,s_i，j，2,...,S_i，j，r,...S_i，j，n]，信号向量S_i，k＝[S_i，k,1,S_i，k，2,...,S_i，k，r，...S_i，k，n]，i表示N个功能磁共振图像序列中的第i个功能磁共振图像序列的序号，i＝1,2，...,N，j,k=1,2，...，M，j表示第i个功能磁共振图像序列中大脑的第j个区域的序号，k表示第i个功能磁共振图像序列中大脑的第k个区域的序号，r表示信号向量S_i，j和S_i，k中第r个元素的序号，N∈[1,1000]，M∈[1,1000]，N表示功能磁共振图像序列的总数，M表示功能磁共振图像序列中大脑区域的总数；S_i，j，r表示信号向量S_i，j的第r个元素；s_i，k，r表示信号向量S_i，k的第r个元素；n表示信号向量S_i，j和S_i，k的长度；

所述N个功能磁共振图像序列，是利用功能磁共振技术，在测试者观看N个视频时测得的功能磁共振图像；

步骤b1：取皮尔森相关系数矩阵P_i上三角部分，拉伸成向量Q_i＝[q_i，1,q_i，2,...,q_i，d]， d＝(M×M)/2-M/2，然后将N个Q_i向量按行排列构成矩阵D：

$> D = (\begin{matrix} Q_{1} \\ Q_{2} \\ . . . \\ Q_{i} \\ . . . \\ Q_{N} \end{matrix}) = (\begin{matrix} q_{1,1}, q_{1,2}, . . ., q_{1, d} \\ q_{2,1}, q_{2,2}, . . ., q_{2, d} \\ . . . \\ q_{i, 1}, q_{i, 2}, . . . q_{i, d} \\ . . . \\ q_{N, 1}, q_{N, 2}, . . . q_{N, d} \end{matrix})$ >

其中，q_i，1,q_i，2,...,q_i,d表示Q_i的第1，2，…，d个元素；

步骤c1：计算矩阵D每一列元素的均值，将矩阵D的每一列元素减去该列元素的均值，得到矩阵U：

$> U = (\begin{matrix} U_{1} \\ U_{2} \\ . . . \\ U_{i} \\ . . . \\ U_{N} \end{matrix}) = (\begin{matrix} u_{1,1}, u_{1,2}, . . ., u_{1, d} \\ u_{2,1}, u_{2,2}, . . ., u_{2, d} \\ . . . \\ u_{i, 1}, u_{i, 2}, . . . u_{i, d} \\ . . . \\ u_{N, 1}, u_{N, 2}, . . . u_{N, d} \end{matrix})$ >

在矩阵U的第v列U_v=[u_1，v,u_2，v，...,u_N,v]^T中找出属于第K类视频的元素，并计算属于第K类视频的元素均值得到类内均值向量其中，U₁,U₂,...,U_i，...,U_N表示N个视频对应的功能磁共振图像序列中提取的N个向量，N个视频可分为C类；u_1，v,u_2，v,..,u_N,v表示U_v=[u_1，v，u_2，v，...,u_N,v]^T中的第1,2，...,N个元素，这N个元素按照对应的C类视频分为C类；K=1,2，...,C，K表示C类视频中的第K类；C表示N个视频的总类别个数；

再利用公式 $> F = \frac{(| L | | \overline{u_{C}} | \cos θ) \times (N - C)}{(C - 1) \times (TSS - (| L | | \overline{u_{C}} |) \cos θ)}$ >计算累计分布函数参数F；

利用公式 $> g = 1 - \frac{1}{\exp (gam (C - 1) + gam (N - C) - gam (N - 1))}$ >计算参数g；

当g＜T时，T∈(0,10000]，保留矩阵U中的第v列；否则，从矩阵U中删除该列，得到经过单因素方差分析选择后的矩阵B：

$> B = (\begin{matrix} B_{1} \\ B_{2} \\ . . . \\ B_{i} \\ . . . \\ B_{N} \end{matrix}) = (\begin{matrix} b_{1,1}, b_{1,2}, . . ., b_{1, x} \\ b_{2,1}, b_{2,2}, . . ., b_{2, x} \\ . . . \\ b_{i, 1}, b_{i, 2}, . . ., b_{i, x} \\ . . . \\ b_{N, 1}, b_{N, 2}, . . . b_{N, x} \end{matrix})$ >

其中，C表示视频的类别总数；||表示取绝对值；L＝[l₁,l₂,..,l_K,..l_C,]^T；l_K表示U_v中属于第K类视频的元素个数；θ为向量和L间的夹角；表示U_v的均值；上标T表示转置；exp表示指数函数； g＜T中的T表示阈值，T∈(0,10000]；下标x表示从U中选取的列向量的个数；

步骤d1：遍历矩阵B的每一列，利用相关特征选择方法将参数的数值最高的y列构成脑功能成像空间特征矩阵C：

$> C = (\begin{matrix} C_{1} \\ C_{2} \\ . . . \\ C_{i} \\ . . . \\ C_{N} \end{matrix}) = (\begin{matrix} c_{1,1}, c_{1,2}, . . ., c_{1, y} \\ c_{2,1}, c_{2,2}, . . ., c_{2, y} \\ . . . \\ c_{i, 1}, c_{i, 2}, . . ., c_{i, y} \\ . . . \\ c_{N, 1}, c_{N, 2}, . . . {cb}_{N, y} \end{matrix})$ >

其中：下标y表示从B中选取的列向量的个数；表示向量[r_1，w,r_2，w，…,r_s，w，…,r_y，w]的均值；r_s,w表示矩阵C的第s个列向量C_s与类别标签向量W=[1,1,1,...2,2,2,..,K，K，K,..C,C,C]^T的相关性参数；上标T表示取向量转置； $> r_{s, w} = 2.0 \times [\frac{\underset{w_{h} \in C_{s}}{Σ} p (w_{h}) \underset{c_{sh} \in C_{s}}{Σ} p (c_{s, h} | w_{h}) \log_{2} (c_{s, h} | w_{h}) - \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h}) \log_{2} p (c_{s, h})}{- \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h}) \log_{2} p (c_{s, h}) - \underset{w_{h} \in W}{Σ} p (w_{h}) \log_{2} p (w_{h})}];$ >p(w_h)表示w_h在W中的概率分布；w_h表示向量W中的第h个元素；p(c_s,h|w_h)表示c_s,h在C_s中的条件概率分布；p(c_s，h)表示c_s，h在C_s中的概率分布；c_s，h表示向量C_s中的第h个元素；log₂表示以2为底数的对数函数；表示矩阵：

$> (\begin{matrix} r_{1,1}, r_{1,2}, . . ., r_{1, o}, . . ., r_{1, y} \\ r_{2,1}, r_{2,2}, . . ., r_{2, o}, . . ., r_{2, y} \\ . . . \\ r_{s, 1}, r_{s, 2}, . . ., r_{s, o}, . . ., r_{s, y} \\ . . . \\ r_{y, 1}, r_{y, 2}, . . ., r_{y, o}, . . ., r_{y, y} \end{matrix})$ >

中所有元素的均值；r_s,o表示矩阵C的第s个列向量C_s与第o个列向量C_o的相关性参数； $> r_{s, o} = 2.0 \times [\frac{\underset{c_{o, h} \in C_{o}}{Σ} p (c_{o, h}) \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h} | c_{o, h}) \log_{2} p (c_{s, h} | c_{o, h}) - \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h}) \log_{2} p (c_{s, h})}{- \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h}) \log_{2} p (c_{s, h}) - \underset{c_{o, h} \in C_{o}}{Σ} p (c_{o, h}) \log_{2} p (c_{o, h})}];$ >c_o，h表示向量C_o中的第h个元素；p(c_o,h)表示c_o,h在C_o中的概率分布；p(c_s,h|c_o，h)表示c_s，h在C_s中的条件概率分布；

步骤2提取视频库中所有N_a个视频数据的底层视觉特征向量Fv_id，具体步骤如下：

步骤a2：利用尺度不变特征变换算法提取第id个视频第一帧的Nsi个描述向量集合FS_id＝{Fsi_id，1,Fsi_id，2,...,Fsi_id，sh，...,Fsi_id，Nsi}，sh＝1,2,...,Nsi，id＝1,2,..,N_a，N_a∈(0,100000]，Nsi∈[0,10000]，对N_a个视频都提取描述向量集合，得到 $> [{FS}_{1}, F S_{2}, . . . {FS}_{id}, . . ., {FS}_{N_{a}}];$ >

步骤b2：利用k均值算法对进行聚类，聚类个数为G；

步骤c2：计算FS_id＝{Fsi_id，1,Fsi_id，2,...,Fsi_id，sh，...,Fsi_id，Nsi}中分别属于G类的向量个数[Num_id，1，Num_id，2，...,Num_id,G]，得到第id个视频的底层视觉特征向量：Fv_id＝[Num_id，1，Num_id，2，...,Num_id,G]；

步骤3利用高斯过程回归算法预测N_a-N个视频数据的脑功能成像空间特征向量：

利用脑功能成像空间特征矩阵C和其对应N个视频的底层视觉特征[Fv₁,Fv₂,...,Fv_idp,...,Fv_N]，idp＝1,2,...,N，建立高斯过程回归模型GPM，利用高斯过程回归模型GPM预测得到N_a-N个视频的脑功能成像空间特征向量：

$> (\begin{matrix} C_{N + 1} \\ C_{N + 2} \\ . . . \\ C_{N_{a}} \end{matrix}) = (\begin{matrix} c_{N + 1,1}, c_{N + 1,2}, . . ., c_{N + 1, y} \\ c_{N + 2,1}, c_{N + 2,2}, . . ., c_{N + 2, y} \\ . . . \\ c_{N_{a}, 1}, c_{N_{a}, 2}, . . ., c_{N_{a}, y} \end{matrix});$ >

步骤4利用N_a个脑功能成像空间特征向量[C₁,C₂,...,C_id,...,C_Na]和底层视觉特征[Fv₁,Fv₂,...,Fv_id,...,Fv_Na]进行多模态谱聚类，具体步骤如下：

步骤a3：计算[C₁,C₂,...,C_id，...,C_Na]中与空间中的一个点C_id=(c_id，1,c_id，2，...,c_id，y)欧氏距离最近的k个点，并定义为近邻关系，k=[1,10000]；再计算[Fv₁,Fv₂,...,Fv_id，...,Fv_Na]中与空间中的一个点Fv_id=(fv_id，1，fv_id，2，...,fv_id，y)欧氏距离最近的k个点，并定义为近邻关系；其中：表示脑功能成像空间特征C_id中第1、2和y个元素；fv_id，1,fv_id，2，...,fv_id，y表示底层视觉特征Fv_id中第1、2和y个元素；

步骤b3：利用计算属于近邻关系的C_id和C_jd两点间的权重CWeight_id，jd，得到权重矩阵；

$> CWeight = (\begin{matrix} {CWeight}_{1,1}, {CWeight}_{1,2}, . . ., {CWeight}_{1, jd}, . . ., {CWeight}_{1, N_{a}} \\ {CWeight}_{2,1}, {CWeight}_{2,2}, . . ., {CWeight}_{2, jd}, . . ., {CWeight}_{2, N_{a}} \\ . . . \\ {CWeight}_{id, 1}, {CWeight}_{id, 2}, . . . {, CWeight}_{id, jd}, . . ., {CWeight}_{id, N_{a}} \\ . . . \\ {CWeight}_{N_{a}, 1}, {CWeight}_{N_{a}, 2}, . . ., CWeigh t_{N_{a}, jd}, . . ., {CWeight}_{N_{a}, N_{a}} \end{matrix})$ >

同理，利用计算属于近邻关系Fv_i和Fv_j之间的权重FvWeight_id，jd，得到权重矩阵：

$> FvWeight = (\begin{matrix} {FvWeight}_{1,1}, {FvWeight}_{1,2}, . . ., {FvWeight}_{1, jd}, . . ., {FvWeight}_{1, N_{a}} \\ {FvWeight}_{2,1}, {FvWeight}_{2,2}, . . ., {FvWeight}_{2, jd}, . . ., {FvWeight}_{2, N_{a}} \\ . . . \\ {FvWeight}_{id, 1}, {FvWeight}_{id, 2}, . . ., {FvWeight}_{id, jd}, . . ., {FvWeight}_{id, N_{a}} \\ . . . \\ {FvWeight}_{N_{a}, 1}, {FvWeight}_{N_{a}, 2}, . . ., FvWeigh t_{N_{a}, jd}, . . ., {FvWeight}_{N_{a}, N_{a}} \end{matrix})$ >

其中：C_id和C_jd表示第id个视频和第jd个视频的脑功能成像空间特征向量；Π表示连乘积；c_id，l和c_jd，l表示C_id和C_jd的第l个元素；l＝1,2,...,y；σ_l表示一个常数，σ_l∈(0,1]；Fv_id和Fv_jd表示第id个视频和第jd个视频的底层视觉特征向量；Fv_id，l和Fv_jd,l表示Fv_id和Fv_jd的第l个元素；

步骤c3：在矩阵CWeight中令CWeight_id，id＝0；在矩阵FvWeight中令FvWeight_id，id＝0；再利用公式 $> (\begin{matrix} LC = DC - CWeight \\ LFv = DFv - FvWeight \end{matrix})$ >计算CWeight和FvWeight的拉普拉斯矩阵；利用公式L_multi-modal＝LC+αI+LFv+αI计算多模态拉普拉斯矩阵L_multi-modal，大小为N_a×N_a；其中：LC和LFv表示矩阵CWeight和FvWeight的拉普拉斯矩阵；DC表示[C₁,C₂,...,C_id，...,C_Na]中两两脑功能成像空间特征向量之间的欧式距离所构成的矩阵；DFv表示[Fv₁,Fv₂,...,Fv_id，...，Fv_Na]中两两底视觉层特征向量之间的欧式距离所构成的矩阵；I表示单位矩阵，大小为N_a×N_a；α表示常数；

步骤d3：计算多模态拉普拉斯矩阵L_multi-modal的特征值和特征向量，将特征值从大到小排列，选取前C个特征值对应的特征向量Vector₁，Vector₂,...,Vector_c，构成矩阵VecMatrix=[Vector₁,Vector₂,...,Vector_c]，大小为N_a×C，计算矩阵VecMatrix每一行的和，然后用该行元素分别除以该行元素的和，得到矩阵VecMatrixNew，大小为N_a×C；其中：C表示视频库中视频类别个数；

步骤e3：将VecMatrixNew每行中值最大的元素置为1，其余元素置为0，得到VecMatrixNew1；

步骤f3：将VecMatrixNew1的每一行视为高维空间中的一个点，用光谱旋转算法对VecMatrixNew1矩阵中的N_a个点进行聚类，得到类别矩阵Index，大小为N_a×C；

步骤g3：利用公式Index0=Index+0.2得到初始类别矩阵Index0，计算Indexnew=Index0×diag[[diag(Index0^T×I×Index0)]^-1]^-1/2，将Indexnew赋给Index0，再次计算Indexnew=Index0×diag[[diag(Index0^T×I×Index0)]^-1]^1-/2，将Indexnew赋给Index0，重复N_e次，N_e∈[1,10000]，得到最终的Indexnew，大小为N_a×C，计算Indexnew每行最大值所在的第cg列，将最终标签Indexfinal对应行置为cg，cg∈[1,2,..,C]，Indexfinal大小为N_a×1；其中，diag表示提取矩阵的对角线元素；I表示单位向量；

步骤h3：计算Indexfinal与视频真实类别标签IndexTrue的相同元素个数，除以N_a得到视频聚类准确率。

所述个数聚类G∈[20,10000]。

所述常数α∈[10^-2,10²]。

所述步骤4的步骤h采用归一化互信息NMI方法或者精度Purity方法计算聚类准确率。

有益效果

本发明提出的一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，首先，提取功能磁共振图像序列中的信号向量，其次，计算信号向量的皮尔森相关系数矩阵，利用单因素方差分析和相关特征选择方法从皮尔森相关系数矩阵中提取脑功能成像空间特征，第三，利用视频的底层视觉特征和脑功能成像空间特征建立高斯过程回归模型，用该模型计算出视频库中没有进行功能磁共振成像的视频的脑功能成像空间特征，最后，利用多模态谱聚类算法对底层视觉特征和脑功能成像空间特征进行聚类，得到更高的视频聚类准确率。

本发明提出的利用脑功能成像空间特征和底层视觉特征进行视频聚类的方法，用功能磁共振图像序列中提取的脑功能成像空间特征和传统的底层视觉特征融合聚类来提高视频的聚类准确性，将人脑认知信息应用到视频聚类中，与传统视频聚类只利用底层视觉特征或者只利用脑功能成像空间特征相比，大大提高了视频聚类的准确率。

附图说明

图1：本发明方法的基本流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

用于实施的硬件环境是：Intel(R)Core(TM)2Duo CPU2.93GHz、2GB内存、256M显卡，运行的软件环境是：Matlab2009a和Windows7。我们用Matlab软件实现了本发明提出的方法。

本发明具体实施如下：

1提取脑功能成像空间特征：

对N个的功能磁共振图像序列提取脑功能成像空间特征，N=51，功能磁共振图像序列由测试者观看N个视频时利用功能磁共振成像技术测得，视频来自TRECVID2005媒体库。

该功能磁共振图像序列采集在3T GE信号采集器上完成，测试参数为：功能磁共振扫描：64×64矩阵；层厚为4mm；视场为220mm；30层；TR为1.5s；TE为25ms；ASSET为2。

选取功能磁共振图像序列中大脑M个区域的功能磁共振成像信号，M＝358。这些区域包括工作记忆区域、视觉网络区域、听力和语言区域等，对第i个功能磁共振图像序列，提取功能磁共振图像序列上大脑M个区域信号向量S_i，j＝[s_i，j，1,S_i，j，2,...,s_i，j，r，...S_i，j，n]，i=1,2,..,N，j=1,2，...，M，计算S_i，j的皮尔森相关系数矩阵P_i，利用单因素方差分析和相关特征选择方法从N个皮尔森相关系数矩阵P_i中提取脑功能成像空间特征C_i。具体步骤如下：

(1)利用公式 $> p_{i, j, k} = \frac{Σ s_{i, j, r} s_{i, k, r} - \frac{Σ s_{i, j, r} Σ s_{i, k, r}}{n}}{\sqrt{(Σ s_{i, j, r}^{2} - \frac{{(Σ s_{i, j, r})}^{2}}{n}) (Σ s_{i, k, r}^{2} - \frac{{(Σ s_{i, k, r})}^{2}}{n})}}$ >计算信号向量S_i，j＝[S_i，j，1,S_i，j，2,...,S_i，j，r,...S_i，j，n]和S_i，k＝[S_i，k，1,S_i，k，2,...,S_i，k，r，...S_i，k，n]的皮尔森相关系数p_i，j，k，得到第i个功能磁共振图像序列的皮尔森相关系数矩阵：

其中，s_i，j，r表示信号向量S_i，j的第r个元素；s_i，k，r表示信号向量S_i，k的第r个元素；n表示信号向量S_i，j和S_i，k的长度；

(2)取皮尔森相关系数矩阵P_i上三角部分，拉伸成向量Q_i＝[q_i，1,q_i，2，...,q_i，d]，d＝(M×M)/2-M/2＝63903，将N＝51个视频的Q_i向量按行排列构成矩阵：

其中，q_i，1,q_i，2,...,q_i,d表示Q_i中的第1，2，…，d个元素；

(3)对矩阵D按列进行单因素方差分析，步骤为：

计算矩阵D每一列元素的均值，将矩阵D的每一列元素减去该列元素均值，得到矩阵：

对矩阵U的第v列U_v，找出属于第K类视频的元素，并计算属于第K类视频的元素均值对C=3类视频的元素都计算元素均值，构成类内均值向量 $> \overline{u_{C}} = [\overline{u_{v, 1}}, \overline{u_{v, 2}}, . . ., \overline{u_{v, K}}, . . ., \overline{u_{v, C}}];$ >利用公式 $> F = \frac{(| L | | \overline{u_{C}} | \cos θ) \times (N - C)}{(C - 1) \times (TSS - (| L | | \overline{u_{C}} |) \cos θ)}$ >计累计分布函数参数F，利用公式 $> g = 1 - \frac{1}{\exp (gam (C - 1) + gam (N - C) - gam (N - 1))}$ >计算参数g，如果g＜T，T=0.0005，保留该第v列；否则，从矩阵U中删除该列，得到经过单因素方差分析选择后的矩阵：

其中，C表示视频的类别总数，C=3；L＝[l₁,l₂,..,l_K,..l_C,]^T；l_K表示U_v中属于第K类视频的元素个数；θ为两向量和L间的夹角；表示U_v的均值；上标T表示转置；exp表示指数函数； g＜T中的T表示阈值，T∈(0,10000]；下标x表示从U中选取的列向量的个数；

(4)遍历矩阵B的每一列，利用相关特征选择方法寻找参数值最高的y列构成的脑功能成像空间特征矩阵：

其中：下标y表示从B中选取的列向量的个数；表示相关性向量[r_1，w，r_2，w，...,r_s,w，...,r_y,w]的均值；r_s,w表示矩阵C的第s个列向量C_s与类别标签向量W=[1,1,1,...2,2,2,...,K，K，K,...C,C,C]^T的相关性参数；上标T表示取向量转置； $> r_{s, w} = 2.0 \times [\frac{\underset{w_{h} \in C_{s}}{Σ} p (w_{h}) \underset{c_{sh} \in C_{s}}{Σ} p (c_{s, h} | w_{h}) \log_{2} (c_{s, h} | w_{h}) - \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h}) \log_{2} p (c_{s, h})}{- \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h}) \log_{2} p (c_{s, h}) - \underset{w_{h} \in W}{Σ} p (w_{h}) \log_{2} p (w_{h})}];$ >p(w_h)表示w_h在W中的概率分布；w_h表示向量W中的第h个元素；p(c_s，h|w_h)表示c_s,h在C_s中的条件概率分布；p(c_s，h)表示c_s，h在C_s中的概率分布；c_s，h表示向量C_s中的第h个元素；log₂表示以2为底数的对数函数；表示相关性矩阵：

中所有元素的均值；r_s,o表示子矩阵C的第s个列向量C_s与第o个列向量C_o的相关性参数； $> r_{s, o} = 2.0 \times [\frac{\underset{c_{o, h} \in C_{o}}{Σ} p (c_{o, h}) \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h} | c_{o, h}) \log_{2} p (c_{s, h} | c_{o, h}) - \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h}) \log_{2} p (c_{s, h})}{- \underset{c_{s, h} \in C_{s}}{Σ} p (c_{s, h}) \log_{2} p (c_{s, h}) - \underset{c_{o, h} \in C_{o}}{Σ} p (c_{o, h}) \log_{2} p (c_{o, h})}];$ >c_o,h表示向量C_o中的第h个元素；p(c_o,h)表示c_o,h在C_o中的概率分布；p(c_s,h|c_o，h)表示c_s，h在C_s中的条件概率分布；

2提取视频库中所有N_a=1307个视频数据的底层视觉特征向量Fv_id：

具体步骤为：

(1)利用尺度不变特征变换匹配算法提取第id个视频第一帧的Nsi个描述向量集合 FS_id＝{Fsi_id，1，Fsi_id，2，...,Fsi_id，sh，...,Fsi_id，Nsi}，sh＝1,2,...,Nsi，id＝1,2,...,N_a，N_a∈(0,100000]，Nsi∈[0,10000]，对N_a个视频都提取描述向量集合，得到

提取FS_id＝{Fsi_id，1,Fsi_id，2,...,Fsi_id，sh，...,Fsi_id，Nsi}的具体方法为：提取视频库中第id个视频数据的第一帧作为第id个视频的关键帧图像I_id，每个关键帧为代表该视频片段主要内容的一幅图像，对关键帧进行高斯平滑处理，得到图像其中选取σ_n＝0.5，其中σ_n为平滑参数，表示平滑程度。对平滑后的图像利用尺度不变特征变换匹配算法提取SIFT特征，特征维数为128，具体方法为：选取不同的σ＝σ₀2^o+s/S与做卷积形成了一个图像金字塔GSS_σ，其中s＝0,..S-，o＝0,...O-1，S＝3，O＝min(log₂ row,log₂ col)，σ₀＝1.5，row表示图像的垂直方向上像素点的个数，col表示图像的水平方向上像素点的个数。然后对相邻的GSS_σ求差分得到DOG_σ，对于DOG_σ的每个像素点分别与上一尺度对应像素点及周围的八邻域像素点，当前尺度周围的八邻域像素点，以及下一尺度对应像素点及周围的八邻域像素点作比较，如果该像素点为极小值或者极大值点，则该像素点为图像显著点，其周围以σ为半径的区域为显著区域，由此可以得到一系列的图像显著点X，其相应的σ为其对应的尺度大小λ。对于每个图像显著点X，使的梯度图像与高斯核做卷积得到梯度图像其中σ_G＝1.5σ，并计算梯度图像中以显著点X的显著区域中的方向直方图，其中每个方向直方图区间的幅值计算是对该方向区域内梯度进行累加，取方向直方图的区间个数L＝36，从方向直方图选取幅度超过其最大值80%的方向区域，确定为该特征区域主方向θ，如有多个方向区域，则该特征区域存在多个主方向θ。最后取图像显著点X的显著区域，按主方向及其垂直方向等分成16个区域，在每个小区域中分别统计方向直方图，其中每个方向直方图区间的幅值计算是对该方向区域内梯度赋值进行累加，取方向直方图的区间个数L＝8，并将每个方向直方图的幅值量化到[0,255]之间，得到一个16×8＝128的描述向量Fsi_id，sh。对每个关键帧图像进行计算得到满足上述条件的Nsi个显著点的描述向量集合FS_id＝{Fsi_id，1,Fsi_id，2，...,Fsi_id，sh，...,Fsi_id，Nsi}，sh＝1,2,...,Nsi。对N_a个视频都提取描述向量集合，得到

(2)利用k均值算法对进行聚类，聚类个数为G=65；k均值算法具体步骤为：

1)从中随机选取65个描述向量作为初始中心点，记为F[1]，F[2]，...F[65]，计算65个初始中心点之外的描述向量F＝{f₁，f₂，...，f₆₅}与65个初始中心点F[i]＝{f[i]₁，f[i]₂，...，f[i]₆₅}的欧式距离，公式如下：

$> L = \sqrt{{(f_{1} - f {[i]}_{1})}^{2} + {(f_{2} - f {[i]}_{2})}^{2} + . . . + {(f_{120} - f {[i]}_{120})}^{2}}$ >

其中，L表示两个描述向量之间的欧式距离，f₁，f₂，...，f₆₅表示描述向量F的65维上的数值，f[i]₁，f[i]₂，...，f[i]₆₅表示初始中心点F[i]65维上的数值。

2)如果F＝{f₁，f₂，...，f₆₅}与F[i]＝{f[i]₁，f[i]₂，...，f[i]₆₅}距离最接近，则将此描述向量归到第i类，重新计算每一类中描述向量的平均值，即对该类中所有描述向量的每一维取平均，得到新的中心点F[i]′。

3)将F[i]′赋给F[i]，作为新的初始中心点重复计算65个初始中心点之外的描述向量F＝{f₁，f₂，...，f₆₅}与65个初始中心点F[i]＝{f[i]₁，f[i]₂，...，f[i]₆₅}的欧式距离，直到F[i]′与F[i]的欧式距离小于0.00000l为止。

计算中分别属于G类的向量个数得到第id个视频的底层视觉特征向量：FV_id＝[Num_id，1，Num_id，2，...，Num_id，G]；

3 用高斯过程回归预测N_a-N个视频数据的脑功能成像空间特征向量：

利用脑功能成像空间特征矩阵：

和其对应N个视频数据的底层视觉特征[FV₁，Fv₂，...，FV_idp，...，Fv_N]，idp＝1，2，...，N，建立高斯过程回归模型GPM，利用高斯过程回归模型GPM预测N_a-N个视频数据的脑功能成像空间特征向量：

具体步骤如下：

(1)选取高斯核函数：

$> k_{ng, mg} = k ({Fv}_{ng}, {Fv}_{mg}) = θ_{0} \exp {- \frac{1}{2} Σ_{ug = 1}^{G} η_{ug} {({fv}_{ng, ug} - {fv}_{mg, ug})}^{2}} + θ_{1}$ >

选取相关系数计算公式：

cf_ng,mg＝cf(Fv_ng,Fv_mg)＝k_ng,mg+β^-1δ_ng,mg

其中，Fv_ng、Fv_mg表示N个视频数据中任意两个视频数据的底层视觉特征向量，ng＝1,2,...N，mg＝1,2,...N；θ₀、η_u，θ₁表示高斯核函数中的超参数；fv_ng，ug、fv_mg，ug表示Fv_ng、Fv_mg中第ug维上的数值，ug＝1,2,...,G；c(Fv_ng，Fv_mg)表示向量Fv_ng和Fv_mg之间的相关系数；β表示随机噪声； $> δ_{ng, mg} = (\begin{matrix} 1 & ng = mg \\ 0 & ng \neq mg \end{matrix});$ >

(2)对脑功能成像空间特征

第cb＝1,2,...,y维构建方程组：

$> (\begin{matrix} c_{1, cb} = K_{1} {C_{1}}^{- 1} t_{1, cb} \\ c_{2, cb} = K_{2} {C_{2}}^{- 1} t_{2, cb} \\ . . . \\ c_{i, cb} = K_{i} C_{i}^{- 1} t_{i, cb} \\ . . . \\ c_{N, cb} = K_{N} c_{N}^{- 1} t_{N, cb} \end{matrix})$ >

计算第cb维脑功能成像空间特征对应的超参数θ₀、η_u和θ₁。其中，c_i，cb表示第i个视频数据的脑功能成像空间特征的第cb个元素，cb＝1，2，；K_i＝[k_i，1，k_i，2，...，k_i，i-1，k_i，i+1，...，k_i，N]；

其中， C_i＝[cf(FV_ng，FV_mg)]，ng＝1，2，...，i-1，i+1，...N，mg＝1，2，...，i-1，i+1，...N，t_i，cb＝(fv_1，cb，fv_2，cb...，fv_i-1，cb，fv_i+1，cb，...，fv_N，cb)^T；vb_1，cb，fv_2，cb，fv_i-1，cb，fv_i+1，cb和fv_N，cb分别表示第1、2、i-1、i+1和N个视频的底层视觉特征向量中的第cb个元素；

(3)利用超参数对N_a-N个脑功能成像空间特征未知的视频数据第cb＝1，2，...，y维脑功能成像空间特征向量进行预测，计算公式如下：

$> (\begin{matrix} c_{N + 1, cb} = K_{N + 1} {C_{N + 1}}^{- 1} t_{N + 1, cb} \\ c_{N + 2, cb} = K_{N + 2} {C_{N + 2}}^{- 1} t_{N + 2, cb} \\ . . . \\ c_{s, cb} = K_{s} {C_{s}}^{- 1} t_{s, cb} \\ . . . \\ c_{N_{a}, cb} = K_{N_{a}} {C_{N_{a}}}^{- 1} t_{N_{a}, cb} \end{matrix})$ >

其中，K_s＝[k_s，1，k_s，2，...，k_s，N]，k_s，1＝k(FV_s，Fv_l)，s＝N+1，...，N_a，C_s＝[cf(FV_nge，FV_mge)]，nge＝N+1，...，N_a，mge＝N+1，...，N_a， fv_N+1，cb，fv_N+2，cb和分别表示第N+1、N+2和N_a个视频的底层视觉特征向量中的第cb维特征；

4 利用N_a个脑功能成像空间特征[C₁，C₂，...，C_id，...，C_Na]和底层视觉特征[FV₁，Fv₂，...，FV_id，...，FV_Na]进行多模态谱聚类，得到l到N_a个视频的类别标签向量Indexfinal，并计算Indexfinal的聚类准确率：

具体步骤如下：

(1)将C_id＝(c_id，1，c_id，2，...，c_id，y)视为空间中的一个点，找到[C₁，C₂，...，C_id，...，C_Na,]中与c_id欧氏距离最近的k个点，k＝[1,10000]，定义C_id与其欧氏距离最近的k个点之间的关系为近邻关系；同理，将脑功能成像空间特征Fv_id＝(fv_id，1，fv_id，2，...，fv_id，y)视为空间中的一个点，找到[Fv₁，Fv₂，...，Fv_id，...，Fv_Na]中与Fv_id欧氏距离最近的k个点，定义Fv_id与其欧氏距离最近的k个点之间的关系为近邻关系；

其中：c_id，1，C_id,2，...，c_id，表示脑功能成像空间特征C_id中的第l、2和y个元素；fv_id，1，fv_id，2，...，fv_id，y表示底层视觉特征Fv_id中的第1、2和y个元素；

(2)如果C_id和C_jd是近邻关系， jd＝1,2,...,N_a利用计算C_id和C_jd之间的权重CWeight_id，jd，得到权重矩阵：

在矩阵CWeight中令CWeight_id，id＝0；同理，如果特征Fv_i和Fv_j是近邻关系，利用计算Fv_i和Fv_j之间的权重FvWeight_id，jd，得到权重矩阵：

在矩阵FvWeight中令FvWeight_id，id＝0；

其中：C_id和C_jd表示第id个视频和第jd个视频的脑功能成像空间特征向量；∏表示连乘积；c_id，l和c_jd，l表示C_id和C_jd的第l个元素；l＝1,2,...，y；σ_l表示一个常数，σ_l＝0.05；Fv_id和Fv_jd表示第id个视频和第jd个视频的底层视觉特征向量；Fv_id，l和Fv_jd,l表示Fv_id和Fv_jd的第l个元素；

(3)利用公式 $> (\begin{matrix} LC = DC - CWeight \\ LFv = DFv - FvWeight \end{matrix})$ >计算CWeight和FvWeight的拉普拉斯矩阵；利用公式L_multi-modal＝LC+αI+LFv+αI计算多模态拉普拉斯矩阵L_multi-modal，大小为N_a×N_a；

其中：LC和LFv表示矩阵CWeigh和FvWeight的拉普拉斯矩阵；DC表示 [C₁,C₂,...,C_id，...,C_Na]中两两脑功能成像空间特征向量之间的欧式距离所构成的矩阵；DFv表示[Fv₁,Fv₂,...,Fv_id，...，Fv_Na]中两两底视觉层特征向量之间的欧式距离所构成的矩阵；I表示单位矩阵，大小为N_a×N_a；α表示常数，α∈[10^-2,10²]；

(4)计算多模态拉普拉斯矩阵L_multi-modal的特征值和特征向量，将特征值从大到小排列，选取前C个特征值对应的特征向量Vecto₁，Vector₂,...,Vector_C，构造矩阵VecMatrix=[Vector₁,Vector₂,...,Vector_C]，大小为N_a×C，计算矩阵VecMatrix每一行的和，然后用该行元素分别除以该行元素的和，得到矩阵VecMatrixNew，大小为N_a×C；其中：C表示视频库中视频类别个数；

(5)将VecMatrixNew每行中值最大的元素置为1，其余元素置为0，得到

(6)将VecMatrixNew1的每一行视为高维空间中的一个点，用光谱旋转算法对VecMatrixNew1矩阵中的N_a个点进行聚类，得到类别矩阵Index，大小为N_a×C；光谱旋转算法步骤为：计算VecMatrixNew2＝VecMatrixNew×VecMatrixNew^T；对中每个元素求-1/2方，得到VecMatrixNew3；将VecMatrixNew3中除对角线元素外都置为0，得到VecMatrixNew4；

计算VecMatrixNew5＝VecMatrixNew4×VecMatrixNew；

计算VecMatrixNew6＝VecMatrixNew5^T×VecMatrixNew1；

对VecMatrixNew6进行SVD分解，得到矩阵U_SVD,d_SVD,V_SVD；计算Q_SvD＝U_SVD×V_SVD^T；计算M_SVD＝VecMatrixNew5×Q_SVD；将M_SVD每行中最大元素置为1，其余置为0，得到M1_SVD；将M1_S V赋给VecMatr1；重新计算VecMatrixNew6＝VecMatrixNew5^T×VecMatrixNew1；重复计算30次，得到M1_SVD，将其赋给Index；

(7)利用公式Index0=Index+0.2得到初始类别矩阵Index0，计算Indexnew=Index0×diag[[diag(Index0^T×I×Index0)]^-1]^-1/2，将Indexnew赋给Index0，重复N_e次，N_e∈[1,10000]，得到最终的Indexnew，大小为N_a×C，求出Indexnew每行最大值所在的第cg列，将最终标签Indexfinal对应行置为cg，cg∈[1,2，..,C]，Indexfinal大小为N_a×1；其中，diag表示取矩阵的对角线元素；I表示单位向量；

(8)比较Indexfinal与视频真实类别标签IndexTrue，计算准确率，采用三种方法来计算准确率，分别是：聚类准确率ACC、归一化互信息NMI和精度。

聚类准确率ACC：对比Indexfinal与视频真实类别标签IndexTrue的对应元素，找出两者相同的个数，除以N_a=1307得到聚类准确率；

归一化互信息NMI：

1)计算 $> (\begin{matrix} Indexfina \ln ew = Indexfinal - \min (Indexfinal) + 1 \\ IndexTruenew = IndexTrue - \min (IndexTrue) 1 \end{matrix}),$ >其中，min(Indexfinal)表示取Indexfinal的最小值；min(IndexTrue)表示取IndexTrue的最小值；

2)找出Indexfinalnew和IndexTruenew中属于3类视频的个数，构成矩阵：

$> IndexG = (\begin{matrix} I {ndexG}_{1,1}, {IndexG}_{1,2} {IndexG}_{1,13} \\ {IndexG}_{2,1} {IndexG}_{2,2} {IndexG}_{2,3} \\ {IndexG}_{3,1} {IndexG}_{3,2} {IndexG}_{3,3} \end{matrix})$ >

其中，IndexG_1,1表示Indexfinalnew中属于第一类、并且IndexTruenew中属于第一类的视频的个数，其余元素同理。

3)计算向量Pm和Pn，公式如下：

$> Pm = (\begin{matrix} {Pm}_{1} \\ {Pm}_{2} \\ {Pm}_{3} \end{matrix}) = (\begin{matrix} {IndexG}_{1,1} + {IndexG}_{1,2} + {IndexG}_{1, 3} \\ {IndexG}_{2,1} + {IndexG}_{2,2} + {IndexG}_{2,3} \\ {IndexG}_{3,1} + {IndexG}_{3,2} + {IndexG}_{3,3} \end{matrix})$ >

$> Pn = (\begin{matrix} {Pn}_{1} \\ {Pn}_{2} \\ {Pn}_{3} \end{matrix}) = (\begin{matrix} {IndexG}_{1,1} + {IndexG}_{2, 1} + {IndexG}_{3, 1} \\ {IndexG}_{1, 2} + {IndexG}_{2,2} + {IndexG}_{3,2} \\ {IndexG}_{3, 1} + {IndexG}_{2, 3} + {IndexG}_{3,3} \end{matrix})$ >

4)计算

H1=∑-Pm/sumIndex×log₂(-Pm/sumIndex)

H2=∑-Pn/sumIndex×log₂(-Pn/sumIndex)

其中，sumIndex表示IndexG中元素之和；

5)计算Pmn=IndexG/sumIndex；

6)计算 $> PPP = Pmn / (\begin{matrix} {Pn}_{1}, {Pn}_{2}, {Pn}_{3} \\ {Pn}_{1}, {Pn}_{2}, {Pn}_{3} \\ {Pn}_{1}, {Pn}_{2}, {Pn}_{3} \end{matrix}) / (\begin{matrix} {Pm}_{1}, {Pm}_{1}, {Pm}_{1} \\ {Pm}_{2}, {Pm}_{2}, {Pm}_{2} \\ {Pm}_{3}, {Pm}_{3}, {Pm}_{3} \end{matrix}),$ >将PPP中绝对值小于10^-12的元素值置为1；

7)计算MI＝sum(Pmn×log₂PPP)，其中sum(Pmn×log₂PPP)表示对Pmn×log₂PPP求和；

8)计算MIhat＝MI/max(H1,H2)，其中，max(H1,H2)表示取H1,H2中的最大值；MIhat即为归一化互信息；

精度Purity：

找出Indexfinal中属于第一类视频的标签序号，在IndexTrue对应序号位置提取其元素，统计这些元素中个数最多的标签数目Index1；同理，对第二类视频、第三类视频进行同样的计算，得到Index2，Index3，计算精度Purity=(Index1+Index2+Index3)/N_a；

表1

聚类准确率归一化互信息精度底层视觉特征 0.4429 0.0921 0.4736 脑功能成像空间特征 0.5151 0.1141 0.5151 两者融合 0.5495 0.1167 0.5495

利用本文算法进行视频聚类，并利用三种方法计算聚类准确率，如表1所示，结果显示脑功能成像空间特征和底层视觉特征融合进行视频聚类能大大提高视频聚类的准确率，为视频聚类问题提供了新的解决思路。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 利用脑成像空间特征和底层视觉特征进行视频聚类的方法 [P] . 中国专利： CN102855352B . 2014.08.06
2. 利用脑成像空间特征和底层视觉特征进行视频聚类的方法 [P] . 中国专利： CN102855352A . 2013-01-02
3. METHOD AND SYSTEM FOR VIDEO SEARCH USING CONVERGENCE OF GLOBAL FEATURE AND REGION FEATURE OF IMAGE [P] . 韩国专利： KR20160099289A . 2016-08-22

机译：利用全局特征和图像区域特征的融合进行视频搜索的方法和系统
4. APPARATUS AND METHOD FOR ROBOT LOCALIZATION USING VISUAL FEATURE AND GEOMETRIC CONSTRAINTS [P] . 韩国专利： KR101460313B1 . 2014-11-14

机译：利用视觉特征和几何约束进行机器人定位的装置和方法
5. Methods and apparatuses for clustering electronic documents based on structural features and static content features [P] . 美国专利： US8832102B2 . 2014-09-09

机译：基于结构特征和静态内容特征对电子文档进行聚类的方法和装置