法律状态公告日
法律状态信息
法律状态
2018-02-02
授权
授权
2015-05-27
实质审查的生效 IPC(主分类):G06K9/00 申请日:20150129
实质审查的生效
2015-04-29
公开
公开
技术领域
本发明涉及一种从视频序列中的主题目标发现方法,属于图像处理技术领域。
背景技术
近年来,随着网络和电视的流行,人们面对着越来越多的视频片段。视频当中包含着丰富的内容,人们是很难去直观地总结的。自动地去发现和视频主题相符的目标,从而帮助人们快速地了解视频的主要内容,变得越来越重要。在保留原始视频主要内容的前提下,如何去有效地抽取视频当中的目标,是当前研究的主要困难。
之前的一项工作是大量的图片当中发现目标,将每一张图片在不同的设置之下进行分割,并且假设这些分割当中就包含了我们想要的目标。然后再用隐狄利克雷分配的方法得到一些主题。最后用和这些主题最相似的分割当作主题目标。视频片段也是由一张张图片组成的,因此这种方式可以拓展到视频片段的主题目标发现当中。和隐狄利克雷分配的方法一样,非负矩阵分解也可以用来解决类似的问题。但是这些方法都是基于图像分割,分割常常会把一些本来完整的目标分离到多个分割当中,这样得到的分割往往都不是完整的物体,除此之外,很多分割其实包含了大量的背景,这是不需要的。
发明内容
本发明的目的是提出一种视频序列中的主题目标发现方法,以克服现有方法的缺点;用方框先将图像中可能是目标的区域自动框出,然后用主题模型去挖掘中视频中的主题目标。
本发明提出的从视频序列中发现主题目标的方法,包括以下步骤:
(1)训练一个用于对待处理视频图像中包含主题目标的候选区域进行选取的分类器w、增益系数vi和偏置系数ti,具体过程如下:
(1-1)将一个包含已知目标的图像集作为训练样本,通过插值方法,将训练样本中的图像调整成长、宽分别为W和H的图像,其中W,H∈{10,20,40,80,160,320},计算调整后的图像的梯度范数;
(1-2)设T为图像中所有包含已知目标的图像窗口,S为图像中的任意图像窗口,则窗口t∈T和窗口s∈S的叠加面积o(t,s)为:
采用8×8图像窗口对步骤(1-1)中调整大小后的训练样本进行滑动采样,得到多个8×8滑动窗口,计算与8×8滑动窗口相对应的o(t,s),并计算该8×8滑动窗口相对应的64维梯度范数,记为gtrain,将与o(t,s)≥0.5的8×8滑动窗口相对应的64维梯度范数作为正样本,与o(t,s)<0.5的8×8滑动窗口相对应的64维梯度范数作为负样本,利用线性支持向量机,计算得到分类器w;
(1-3)利用下述公式,计算训练样本的排序得分scoretrain:
scoretrain=<w,gtrain>
l=(i,x,y)
其中,<·,·>表示内积,gtrain、i和(x,y)分别为64维梯度范数、与8×8滑动窗口相对应的调整大小之前的图像窗口的大小以及位置;
(1-4)利用非极大抑制方法,从每个大小为i的图像窗口中选择多个窗口作为训练样本,将上述scoretrain作为图像窗口的一维特征,利用线性支持向量机,计算得到增益系数vi及偏置系数ti;
(2)每一秒从待处理视频中随机抽取两帧图像,得到一个视频图像序列;
(3)从上述得到的图像序列中选取候选主题目标,具体过程如下:
(3-1)通过插值方法,将步骤(2)得到的视频图像序列中的每幅视频图像调整成长、宽分别为W和H的视频图像,其中W,H∈{10,20,40,80,160,320},计算每幅视频图像的梯度范数;
(3-2)采用8×8大小的窗口对调整大小后的视频图像进行滑动采样,得到多个8×8大小的滑动窗口,并分别计算多个8×8滑动窗口的64维梯度范数gl,l=(i,x,y),其中i为与8×8滑动窗口相对应的调整大小之前的视频图像的大小,(x,y)为8×8滑动窗口在调整大小之前的视频图像中的位置;
(3-3)通过下述公式,分别计算每个8×8大小的滑动窗口的得分:
scorel=<w,gl>
其中,w为上述步骤(1)得到的分类器;
(3-4)通过下式,分别计算与8×8大小的滑动窗口相对应的调整大小之前的视频图像的目标性得分ol:
ol=vi·scorel+ti
其中vi、ti分别为上述步骤(1)得到的增益系数和偏置系数;
(3-5)按照视频图像窗口的目标性得分从高到低进行排序,目标性得分越高,则包含主题目标的可能性越大;从排序后的视频图像窗口中选取前n个视频图像窗口,作为候选主题目标区域,n的取值与要求发现主题目标的精度有关,一般可以取10-1000;
(4)对候选主题目标进行特征表示,具体过程如下:
(4-1)对上述步骤(2)的图像序列中的各视频图像进行特征点提取,得到特征点集合{dp},采用K均值算法,对特征点集合{dp}进行聚类,得到V个聚类中心,记为{cq},V为设定参数,取值为100~2000;
(4-2)用向量f=RV表示上述特征点集合{dp}中的每一个特征点dp,其中fq表示从V个聚类中心中的第q个聚类中心cq产生特征点dp的概率,σ2为方差,σ的取值为104~105;
(4-3)用F表示候选主题目标,用上述向量f=RV表示候选主题目标中的特征点,特征点的集合为F={f1,f2,...,fN},其中N为候选主题目标区域中的特征点个数;
(5)用隐狄利克雷分配模型,从步骤(3)的候选主题目标中寻找主题目标,具体过程如下:
(5-1)设为属于候选主题目标中第m个候选主题目标且属于隐狄利克雷分配模型中的第k个主题的特征点数目,nm为属于第m个候选主题目标的特征点数目,为属于第k个主题并且由第v个聚类中心产生的特征点数目,nk为属于第k个主题的特征点数目,初始化时,使nm、nk分别为0;
(5-2)根据多项分布Mult(1/V)得到与第m个候选主题目标中的第n个特征点相对应 的聚类中心的序号wm,n=v,以及根据多项分布Mult(1/K)得到隐狄利克雷分配模型中主题序号zm,n=k,并分别使nm+=1,nk+=1;
(5-3)根据第m个候选目标中的第n个特征点对应的聚类中心序号和主题序号,nm-=1,nk-=1。然后,根据分布p(wi=v)得到与第m个候选主题目标中的第n个特征点相对应的新的聚类中心的序号以及根据分布p(zi=k)得到新的隐狄利克雷分配模型中主题序号其中,
其中α,β为正实数,并分别使nm+=1,
(5-4)按照(5-3)中的步骤进行迭代,直到迭代次数达到1000。此时,就可以按照下式算出每个主题的分布:
其中,为K×V的矩阵。
(5-5)用的每一列分别去与每一个候选目标计算KL距离,公式如下:
与该列有最小KL距离的候选目标,作为视频序列的一个主题目标。
本发明提出的从视频序列中的主题目标发现方法,其优点是:
本发明用窗口的方法得到候选目标,在很大程度上避免了由分割带来的经常将目标分离的情况;由于窗口当中往往都包含目标,因此图片当中的背景在后面的模型训练的时候已经很大程度上剔除了,这样就使隐狄利克雷分布得到的主题更加准确;软编码的方法使特征点在模型迭代过程中能够找到更加准确的聚类中心。
具体实施方式
本发明提出的从视频序列中发现主题目标的方法,包括以下步骤:
(1)训练一个用于对待处理视频图像中包含主题目标的候选区域进行选取的分类器w、增益系数vi和偏置系数ti,具体过程如下:
(1-1)将一个包含已知目标的图像集作为训练样本,通过插值方法,将训练样本中的图像调整成长、宽分别为W和H的图像,其中W,H∈{10,20,40,80,160,320},计算调整后的图像的梯度范数;
(1-2)设T为图像中所有包含已知目标的图像窗口,S为图像中的任意图像窗口,则窗口t∈T和窗口s∈S的叠加面积o(t,s)为:
采用8×8图像窗口对步骤(1-1)中调整大小后的训练样本进行滑动采样,得到多个8×8滑动窗口,计算与8×8滑动窗口相对应的o(t,s),并计算该8×8滑动窗口相对应的64维梯度范数,记为gtrain,将与o(t,s)≥0.5的8×8滑动窗口相对应的64维梯度范数作为正样本,与o(t,s)<0.5的8×8滑动窗口相对应的64维梯度范数作为负样本,利用线性支持向量机,计算得到分类器w;
(1-3)利用下述公式,计算训练样本的排序得分scoretrain:
scoretrain=<w,gtrain>
l=(i,x,y)
其中,<·,·>表示内积,gtrain、i和(x,y)分别为64维梯度范数、与8×8滑动窗口相对应的调整大小之前的图像窗口的大小以及位置;
(1-4)利用非极大抑制方法,从每个大小为i的图像窗口中选择多个窗口作为训练样本,将上述scoretrain作为图像窗口的一维特征,利用线性支持向量机,计算得到增益系数vi及偏置系数ti;
(2)每一秒从待处理视频中随机抽取两帧图像,得到一个视频图像序列;
(3)从上述得到的图像序列中选取候选主题目标,具体过程如下:
(3-1)通过插值方法,将步骤(2)得到的视频图像序列中的每幅视频图像调整成长、宽分别为W和H的视频图像,其中W,H∈{10,20,40,80,160,320},计算每幅视频图像的梯度范数;
(3-2)采用8×8大小的窗口对调整大小后的视频图像进行滑动采样,得到多个8×8大小的滑动窗口,并分别计算多个8×8滑动窗口的64维梯度范数gl,l=(i,x,y),其中i为与8×8滑动窗口相对应的调整大小之前的视频图像的大小,(x,y)为8×8滑动窗口在调整大小之前的视频图像中的位置;
(3-3)通过下述公式,分别计算每个8×8大小的滑动窗口的得分:
scorel=<w,gl>
其中,w为上述步骤(1)得到的分类器;
(3-4)通过下式,分别计算与8×8大小的滑动窗口相对应的调整大小之前的视频图像的目标性得分ol:
ol=vi·scorel+ti
其中vi、ti分别为上述步骤(1)得到的增益系数和偏置系数;
(3-5)按照视频图像窗口的目标性得分从高到低进行排序,目标性得分越高,则包含主题目标的可能性越大;从排序后的视频图像窗口中选取前n个视频图像窗口,作为候选主题目标区域,n的取值与要求发现主题目标的精度有关,一般可以取10-1000;
(4)对候选主题目标进行特征表示,具体过程如下:
(4-1)对上述步骤(2)的图像序列中的各视频图像进行特征点提取,得到特征点集合{dp},采用K均值算法,对特征点集合{dp}进行聚类,得到V个聚类中心,记为{cq},V为设定参数,取值为100~2000;
(4-2)用向量f=RV表示上述特征点集合{dp}中的每一个特征点dp,其中fq表示从V个聚类中心中的第q个聚类中心cq产生特征点dp的概率,σ2为方差,σ的取值为104~105;
(4-3)用F表示候选主题目标,用上述向量f=RV表示候选主题目标中的特征点,特征点的集合为F={f1,f2,...,fN},其中N为候选主题目标区域中的特征点个数;
(5)用隐狄利克雷分配模型,从步骤(3)的候选主题目标中寻找主题目标,具体过程如下:
(5-1)设为属于候选主题目标中第m个候选主题目标且属于隐狄利克雷分配模型 中的第k个主题的特征点数目,nm为属于第m个候选主题目标的特征点数目,为属于第k个主题并且由第v个聚类中心产生的特征点数目,nk为属于第k个主题的特征点数目,初始化时,使nm、nk分别为0;
(5-2)根据多项分布Mult(1/V)得到与第m个候选主题目标中的第n个特征点相对应的聚类中心的序号wm,n=v,以及根据多项分布Mult(1/K)得到隐狄利克雷分配模型中主题序号zm,n=k,并分别使nm+=1,nk+=1;
(5-3)根据第m个候选目标中的第n个特征点对应的聚类中心序号和主题序号,nm-=1,nk-=1。然后,根据分布p(wi=v)得到与第m个候选主题目标中的第n个特征点相对应的新的聚类中心的序号以及根据分布p(zi=k)得到新的隐狄利克雷分配模型中主题序号其中,
其中α,β为正实数,并分别使nm+=1,
(5-4)按照(5-3)中的步骤进行迭代,直到迭代次数达到1000。此时,就可以按照下式算出每个主题的分布:
其中,为K×V的矩阵。
(5-5)用的每一列分别去与每一个候选目标计算KL距离,公式如下:
与该列有最小KL距离的候选目标,作为视频序列的一个主题目标。
机译: 自动发现文档中与给定目标主题相关的术语的系统和方法
机译: 在视频编码器中对视频序列进行选择性压缩的方法,包括将遮罩应用于视频序列的目标区域,以生成融合视频序列,将其压缩以形成压缩序列
机译: 通过目标跟踪和用户协助对视频序列中的目标进行分割的方法