法律状态公告日
法律状态信息
法律状态
2015-06-10
未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20090916 终止日期:20140417 申请日:20080417
专利权的终止
2009-09-16
授权
授权
2008-11-26
实质审查的生效
实质审查的生效
2008-10-01
公开
公开
技术领域
本发明涉及的是一种图像处理和模式识别技术领域的方法,特别是一种基于内容的互联网动画媒体垃圾信息过滤方法。
背景技术
随着互联网的迅速发展,宽带的迅速普及,存储成本的降低,多媒体内容在网上也越来越多。包含各种类型数据如文本、图像、音频、视频等的多媒体信息,飞速膨胀逐渐成为信息的主流,并对人们的生活和社会的发展产生了重要的影响。同时,视频压缩技术的发展让视频在体积越来越小的同时质量反而越来越高,因此,大部分网站都开始将动画融入网页之中。同时,由于数码摄像机等设备的普及,供个人传播和交换视频的网站也如雨后春笋般涌现。
这些视频信息的特点是,一方面它的信息量很大,难以用少量标注精确描述,不同的观察者或同一观察者在不同条件下对同一幅图像可能给出不同的描述。这使得在很多情况下文本标注并不能满足实际需求。另一方面它的结构化程度较低,不利于进行有效的管理。如何有效地利用多媒体信息中的相关内容已成为一个急需解决的问题。值得一提的是,在人们享受科技发达带来的便利的同时,也出现了许多用动画短片传播的广告等垃圾信息,给用户带来诸多不便。现有的多种浏览器,如Internet Explorer,Firefox等都提供了广告过滤或类似功能的模块,但是这些软件大多是通过分析其文件名的关键字来实现的,当文件名缺乏意义时将无法正确实现分类和过滤功能。
经过对现有技术文献的检索发现,Y.Alp Aslandogan等在《IEEETransactions on Knowledge and Data Engineering》vol.11,no.1,Jan.1999,(《IEEE学报知识与数据工程》1999年一月,第11卷,no.1)上发表的“图像与视频检索技术与系统”(“Techniques and Systems for Image and VideoRetrieval”),该文中提出了对于图像和视频的理解和检索的方法。对于图像:首先提取以描述图像内容为主的图像颜色、纹理和形状特征,以及非图像内容的其他相关信息(如文件名、注解等),然后通过对于图像库中的图像特征进行匹配和比对,获得对于图像的理解和检索。对于视频:首先对于视频镜头分割,然后进行目标检测和追踪,最后完成对于视频内容的理解和检索。然而,针对互联网上的动画媒体,上述方法有以下的不足:第一,动画媒体与传统的图像和视频在持续时间、镜头变化、色彩分布都存在较大的差异,其特征提取方法并不适合对于互联网动画媒体的分析和理解;第二,对于互联网动画媒体垃圾信息过滤这一新的应用来说,该方法中提出的视频特征并不具有较高的广告/非广告分类鉴别力。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于内容的互联网动画媒体垃圾信息过滤方法,根据动画媒体的特点以及垃圾信息分类过滤的特殊性,依据动画的内容对其进行理解和过滤。
本发明通过以下技术方案实现的,包括如下步骤:
步骤一,从互联网上随机采集若干个类别标引为广告和非广告的动画作为训练样本集,并提取训练样本集中所有动画的颜色特征、纹理特征、文字信息特征、动画长度特征、动画几何尺寸特征、动画的动态特征,具体如下:
根据动画中各图像帧的颜色直方图和RGB三个通道颜色均值提取动画的颜色特征;
对动画中各图像帧的灰度图进行伽博变换,提取动画的纹理特征;
对动画中各图像帧进行离散余弦变换,计算图像的边缘图,进而检测图像帧中文本块,提取动画的文字信息特征;
计算动画持续时间跨度,提取动画长度特征;
计算动画中图像帧的长度与宽度,提取动画几何尺寸特征;
计算动画各帧间的颜色差异的均值,提取动画的动态特征。
步骤二,将步骤一得到的训练样本集中的所有动画的六个特征以及相应动画的类别标引输入到支持向量机(SVM)中,支持向量机对所有样本进行训练得到权值、偏置等参数,并获得描述广告和非广告动画媒体差异的SVM模型。
步骤三,对于一个待测试动画,按照步骤一中提取动画特征的方法提取待测试动画的六个特征,并将这六个特征输入步骤二训练所得的SVM模型中,SVM模型判断出动画是属于广告类动画还是属于非广告类动画,对于广告类的动画由媒体进行过滤。
所述提取颜色特征,具体为:
①提取每个图像帧的颜色直方图,并计算所有图像帧的平均的颜色直方图特征;
②计算每个图像帧的三个颜色通道的颜色平均值,并计算所有图像帧的颜色平均值。
所述提取纹理特征,具体为:是指对于,使用Gabor小波变换来提取纹理特征,
首先,将每一个彩色图像帧转换为灰度图:Y=0.299R+0.587G+0.114B,其中:Y表示灰度值,R,G,B分别表示三个通道的值;
然后,对灰度图进行Gabor(伽柏)滤波,Gabor滤波器在{0°,45°,90°,135°}四个方向的输出的均值和方差作为该图像帧的纹理特征;
最后,对于所有图像帧的纹理特征进行求平均得到整个动画的纹理特征。
所述提取文字信息特征,具体为:
①对动画中每一个图像帧颜色图像进行灰度化处理,获得灰度图;
②对灰度图进行离散余弦变换获得灰度边缘的分布图;
③根据灰度边缘分布图,向水平和垂直方向分别作投影;
④根据水平方向边缘块的分布,设定宽度经验门限值进行扫描,宽度大于经验门限值的行作为文本行;
⑤根据文本行垂直方向边缘块的分布,设定高度经验门限值进行扫描,高度大于经验门限值的块确定为文本块;
⑥对文本块进行筛选,删除已定位的伪文本块;
⑦对于包含文本块的图像,其文本特征标为1,否则标为0。
所述提取动画的动态特征,具体为:
①计算所有相邻图像帧之间的颜色差别的绝对值之和;
②对于动画中所有帧间颜色差别进行求平均,得到描述动画动态信息的动态特征。
所述支持向量机,其核函数为RBF(径向基)函数,RBF函数的方差为0.0001。
与现有技术相比,本发明具有如下有益效果:本发明依据互联网上动画媒体信息在持续时间、镜头变化、色彩分布等方面与传统的视频和图像的不同之处,结合广告动画与非广告动画的主要差异,采用了一种新的针对垃圾信息过滤的动画媒体特征表达方法,在性能上优于传统的针对图像和视频分类的特征表达方法。经过大量实验测试,本发明能够准确、高效的过滤垃圾动画信息,平均正确率高于90%。
附图说明
图1是本发明方法的工作流程图。
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例包括如下步骤:
步骤一,从互联网上随机采集1200个动画作为训练样本集(其中:420个动画类别标引为广告和780个动画类别标引为非广告),并提取训练样本集中所有动画的颜色特征、纹理特征、文字信息特征、动画长度特征、动画几何尺寸特征、动画的动态特征,具体如下:
①提取动画颜色特征,包括如下步骤:
首先,提取每个图像帧的颜色直方图,并计算所有图像帧的平均的颜色直方图特征,具体为:
其中:HIST表示平均后的颜色直方图,HISTi表示第i个图像帧的颜色直方图,N表示总共的帧数。
然后,计算三个颜色通道的颜色平均值,作为另外一项颜色特征,并计算所有图像帧的一阶颜色矩,具体为:
其中:μi表示第i个图像帧的颜色一阶矩,μ表示整个动画的平均颜色一阶矩。由于每一帧图像的几何尺寸相等,因此上式可转换为:
其中,W表示图像的宽度,H表示图像的高度,Ii(w,h)表示第i帧坐标为(w,h)的像素的颜色值。
②提取动画纹理特征:对于动画中每一个图像帧,使用Gabor小波变换来提取纹理特征,具体为:
首先,将彩色图像转换为灰度图,方法如下:
Y=0.299R+0.587G+0.114B
其中:Y表示灰度值,R,G,B分别表示三个通道的值;
然后,对灰度图进行Gabor滤波,Gabor滤波器在{0°,45°,90°,135°}四个方向的输出的均值和方差作为该图像帧的纹理特征;
所述Gabor滤波器,其公式如下:
gm(x,y)=a-mg(x′,y′)
x′=a-m(xcosθ+ysinθ)
y′=a-m(-xsinθ+ycosθ)
其中:θ为Gabor特征的方向因子,取θ={0°,45°,90°,135°}四个方向进行滤波;Uh和Ul为关注频率的上下限,这里取Uh=0.4,Ul=0.05,频域方差
最后,对于所有图像帧的纹理特征进行求平均得到整个动画的纹理特征。
③提取文字信息特征,包括如下步骤:
第一步,对动画中包含的每一个图像帧进行灰度化处理,转换为灰度图:Y=0.299R+0.587G+0.114B
其中:R、G和B分别表示三个颜色通道的取值,Y为输入灰度图;
第二步,边缘检测:将灰度图像切割成8*8的块进行离散余弦(DCT)变换,取部分DCT交流系数计算图像子块的纹理值,然后把这些纹理数据在保持图像子块排列次序不变条件下组合生成一个频域图像,频域图像在一定程度上表征原图像的边缘信息。为获得优质频域图像,需将灰度图像插值放大,经验表明:放大被数为5-7倍时效果较好,本实施例中采用6倍插值放大。
所述DCT变换,其公式为:
其中:(s,t)表示变换后的坐标,G(m,n)为8*8块中坐标为(m,n)像素点的灰度值;Cs和Ct为归一化参数,满足
对于坐标为(i,j)的图像子块,AC0,0(i,j)为图像子块的低频部分,称为直流系数,其余系数称为交流系数。
第三步,根据上述DCT系数,计算各图像子块纹理值TAC(i,j),进而采用基于区域的块纹理滤波器对纹理图像进行滤波,得到边缘图。
所述子块纹理值TAC(i,j)计算方法,其公式为:
其中:AC为第二步中所述DCT变换后的频谱参数。
所述基于区域的块纹理滤波器滤波方法,其公式为:
其中:M、N分别代表水平与垂直方向上子图像块的数目,MTTh是最低纹理值要求。本实施例中取MTTh=230和α=1.5。输出E(i,j)代表放大后的边缘图,将输出E调整到原始大小后,滤除其孤立像素点,得到原始边缘图。
第四步,采用基于投影方法进行文本块定位:首先根据水平方向边缘块的分布,选择一个经验门限值(本实施例中取图片宽度的1/3)进行扫描,把符合一定高度要求的行作为文本行;其次根据文本行垂直方向边缘块的分布,同样选择一个经验门限值(本实施例中取图片高度的1/10)进行扫描,确定文本块的位置。最后,根据填满率、纵横比率和字符大小对文本块进行筛选,删除已定位的伪字符块。
大量实验表明,相比文字区域检测(即检测图像中是否包含文字区域),文字区域定位、识别的准确率要低很多。因此,本实施例所使用的文字特征仅仅检测文字区域是否存在,只需要一个布尔型变量即可表示,1代表图像中有文字区域,0代表图像中没有文字区域。
④提取动画持续时间特征:动画的持续时间=动画的总帧数/每秒播放的帧数。
针对广告动画和非广告动画在持续时间上的差异,本实施例也将动画持续时间的信息作为分类和识别的依据之一。
⑤提取动画的几何尺寸特征:几何尺寸特征包括:1)以像素为单位的图像帧宽度和高度;2)图像帧的长宽比(图像的长度/图像的宽度)。
⑥提取动画动态特征
鉴于广告动画与非广告动画在镜头切换上的差异,引入动画的平均帧间颜色差异来描述动画的动态特征,帧间差异的平均值为
其中:N为一个动画的帧数,Fi、Fi-1分别表示第i帧、第i-1帧的图像中所有像素点的RGB色彩值所构成的矢量。
步骤二,将步骤一得到的训练样本集中的所有动画的六个特征以及相应动画的类别标引输入到支持向量机(SVM)中,支持向量机对所有样本进行训练得到权值、偏置等参数,并获得描述广告/非广告动画媒体差异的SVM模型。
所述支持向量机,其中的SVM的核函数为RBF函数,RBF函数的方差为0.0001。
步骤三,对于一个待测试动画,按照步骤一中提取动画特征的方法提取待测试动画的六个特征,并将这六个特征输入步骤二训练所得的SVM模型中,由SVM模型获得测试集过滤结果,即判断出动画是属于广告类动画还是属于非广告类动画,对于广告类的动画由媒体进行过滤。
本实施例方法通过对1000余个来自互联网上的动画进行测试,本实施例对动画短片具有较高的正确识别率,平均错误率低于10%。
机译: 基于Internet的数字内容服务,可提供内容上载,内容存储,内容共享,内容播放列表选择,内容编辑或内容下载;以及可访问基于互联网的数字内容服务的智能手机,信息板,智能电视和打印机
机译: 基于社交媒体内容提供者提供的内容生成三维地理信息,基于方向的地理信息和基于环境的地理信息的系统和方法
机译: 基于社交媒体内容提供者提供的内容生成三维地理信息,基于方向的地理信息和基于环境的地理信息的系统和方法