首页> 中国专利> 街景图像中的文字标牌检测与定位方法

街景图像中的文字标牌检测与定位方法

摘要

本发明公开了街景图像中的文字标牌检测与定位方法,其包括文字标牌分类器的训练过程和文字标牌的检测与定位过程。本发明在文字标牌的描述方面,结合空间金字塔匹配(SPM)模型,得到SIFT特征直方图向量,形成对图像的全局形状描述特征,使提取的局部特征保持了空间关系,对图像的形状描述更加精确;再结合文字标牌的颜色特征,将SIFT特征直方图向量和HS分量颜色直方图向量融合,更加准确的描述了文字标牌图像。此外,在字典学习方面,使用了SGONG聚类方法自适应地决定了街景图像目标的种类个数,使聚类结果更加精确和可靠。因此,本发明提供的方法在很大程度的提高了自然场景中文字标牌的检测率。

著录项

  • 公开/公告号CN104598885A

    专利类型发明专利

  • 公开/公告日2015-05-06

    原文格式PDF

  • 申请/专利权人 西安理工大学;

    申请/专利号CN201510035339.X

  • 发明设计人 赵凡;杨垚;孙力;李妮;

    申请日2015-01-23

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构61214 西安弘理专利事务所;

  • 代理人李娜

  • 地址 710048 陕西省西安市金花南路5号

  • 入库时间 2023-12-18 08:44:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-22

    授权

    授权

  • 2015-05-27

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20150123

    实质审查的生效

  • 2015-05-06

    公开

    公开

说明书

技术领域

本发明属于图像处理技术领域,涉及街景图像中的文字标牌检测与定位 方法。

背景技术

文字标牌检测与定位是自然场景中文字识别的一个重要部分,属于模式 识别领域。文字识别可以广泛应用在汽车的自动驾驶、机器人导航以及盲人 辅助定位等诸多方面,所以文字标牌检测为自然场景中进一步的文字识别提 供了很好的基础,具有一定的实用性。

由于文字标牌所包含的文字在大小、形状、字体、颜色和排列的多样性, 以及复杂背景、光照变换、几何失真和模糊的影响,使得准确的文字检测、 定位和识别就变得很困难。文字检测和定位的准确性会直接影响文字的识别 率,所以,很多算法都致力于文字标牌的检测和定位。目前对于文字标牌的 检测率并不理想,并且大多数研究只针对于交通标牌的检测与识别,对于其 它文字标牌检测与识别的研究很少。

在目前可见的研究文献中,大多采用分类器进行交通标牌的检测和识 别,最好的方法是采用词袋模型(BoW)。但传统的词袋模型的一个致命缺陷 是它将图像视为局部特征的无序集合,即对局部特征之间的空间关系完全不 予考虑,从而限制了特征的描述能力,降低了图像分类的准确性。BoW模 型的中的字典学习方法K-Means也存在以下缺陷:需要事先依据经验指定聚 类的类别数。若类别数过小,会对数据造成欠分割,降低字典的区分能力; 若类别数过大,会造成样本空间过分割,也会增加后续分类的复杂度。

发明内容

本发明的目的是提供一种街景图像中的文字标牌检测与定位方法,解决 了现有技术中存在的对文字标牌特征描述不全面、聚类方法不能自适应地决 定聚类中心个数造成的文字标牌检测率低的技术问题。

本发明所采用的技术方案为:街景图像中的文字标牌检测与定位方法, 包括文字标牌分类器的训练过程和文字标牌的检测与定位过程。

本发明的特点还在于,

文字标牌分类器的训练过程,包括以下步骤:

步骤1:采集一定数量的街景图像,作为字典学习的样本图像集

步骤2:将获取的街景图像输入计算机,提取街景图像的SIFT特征, 得到SIFT特征集

步骤3:用SGONG聚类方法对SIFT特征集进行学习,得到 聚类中心,即字典D=[D1,D2,......,DC],其中C为字典中的词汇的个数,即聚 类的类别个数;

步骤4:在街景图像样本图像集中随机选取部分文字标牌图 像作为正样本图像集选取部分除文字标牌以外的场景图像作为 负样本图像集合并正、负样本图集,得到SVM训练图像集 其图像的张数为M1=1α×M,N1=1α×N,α是比例因子;

步骤5:提取图像集中图像的颜色直方图向量 其组成的集合His_Col即为图像的颜色特征集Fea_Col,其中, i=1,2...,Nimgsvm;

步骤6:提取图像集中图像的SIFT直方图向量 其组成的集合His_Sha即为图像的形状特征集Fea_Sha,其中, i=1,2...,Nimgsvm;

步骤7:将颜色直方图向量与SIFT直方图向量合并 为的颜色和形状直方图向量其集合构成向量集 His_ShaCol,即为图像的形状和颜色描述特征集Fea_ShaCol,具体描述为下 式:His_ShaColij=His_Shaijs,j=jsHis_Coliic,j=jc+max(js)i=1,2......Nimgsvm;

步骤8:生成灰度文字标牌的分类器S_Classifer和彩色文字标牌的分类 器SC_Classifer,具体过程如下:

采用SVM分类器学习图像的形状特征集Fea_Sha,生成灰度文字标牌 的分类器S_Classifer—即灰度文字标牌的分类器,该分类器的线性分类函数 是f1(x)=w1Tx+b1,其中w1,b1为学习得到的参数;

采用SVM分类器学习图像的形状和有颜色描述特征集Fea_ShaCol,生 成彩色文字标牌的分类器SC_Classifer—即彩色文字标牌分类器,该分类器的 线性分类函数是f2(x)=w2Tx+b2,其中w2,b2为学习得到的参数。

文字标牌的检测和定位过程包括以下步骤:

步骤1:选取一定数目的街景图像作为测试图像集I_test,图像的张数 为

步骤2:滑动窗检测,具体过程如下:

用M2*N2大小的窗在每个测试图像上进行滑动检测,若滑动窗所在的图 像区域为灰度图像,则采用文字标牌分类器的训练过程中获取SIFT直方图 向量的方法获取图像区域的SIFT直方图向量,用S_Classifier判断是否为文 字标牌,若滑动窗所在的图像区域为彩色图像,则采用文字标牌分类器的训 练过程中获取颜色和形状直方图向量的方法得到该图像区域的颜色和形状 直方图向量,用SC_Classifier判断是否为文字标牌;

步骤3:文字标牌的定位,具体过程如下:

将所有检测到的文字标牌图像区域用矩形框标记出来,合并相交的矩形 框,合并后的矩形框区域即检测到的文字标牌区域。

文字标牌分类器的训练过程步骤3中用SGONG聚类方法对SIFT特征 集进行学习,得到聚类中心,即字典D=[D1,D2,......,DC]的方法如 下:

3.1,首先初始化SGONG字典学习过程的相关参数:

(1)神经元权重系数为Wi=[wi,0,wi,1,...wi,k-1]T,i=0,1,...,c-1,c为每一步输出 的神经元个数,开始训练前c的初始值为2,k为神经元维数,这里是SIFT 特征维数,为128;

(2)为每一个神经元i定义两个累计误差和其中表示神经 元i的全部量化误差,为移除神经元i产生的增量误差;

(3)Ni表示被划分到神经元i的输入向量个数,Nidle表示连续有多少个 特征矢量被划分到该神经元,该神经元就训练完毕,该变量也为时间周期变 量;max-Nodes代表输出的神经元最大个数,Maxage代表最大的横向连接数, max-epoch代表迭代次数;

3.2,开始训练:

在SIFT特征集中随机选取两个向量作为初始的神经元wn1和wn2,开始迭代训练SGONG神经网络,迭代算法的具体步骤为:

(1)将累积误差和值设置为0;

(2)从随机选取一个向量,作为输入向量Xj

(3)对于输入的矢量Xj,从神经元中选择最佳匹配和次匹配的神经元 Wwn1和Wwn2,规则如下:

||Xj-Wwn1||||Xj-Wi||,i[1,c]---(1)

||Xj-Wwn2||||Xj-Wi||,i[1,c],iwn2---(2);

(4)调整局部变量以及时间变量

Ewn1(1)(t+1)=Ewn1(1)(t)+||Xj-Wwn1||---(3);

Ewn1(2)(t+1)=Ewn1(2)(t)+||Xj-Wwn2||---(4);

Nwn1(t+1)=Nwn1(t)+1---(5);

(5)在时间周期Nidle内调整神经元wn1和邻域神经元的局部学习率和通过时间变量Nwn1让它们的值从最大到最小变化,相反中间变量γwn1的初始值为1,最后达到最大值γmax

如果Nwn1Nidle

ϵ1wn1=ϵ1max+ϵ1min-ϵ1min·(ϵ1maxϵ1min)Nwn1Nidle

rwn1=rmax+rmax·(1rmax)Nwn1Nidle

ϵ2wn1=ϵ1wn1·1rwn1---(6);

否则

ϵ1wn1=ϵ1wn1,ϵ2wn1=0

(6)调整神经元wn1和邻域神经元的权重:

Wwn1(t+1)=Wwn1(t)+ϵ1wn1·(Xj-Wwn1(t))---(7)

Wm(t+1)=Wm(t)+ϵ2m·(Xj-Wm(t)),mnei(wwn1)---(8);

其中,nei(i)表示神经元i的邻域函数。

(7)用一个c×c的矩阵si,j来描述神经元之间的横向连接,其中si,j=0表示 神经元i和j相连,si,j=-1表示神经元i和j不相连,si,j的调整规则为:

a.一旦检测到神经元wn1和wn2,初始化它们之间的连接:Swn2,wn1=0;

b.除了神经元wn2,对所有和神经元wn1相连的神经元m,调整横向连接:

Swn1,m=Swn1,m+1,mnei(wwn1),mwm2---(9);

c.当横向连接超过阈值Maxage时,解除连接:

如果Si,j>Maxage,则si,j=-1,i,j[1,2,...,C]---(10);

(8)当每一次迭代结束,检查所有的神经元状态:若所有的神经元处于 静止状态,即Ni≥Nidle时,并且当前神经网络中的神经元个数达到规定的最 大值max-Node时,训练过程结束,否则进入第(9)步;

(9)根据以下标准修改输出的神经元:

a.当迭代次数已经达到max-epoch,还没有任何训练样本属于某个类,该 类对应的神经元认为是不活跃的,从该网络中移除;

b.当神经网络中的神经元个数还未达到规定的最大值max-Node时,如果 一个神经元和它邻域的神经元之间的平均差异大于设定的阈值,在该神经元 附近增加一个新的神经元;

c.当神经网络中的神经元个数还未达到规定的最大值max-Node时,如果 一个神经元和它邻域的神经元之间的平均差异小于设定的阈值,该神经元认 为是过剩的,从网络中移除该神经元;

d.如果迭代次数小于max-epoch,迭代次数加1,返回迭代算法中的步骤 (2),如果迭代次数达到max-epoch,SGONG的字典训练过程结束,输出 最终的所有神经元。

文字标牌分类器的训练过程步骤5中得到图像的颜色特征集Fea_Col的 具体过程如下:

5.1,对图像集中的图像进行RGB到HSV的颜色空 间转换;

5.2,获取HS分量颜色直方图向量,具体过程如下:

把图像的H分量和S分量分别量化为16个和8个Bin,合并 为128个Bin,即128=16*8,得到图像HS分量的颜色直方图向量 其组成的集合His_Col即为颜色特征集Fea_Col。

文字标牌分类器的训练过程步骤6中得到图像的形状特征集Fea_Sha的 具体过程如下:

6.1,对正负样本图像集中的图像提取SIFT特征, 同时获得每一个SIFT特征点的坐标(x,y),并将提取的SIFT特征按照步骤3 中生成的字典D进行矢量量化(VQ,Vector Quantization);

6.2,对量化后的特征结合空间金字塔匹配模型生成SIFT直方图向量 得到SIFT直方图向量集His_Sha,即为图像的形状特征集 Fea_Sha,具体过程为:

6.2.1,首先在不同空间尺度l上将图像划分为2l*2l个图像块, 所有尺度上的图像块共有P个,l取0,1,2,则P=24+22+20=21,p代表图 像块的编号,p=1,2,...21;

6.2.2,然后根据SIFT特征点的坐标(x,y),判断特征点隶属的图像块, 方法为:

(1)l=0时,只有一个图像块,即p=1,该图像块就是整幅图像,所有 的特征点都属于编号为1的图像块;

(2)l=1时,图像被分成4个大小相同的图像块,图像块从左到右从上 到下依次编号为2,3,4,5,即p=2,3,4,5,此时,每一图像块的宽度为高度为特征点(x,y)隶属于图像块p的计算公式为:

(3)l=2时,图像被分成16个大小相同的图像区域,图像块从左到右 从上到下依次编号为6,7,…,21,即p=6,7,...,21,每一图像块的宽度为高度为特征点(x,y)隶属于图像块p的计算公式为:

6.2.3,根据特征点所隶属的图像块得到每个图像块的视觉词汇直方图向 量p=1,2,...21,jv=1,2,...C,最后将每个图像块的视觉词汇直方图 向量合并,得到图像的SIFT直方图向量其 中js=1,2......,P×C,其集合构成形状特征集Fea_Sha,形成对图像的最终全 局描述特征。

判断滑动窗检测图像区域性质的判断方法如下:

若f(R,G,B)<1,则图像区域为灰度图像;若f(R,G,B)≥1,则图像区域为 彩色图像,其中,

f(R,G,B)=(|R-G|+|G-B|+|B-R|)3D;

式中,R、G、B分别为该图像块的红色、绿色、蓝色分量平均值,参数 D是权重因子。

用S_Classifer判断滑动窗测试图像区域否为文字标牌的判断方法如下: 将滑动窗测试图像区域的SIFT直方图向量带入线性分类函数f1(x)=w1Tx+b1, 若函数值大于等于1,则该图像区域为文字标牌,若函数值小于等于0,则 该图像区域为街景中除文字标牌以外的场景。

用SC_Classifier判断滑动窗测试图像区域否为文字标牌的判断方法如 下:将滑动窗测试图像区域将颜色和形状直方图向量,带入线性分类函数 f2(x)=w2Tx+b2,若函数值大于等于1,则该图像区域为文字标牌,若函数值 小于等于0,则该图像区域为街景中除文字标牌以外的场景。

本发明的有益效果是,本发明的街景图像中的文字标牌检测与定位方 法,在文字标牌的描述方面,结合空间金字塔匹配(Spatial Pyramid Matching, SPM)模型,在不同空间尺度l上将图像划分为2l×2l个图像块,然后为每个 图像块计算一个视觉词汇直方图,最后再将各图像块的直方图串接,得到 SIFT特征直方图向量,形成对图像的全局形状描述特征,即将局部特征向 量整合为一个刻画图像完整内容的全局向量,使提取的局部特征保持了空间 关系,对图像的形状描述更加精确。再结合文字标牌的颜色特征:HS分量 颜色直方图向量,汇总成图像的最终全局“形”和“色”特征,也就是说本 发明融合了SIFT特征直方图向量和HS分量颜色直方图向量,在图像的最 终全局描述方面同时考虑图像的“形”和“色”特征,可以更加准确的描述 文字标牌图像。此外,在字典学习方面,使用了SGONG(Self-Growing and  Self-Organized Neural Gas)聚类方法自适应地决定了街景图像目标的种类个 数,使聚类结果更加精确和可靠。因此,本发明提供的方法在很大程度的提 高了自然场景中文字标牌的检测率。

附图说明

图1是本发明方法的处理流程图;

图2是本发明在不同空间尺度上对图像的划分示意图,(a)图为尺度l=0, (b)图为尺度l=1,(c)图为尺度l=2;

图3是本发明的空间金字塔匹配的示意图;

图4是本发明的形状和颜色直方图的生成示意图。

具体实施方式

下面结合附图和具体实施方式,对本发明的技术方案进行清楚、完整地 描述。

街景图像中的文字标牌检测与定位方法,如图1所示,由文字标牌分类 器训练过程(虚线以上)和文字标牌检测与定位过程(虚线以下)组成。

首先进行文字标牌分类器训练过程,其包括以下步骤:

步骤1:通过拍摄或网络下载,获取一定数量的街景图像,作为字典学 习的样本图像集M*N代表图像的分辨率,J代表图像的个数, 图像的个数取值为Nimg

字典学习图像集中的图像应全面包括各种街景场景,在本发明中该具 体实施方式中一共选取了1334张街景图像作为字典学习样本图像。

步骤2:将获取的街景图像输入计算机,采用D.G.Lowe 1999年提出 的SIFT特征提取与匹配算法对街景图像提取SIFT特征,得到SIFT特征集 其中特征点的维数k取值为128,Nfea为特征点个数,为4087600;

步骤3:用SGONG聚类方法对SIFT特征集进行学习,得到 聚类中心,即字典D=[D1,D2,......,DC],其中C为字典中的词汇的个数,即聚 类的类别个数,学习方法如下:

3.1,首先初始化SGONG字典学习过程的相关参数:

(1)神经元权重系数为Wi=[wi,0,wi,1,...wi,k-1]T,i=0,1,...,c-1,c为每一步输出 的神经元个数,开始训练前c的初始值为2,k为神经元维数,这里是SIFT 特征维数,为128;

(2)为每一个神经元i定义两个累计误差和其中表示神经 元i的全部量化误差,为移除神经元i产生的增量误差;

(3)Ni表示被划分到神经元i的输入向量个数,Nidle表示连续有多少个 特征矢量被划分到该神经元,该神经元就训练完毕,该变量也为时间周期变 量;max-Nodes代表输出的神经元最大个数,Maxage代表最大的横向连接数, max-epoch代表迭代次数;

在本发明该具体实施方式中max-Nodes取值200,max-epoch取值 8000000,Maxage取值1000,Nidle取值10000;

3.2,开始训练:

在SIFT特征集中随机选取两个向量作为初始的神经元wn1和wn2,开始迭代训练SGONG神经网络,迭代算法的具体步骤为:

(1)将累积误差和值设置为0;

(2)从随机选取一个向量,作为输入向量Xj

(3)对于输入的矢量Xj,从神经元中选择最佳匹配和次匹配的神经元 Wwn1和Wwn2,规则如下:

||Xj-Wwn1||||Xj-Wi||,i[1,c]---(1)

||Xj-Wwn2||||Xj-Wi||,i[1,c],iwn2---(2);

(4)调整局部变量以及时间变量

Ewn1(1)(t+1)=Ewn1(1)(t)+||Xj-Wwn1||---(3);

Ewn1(2)(t+1)=Ewn1(2)(t)+||Xj-Wwn2||---(4);

Nwn1(t+1)=Nwn1(t)+1---(5);

(5)在时间周期Nidle内调整神经元wn1和邻域神经元的局部学习率和通过时间变量Nwn1让它们的值从最大到最小变化,相反中间变量γwn1的初始值为1,最后达到最大值γmax

如果Nwn1Nidle

ϵ1wn1=ϵ1max+ϵ1min-ϵ1min·(ϵ1maxϵ1min)Nwn1Nidle

rwn1=rmax+rmax·(1rmax)Nwn1Nidle

ϵ2wn1=ϵ1wn1·1rwn1---(6);

否则

ϵ1wn1=ϵ1wn1,ϵ2wn1=0

(6)调整神经元wn1和邻域神经元的权重:

Wwn1(t+1)=Wwn1(t)+ϵ1wn1·(Xj-Wwn1(t))---(7)

Wm(t+1)=Wm(t)+ϵ2m·(Xj-Wm(t)),mnei(wwn1)---(8);

其中,nei(i)表示神经元i的邻域函数。

(7)用一个c×c的矩阵si,j来描述神经元之间的横向连接,其中si,j=0表示 神经元i和j相连,si,j=-1表示神经元i和j不相连,si,j的调整规则为:

①一旦检测到神经元wn1和wn2,初始化它们之间的连接:Swn2,wn1=0;

②除了神经元wn2,对所有和神经元wn1相连的神经元m,调整横向连接:

Swn1,m=Swn1,m+1,mnei(wwn1),mwm2---(9);

③当横向连接超过阈值Maxage时,解除连接:

如果Si,j>Maxage,则si,j=-1,i,j[1,2,...,C]---(10);

(8)当每一次迭代结束,检查所有的神经元状态:若所有的神经元处 于静止状态,即Ni≥Nidle时,并且当前神经网络中的神经元个数达到规定的 最大值max-Node时,训练过程结束,否则进入第(9)步;

(9)根据以下标准修改输出的神经元:

①当迭代次数已经达到max-epoch,还没有任何训练样本属于某个类,该类 对应的神经元认为是不活跃的,从该网络中移除;

②当神经网络中的神经元个数还未达到规定的最大值max-Node时,如果一 个神经元和它邻域的神经元之间的平均差异大于某个阈值,在该神经元附 近增加一个新的神经元,本发明中的阈值选为0.1;

③当神经网络中的神经元个数还未达到规定的最大值max-Node时,如果一 个神经元和它邻域的神经元之间的平均差异小于某个阈值,该神经元认为 是过剩的,从网络中移除该神经元,本发明中的阈值选取为0.05。

④如果迭代次数小于max-epoch,迭代次数加1,返回迭代算法中的步骤(2), 如果迭代次数达到max-epoch,SGONG的字典训练过程结束,输出最终 的所有神经元。

最终输出的所有神经元即SGONG训练好的字典词汇,生成的字典为 D=[D1,D2,......,DC],其中C为词汇个数,为43,DC为词汇,也就是聚类的 各个类中心。

步骤4:选取SVM训练图像集具体过程如下:

在街景图像样本图像集中随机选取部分文字标牌图像作为正 样本图像集选取部分除文字标牌以外的场景图像作为负样本图 像集其中,α是比例因子,取值为8,把 它们合并为正负样本图像集即 I_svmM1*N1=P_svmM1*N1+N_svmM1*N1,图像的张数为

正负样本的图像分辨率相同,并且尽量包含街景中的各类场景目标,即 正样本应充分包括街景中的各类文字标牌,负样本应包括街景中除文字标牌 以外的各类场景,这里正样本选取500张,负样本选取500张。

步骤5:提取图像集中图像的颜色直方图向量 His_Colijc(i=1,2......,Nimgsvm,jc=1,2......,128),得到图像的颜色特征集Fea_Col,具 体过程如下:

5.1,对图像集中的图像I_svmiM1*N1(i=1,2,...,Nimgsvm)进行RGB到 HSV的颜色空间转换;

5.2,获取HS分量颜色直方图向量,具体过程如下:

把图像的H分量和S分量分别量化为16个和8 个Bin,合并为128个Bin,即得到图像I_svmiM1*N1(i=1,2,...,Nimgsvm)HS分量的颜色直方图向量His_Colijc(i=1,2......,Nimgsvm,jc=1,2......,128),其组成的集合 His_Col即为颜色特征集Fea_Col。

步骤6:提取图像集中图像的SIFT直方图向量 His_Colijs(i=1,2......,Nimgsvm,js=1,2......,903),得到图像的形状特征集Fea_Sha,具 体过程如下:

6.1,对正负样本图像集中的图像I_svmiM1*N1(i=1,2,...,Nimgsvm)提取 SIFT特征,同时获得每一个SIFT特征点的坐标(x,y),并将提取的SIFT特征 按照步骤3中生成的字典D进行矢量量化(VQ,Vector Quantization);

6.2对量化后的特征结合空间金字塔匹配(SPM)模型生成SIFT直方 图向量His_Shaijs(i=1,2......,Nimgsvm,js=1,2......,903),其组成的集合His_Sha即为 图像的形状特征集Fea_Sha,具体过程为:

6.2.1,首先在不同空间尺度l上将图像划分为 2l*2l个图像块,所有尺度上的图像块共有P个,尺度l取值为0,1,2,则 P=24+22+20=21,p代表图像块的编号,p=1,2,...21;l=0时,图像块编号为 1;l=1时,图像块从左到右从上到下依次编号为2,3,4,5;l=2时,图像 块从左到右从上到下依次编号为6,7,…,21,如图2所示;

6.2.2,根据SIFT特征点的坐标(x,y),判断特征点隶属于哪个图像块, 方法为:

(1)当l=0时,只有一个图像块,即p=1,该图像块就是整幅图像,所 有的特征都属于编号为1的图像块;

(2)当l=1时,图像被分成4个图像块,各个图像块的大小相同,宽度 高度特征点(x,y)隶属于图像块p的计算公式:其中为下取整函数符号,xbin和ybin为 中间变量;

(3)当l=2时,图像被分成大小相同的16个图像块,各个图像块的宽 度高度特征点(x,y)隶属于图像块p的计算公式:,其中为下取整函数符号,xbin和ybin 为中间变量;

6.2.3,根据SIFT特征点所隶属的图像块得到每个图像块的视觉词汇直 方图向量最后将每个图像块的视觉词汇直 方图向量合并,得到图像I_svmiM1*N1(i=1,2,...,Nimgsvm)的SIFT直方图向 量其中js=1,2......,P×43,其集合构成形状特征集 Fea_Sha,形成对图像的最终全局描述特征;

针对BoW模型没有充分考虑局部特征的空间信息而导致的描述能力下 降问题,本发明使用SPM模型可增强特征的描述能力。SPM模型的具体实 现过程,如图3所示。

步骤7:获取图像的形状和颜色描述特征集Fea_ShaCol:

将颜色直方图向量His_Colijc(i=1,2......,Nimgsvm,jc=1,2......,128)与SIFT直方 图向量His_Shaijs(i=1,2......,Nimgsvm,js=1,2......,903)合并,汇总得到颜色和形状直 方图向量His_ShaColij(i=1,2......,Nimgsvm,j=1,2......,1031),其集合构成向量集 His_ShaCol,即为图像的形状和颜色描述特征集Fea_ShaCol,具体可描述为 下式:

His_ShaColij=His_Shaijs,js=1,2,...,903,j=jsHis_Coliic,jc=1,2,...,128,j=jc+903,i=1,2,...,Nimgsvm---(11);

获取图像的形状和颜色描述特征集Fea_ShaCol的具体过程如图3所示。

步骤8:生成灰度文字标牌的分类器S_Classifer和彩色文字标牌的分类 器SC_Classifer,具体过程如下:

采用SVM分类器学习图像的形状特征集Fea_Sha,生成灰度文字标牌 的分类器S_Classifer—即灰度文字标牌的分类器,该分类器的线性分类函数 是f1(x)=w1Tx+b1,其中w1,b1为学习得到的参数;

采用SVM分类器学习图像的形状和有颜色描述特征集Fea_ShaCol,生 成彩色文字标牌的分类器SC_Classifer—即彩色文字标牌分类器,该分类器的 线性分类函数是f2(x)=w2Tx+b2,其中w2,b2为学习得到的参数。

文字标牌分类器生成后,便可以进行文字标牌检测和定位,其包括以下 步骤:

步骤9:文字标牌检测和定位

9.1,测试图像选取:选取一定数目的街景图像作为测试图像集I_test, 图像的张数为这里选取1500张;

9.2,文字标牌的检测,具体过程为:

采用滑动窗检测:用M2*N2大小的窗在每个测试图像上进行滑动检测, 滑动窗过大会造成选定的目标范围超过文字标牌区域,过小会因为文字特征 不明显而降低检测率,所以滑动窗的选取不可过大或者过小,故M2设置为 60~100,N2设置为50~70,本发明的该具体实施方式中设置M2为90,N2为 60;

若滑动窗所在的图像区域为灰度图像,则采用步骤6中的方法得到该图 像区域的SIFT直方图向量,用S_Classifier判断是否为文字标牌,判断方法 为:将SIFT直方图向量作为x的值,带入线性分类函数f1(x)=w1Tx+b1,若函 数值大于等于1,则该图像区域为文字标牌,若函数值小于等于0,则该图 像区域为街景中除文字标牌以外的场景;若滑动窗所在的图像区域为彩色图 像,则采用步骤5~7中的方法得到该图像区域的颜色和形状直方图向量,用 SC_Classifier判断是否为文字标牌,判断方法为:将颜色和形状直方图向量 作为x的值带入线性分类函数f2(x)=w2Tx+b2,若函数值大于等于1,则该图 像区域为文字标牌,若函数值小于等于0,则该图像区域为街景中除文字标 牌以外的场景;其中,滑动窗测试图像区域性质的判断方法如下:

若f(R,G,B)<1,则图像区域为灰度图像;若f(R,G,B)≥1,则图像区域为 彩色图像,其中,

f(R,G,B)=(|R-G|+|G-B|+|B-R|)3D---(12);

式中,R、G、B分别为该图像块的红色(red)、绿色(green)、蓝色(blue) 分量平均值,参数D是权重因子,本发明中取值为20;

9.3,文字标牌的定位,具体过程如下:

将所有检测到的文字标牌图像区域用矩形框标记出来,合并相交的矩形 框,合并后的矩形框区域即检测到的文字标牌区域。

在实验中,分别对稀疏字典、K均值聚类以及SGONG三种字典学习方 法进行了对比,结果如图表1所示:

表1.稀疏字典、K均值聚类以及SGONG三种字典学习方法比较

聚类方法 类数 正样本检测率 负样本检测率 SGONG 43类 80.9% 91.93% K均值 43类 78.3% 90.73% 稀疏字典 43类 68.4% 85.07%

从表1中可以看出,在相同条件下,相对K均值聚类方法和稀疏字典的 学习方法,用SGONG聚类方法所生成的字典用于文字标牌的检测可以获得 最高的检测率,实验数据说明SGONG方法得到的聚类结果更加精确、可靠。

采用相同的聚类方法(SGONG)和不同的特征在实验中再分别进行测 试,测试结果见表2。其中第一个实验方案使用的特征是由SIFT特征基于 词袋模型计算得到的视觉词汇直方图向量;第二个实验方案使用的特征是本 发明步骤6所得的SIFT直方图向量,是结合SPM的视觉词汇直方图向量; 第三个方案使用的特征是本发明步骤5~7所得的形状和颜色直方图向量,是 SIFT直方图向量和颜色直方图的汇总向量。从实验结果可以看出SIFT直方 图向量特征相对视觉词汇直方图向量特征的检测率要高,因为它考虑了SIFT 特征的空间信息。因为本发明提出的“形”和“色”特征同时考虑了文字标 牌的形状特征(SIFT直方图)、颜色特征(颜色直方图)和SIFT特征的空 间分布信息,对正负样本的检测率都是最高的,因此本发明可以在很大程度 上的提高文字标牌的检测准确率。

表2.三种实验方案的测试率对比

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号