首页> 中文学位 >场景图像文本定位与字符识别方法研究
【6h】

场景图像文本定位与字符识别方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 主要内容与结构安排

2 基于CNN和SVM输出得分的场景文本定位

2.1 背景和相关工作

2.2 场景文本定位方法

2.3 实验设计与结果分析

2.4 本章小结

3 基于颜色聚类和梯度向量流的字符切割

3.1 背景和相关工作

3.2 字符切割步骤

3.3 实验设计与结果分析

3.4 本章小结

4 基于局部纹理和笔画结构关系的旋转字符识别

4.1 背景和相关工作

4.2 旋转字符识别模型

4.3 实验设计与结果分析

4.4 本章小结

5 总结与展望

5.1 全文总结

5.2 未来工作展望

致谢

参考文献

附录1 攻读学位期间发表论文目录

附录2 攻读学位期间参与的项目

展开▼

摘要

场景图像中的文本包含着丰富而又准确的信息,在工业自动化、交通管理、自动翻译、残障人士服务等领域中存在广泛的应用需求。但由于场景图像受非均匀光照、背景纹理和文字多样性等影响,现有方法场景文本提取的准确性较低。因此,如何从这些场景图像中准确地提取文本信息已成为模式识别领域的研究热点,开展本项目的研究对提高场景图像文本识别系统的准确性和鲁棒性具有重要的实用价值。
  本文主要工作及贡献包括:
  首先,基于文本区域字符灰度值一致性,x方向梯度幅值呈凸形分布和文本字符相近邻的特点,本文提出一种基于卷积神经网络(CNN)和支撑向量机(SVM)输出得分的场景图像文本定位方法。依据文本区域 x方向梯度幅值的凸形分布和字符灰度值一致性,检测文本区域的典型点,并通过典型点位置和灰度聚类提取候选连通成分,再对上述候选连通成分以外的区域,用k-means聚类方法进一步提取其它的候选连通成分。然后,使用基于CNN的文本连通成分SVM分类器,利用CNN提取连通成分的纹理特征,再使用SVM输出得分抑制非文本连通成分,并将近邻的连通成分组合成候选文本区域;最后,针对提取的候选区域梯度方向直方图HOG特征,利用支持向量机验证候选区域。对于ICDAR2011和ICDAR2013的场景文本图像数据集,本文定位方法分别获得76%和78%的F值,表明该方法有效地抑制了复杂背景纹理干扰。
  其次,基于文本行内字符颜色的相似性,提出一种基于颜色聚类和梯度向量流的文本区域字符切割方法。先利用k-means聚类方法,对像素点色彩空间位置分布进行聚类获得k个候选图层,再用连通成分的占空比、宽高比等几何特征,提取候选字符连通成分所在图层;并在同质区域寻找远离边缘的点作为候选切分像素点,利用灰度差值的平方作为代价,寻找累计代价最小的切割路径。在ICDAR2013场景图像文本数据集上,本文方法获得87.9%的F值,实验表明,颜色聚类可有效地抑制非均匀光照和遮挡的干扰。
  最后,基于字符结构的旋转不变性,提出一种多方向单个字符识别模型。采用变形HOG算子和同心圆形模板采样,提取局部联合HOG纹理特征和采样点之间的象限关系结构特征,组合上述两种特征得到字符特征,进而通过学习建立特征词典的字符词袋模型,然后,利用支持向量机识别字符。针对ICDAR字符数据集、Chars74K数据集和手工收集的数据集进行字符识别实验,本文提出的方法分别获得82%、87%和73%的准确率,表明提出的模型对旋转变化具有较好的鲁棒性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号