场景图像文本定位与字符识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

场景图像中的文本包含着丰富而又准确的信息，在工业自动化、交通管理、自动翻译、残障人士服务等领域中存在广泛的应用需求。但由于场景图像受非均匀光照、背景纹理和文字多样性等影响，现有方法场景文本提取的准确性较低。因此，如何从这些场景图像中准确地提取文本信息已成为模式识别领域的研究热点，开展本项目的研究对提高场景图像文本识别系统的准确性和鲁棒性具有重要的实用价值。
　　本文主要工作及贡献包括：
　　首先，基于文本区域字符灰度值一致性，x方向梯度幅值呈凸形分布和文本字符相近邻的特点，本文提出一种基于卷积神经网络（CNN）和支撑向量机（SVM）输出得分的场景图像文本定位方法。依据文本区域 x方向梯度幅值的凸形分布和字符灰度值一致性，检测文本区域的典型点，并通过典型点位置和灰度聚类提取候选连通成分，再对上述候选连通成分以外的区域，用k-means聚类方法进一步提取其它的候选连通成分。然后，使用基于CNN的文本连通成分SVM分类器，利用CNN提取连通成分的纹理特征，再使用SVM输出得分抑制非文本连通成分，并将近邻的连通成分组合成候选文本区域；最后，针对提取的候选区域梯度方向直方图HOG特征，利用支持向量机验证候选区域。对于ICDAR2011和ICDAR2013的场景文本图像数据集，本文定位方法分别获得76％和78%的F值，表明该方法有效地抑制了复杂背景纹理干扰。
　　其次，基于文本行内字符颜色的相似性，提出一种基于颜色聚类和梯度向量流的文本区域字符切割方法。先利用k-means聚类方法，对像素点色彩空间位置分布进行聚类获得k个候选图层，再用连通成分的占空比、宽高比等几何特征，提取候选字符连通成分所在图层；并在同质区域寻找远离边缘的点作为候选切分像素点，利用灰度差值的平方作为代价，寻找累计代价最小的切割路径。在ICDAR2013场景图像文本数据集上，本文方法获得87.9%的F值，实验表明，颜色聚类可有效地抑制非均匀光照和遮挡的干扰。
　　最后，基于字符结构的旋转不变性，提出一种多方向单个字符识别模型。采用变形HOG算子和同心圆形模板采样，提取局部联合HOG纹理特征和采样点之间的象限关系结构特征，组合上述两种特征得到字符特征，进而通过学习建立特征词典的字符词袋模型，然后，利用支持向量机识别字符。针对ICDAR字符数据集、Chars74K数据集和手工收集的数据集进行字符识别实验，本文提出的方法分别获得82%、87%和73%的准确率，表明提出的模型对旋转变化具有较好的鲁棒性。

著录项

作者
董杨博;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科模式识别与智能系统
授予学位硕士
导师姓名汪国有;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
场景图像; 定位文本; 切割字符; 卷积神经网络; 纹理特征;

相似文献

中文文献
外文文献
专利

1. 场景图像中文本区域字符提取方法研究 [J] . 李海浩 ,顾滨兵 ,刘艳平 . 计算机与数字工程 . 2018,第012期
2. 自然场景图像中的文本检测方法研究 [J] . 李东勤 ,王芳 ,周万怀 . 重庆科技学院学报（自然科学版） . 2016,第006期
3. 基于随机投影的场景文本图像聚类方法研究 [J] . 徐飞 ,刘家锋 ,张博宇 . 计算机应用研究 . 2011,第012期
4. 自然场景图像的字符识别方法 [J] . 李颖 ,刘菊华 ,易尧华 . 包装工程 . 2018,第5期
5. 医学文本图像字符识别校正技术研究与应用 [J] . 李琴 ,杨斌 ,郇宝贵 . 医学信息学杂志 . 2018,第006期
6. 光学场景图像快速扩充方法研究 [C] . Wang Chaolei ,王超磊 ,Tao Yuhui . 第二届中国目标与环境建模仿真技术大会 . 2016
7. 自然场景图像文本定位与识别 [A] . 邵康一 . 2018

场景图像文本定位与字符识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅