首页> 中文学位 >自然场景图像中的文本检测与识别技术研究
【6h】

自然场景图像中的文本检测与识别技术研究

代理获取

目录

声明

1 绪论

1.1 课题研究的背景与意义

1.2 相关领域的国内外研究现状

1.2.1 文本检测和识别技术面临挑战

1.2.2 场景文本定位研究现状

1.2.3 场景文本识别研究现状

1.3 本文的主要研究内容和论文安排

2 相关理论介绍

2.1 MSER原理介绍

2.2 卷积神经网络介绍

2.3循环神经网络介绍

2.4 数据库介绍

2.4.1 ICDAR2013数据集

2.4.2 MJSynth数据集

2.5 本章小结

3 基于MSER与多特征融合的场景文本定位

3.1 文本定位步骤

3.2提取字符候选区域

3.3 伪字符区域过滤

3.3.1候选区域预处理

3.3.2 HOG特征提取

3.3.3 LBP特征提取

3.3.4 CNN特征提取

3.3.5 基于SVM的伪字符区域过滤

3.4 文本行生成

3.5 实验结果与分析

3.5.1 文本定位算法衡量标准

3.5.2 实验结果分析

3.6本章小结

4 基于滑动卷积字符模型与LSTM的场景文本识别

4.1滑动卷积字符模型

4.2 基于滑动卷积字符模型与LSTM的场景文本识别

4.2.1 预处理

4.2.2 基于CNN序列特征提取

4.2.3 基于LSTM上下文特征提取

4.2.4 基于CTC转录

4.2.5 模型训练

4.3实验结果与分析

4.3.1文本识别结果评价标准

4.3.2结果分析

4.4 本章小结

5 总结与展望

5.1总结

5.2 展望

致谢

参考文献

攻读学位期间主要研究成果

展开▼

摘要

自然场景图像中的文本含有丰富而准确的高层语义信息,这些语义信息对于盲人障碍导航系统、智能城市交通管理系统、汽车的无人驾驶系统、即时翻译系统都具有指导意义。因此,对自然场景图像中文本进行定位和识别具有极大的研究价值。 本文针对自然场景下的文本定位与识别进行了深入研究,具体的工作如下: 1.传统MSER算法对光照敏感且在单一的灰度通道上进行文本候选区域提取时会出现文本漏检情况。针对此问题,本文提出了一种基于多通道光照均衡化的MSER算法。首先,分别在R、G、B通道下对图片做光照均衡化处理;然后,在对应通道下用MSER检测算子提取文本字符的MSER区域;最后,合并每个通道的MSER区域作为字符候选区域。经过实验验证,改进后的算法针对光照不均匀或不同复杂背景上的图片,都能检测到相对完整的字符区域,提高了算法的召回率。 2.传统MSER算法对于复杂背景的场景文本检测时会出现误检情况。针对此问题,本文提出一种基于多特征融合的伪字符区域过滤算法。首先,对字符候选区域分别提取HOG特征、LBP特征、CNN特征;然后,将这三种特征进行串形融合;最后,利用SVM训练一个字符判别器来过滤伪字符区域。经实验验证,此算法能剔除掉更多的伪字符区域,提高了算法的准确率。 3.滑动卷积字符模型是基于字符分类的识别,只关注字符的深度特征,而忽略了文本行中字符与字符之间的上下文关系,这使得算法的识别精度会大打折扣。针对此问题,本文深入研究了滑动卷积字符模型,在其基础上引入双向LSTM网络来进行场景文本识别。首先,去掉滑动卷积字符模型中的分类层;然后,使用CNN滑动窗口来提取输入图像的序列特征,将输出的序列特征输入到设计好双向LSTM网络中提取每个字符的上下文特征;最后,用CTC转录机制将LSTM的输出预测转录为实际的字符串。通过与其它算法对比,本文算法在识别精度上有显著的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号