首页> 中文学位 >自然场景中文本信息提取方法
【6h】

自然场景中文本信息提取方法

代理获取

目录

自然场景中文本信息提取方法

APPROACHES TO TEXT INFORMATION

摘 要

Abstract

目 录

Contents

第1章 绪论

1.1 课题的研究目的和意义

1.2 自然场景中的文本认知

1.2.1 自然场景中的文本区域图像特征

1.2.2 自然场景中的文本类型

1.2.3 自然场景中文本的特点

1.2.4 文本信息提取问题描述

1.2.5 文本信息提取与光学字符识别系统的关系

1.3 国内外研究现状及分析

1.3.1 基于连通域分析的文本信息提取方法

1.3.2 基于边缘特征的文本信息提取方法

1.3.3 基于纹理特征的文本信息提取方法

1.3.4 基于学习的文本信息提取方法

1.3.5 压缩域中文本信息提取方法

1.3.6 其他文本信息提取方法

1.4 文本信息提取存在的问题和发展趋势

1.5 本文的研究内容

第2章 基于小波重构映射的文本检测

2.1 引言

2.2 小波的概念

2.3 二维图像的小波分解和重构

2.4 基于小波重构映射的文本检测

2.4.1 属性特征提取

2.4.2 基于神经网络的文本检测分类器

2.5 边缘映射与小波重构映射的性能比较

2.5.1 可分性判据

2.5.2 文本检测性能对比

2.6 实验结果与分析

2.6.1 文本检测评价方法

2.6.2 特征检测窗口大小的选择

2.6.3 特征检测窗口滑动步长的选择

2.6.4 分类器输出二值化阈值的选择

2.6.5 分类器训练样本属性比例的选择

2.6.6 边缘映射与小波重构映射比较

2.7 本章小结

第3章 基于模糊同质性映射的文本检测

3.1 引言

3.2 同质性映射

3.3 模糊同质性映射

3.3.1 图像的模糊化处理

3.3.2 模糊同质性映射

3.4 模糊同质性的改进

3.4.1 模糊纹理信息的计算

3.4.2 模糊边缘信息的计算

3.5 基于同质映射和模糊同质映射的文本检测

3.5.1 特征提取

3.5.2 基于SVM 的文本检测

3.5.3 核函数及参数选择

3.5.4 SVM 的训练样本属性比例

3.5.5 分类器性能对比

3.6 实验结果和分析

3.6.1 特征检测窗口大小的选择

3.6.2 特征检测窗口滑动步长的选择

3.6.3 同质性映射和模糊同质性映射性能验证

3.6.4 改进模糊同质性映射性能验证

3.6.5 与第2 章文本检测方法的比较

3.7 本章小结

第4章 基于文本像素密度的文本定位

4.1 引言

4.2 文本定位的评价方法

4.2.1 精确率和召回率

4.2.2 文本定位的评价准则

4.3 文本定位

4.3.1 基于文本像素密度的文本定位方法

4.3.2 文本定位后处理

4.4 基于多分辨分析的文本定位

4.4.1 多分辨分析方法

4.4.2 基于多分辨分析的文本定位

4.5 文本定位方法的比较与分析

4.5.1 实验结果

4.5.2 结果分析

4.6 本章小结

第5章 基于多尺度变换与模板匹配的文本提取

5.1 引言

5.2 字符分割方法

5.3 多尺度变换

5.4 基于多尺度模板匹配的文本提取方法

5.4.1 匹配准则函数

5.4.2 多尺度模板匹配算法

5.5 TMAMT 算法在车牌精确定位与字符分割中的应用

5.5.1 车牌模板及尺度变换参数

5.5.2 车牌精确定位与字符分割中匹配准则函数

5.5.3 多尺度模板匹配的车牌精确定位与字符分割

5.5.4 实验结果及分析

5.6 本章小结

结 论

参考文献

攻读博士学位期间发表的学术论文

哈尔滨工业大学博士学位论文原创性声明

哈尔滨工业大学博士学位论文使用授权书

致 谢

图表索引

Index of Figures and Tables

个人简历

展开▼

摘要

自然场景中不仅包含大量的图形信息,而且存在丰富的文本信息。这些文本信息对场景内容的描述与理解有重要的价值,是场景图像检索的关键线索。因而迫切需要一种自动化的工具,通过自然场景中文本认知获取场景中的文本信息,为检索、查询、浏览场景图像资料和理解场景内容服务,提高图像资料的管理效率。
  自然场景中文本认知是指在对文本所依存的环境无限制或较少限制的条件下,对自然场景中文本的识别与理解。尽管传统文档分析技术已经取得了巨大的成果,但是通常只能处理文档上的文本字符,无法处理自然场景中文本字符。因此自然场景中文本认知逐渐成为研究的热点。
  本文对自然场景中文本认知的相关技术进行研究,重点研究自然场景中文本信息提取方法。自然场景中文本信息提取是在图像中检测文本的存在,确定文本区域的位置,并将文本区域中的字符提取出来。论文通过对图像中文本特点的分析,提出基于模糊同质性映射的文本信息提取方法,能够同时处理人工文本和场景文本,具有较强的通用性。该方法采用基于学习的文本检测方法和基于文本像素密度的文本定位方法确定图像中的文本区域,并通过多尺度变换与模板匹配的方法提取字符。与其他文本信息提取方法相比具有以下优点:图像的同质性在很大程度上与图像的局部信息相关,能够反映文本区域的本质特征;模糊理论较好描述了人类视觉中的模糊性和随机性,因此更适于处理背景复杂的图像;多尺度变换与模板匹配充分利用文本区域的结构特征,降低颜色复杂文本字符的提取难度。本文着重对以下问题进行了研究:
  1.对图像空间映射进行了研究,将同质性映射引入文本检测,并提出了改进的同质性映射定义。空间映射能够增强文本区域的特征,提高文本检测的性能。重点比较了不同类型空间映射对文本检测的影响,实验结果表明同质性映射能够更准确地刻画文本区域与非文本区域之间的差异,为文本检测奠定基础。
  2.提出了基于模糊同质性映射的文本检测方法。在同质性定义的基础上,利用模糊理论处理图像本身所具有的模糊属性,将二者相结合定义模糊同质性映射,充分反映图像区域的局部均匀程度,适用于背景比较复杂的自然场景中文本检测,尤其适用于一些背景与文本区域视觉特征近似的图像。3.为了提取文本区域内的字符信息,需要获得文本区域的范围和确切位置,提出基于文本像素密度的文本定位方法,并利用文本区域的特点和几何统计信息对文本候选区域进行筛选。图像中文本字符尺寸的差异给文本定位造成很大困难,采用多分辨分析技术,将多个文本定位结果融合得到多分辨分析下的文本定位结果。通过在ICDAR’2005开放测试集上测试,实验结果表明该文本定位方法具有较好的性能。
  4.提出了多尺度变换与模板匹配的文本提取方法。由于图像中文本的诸多变化,传统字符分割技术无法正确分割自然场景中的文本字符。首先通过定义文本区域的标准模板、存在模板和多尺度变换来描述文本区域的变化,然后给出了多尺度变换与模板匹配的文本提取算法。将该方法应用到车牌精确定位与字符分割中,实验表明,该方法对具有确定存在形式的文本区域及其各种形变具有很好的定位和字符分割能力,同时该方法有很强的抗干扰能力,尤其对断裂和粘连字符的分割具有较好的效果。
  本文提出的自然场景中文本信息提取方法并没有限制文本类型,既可以处理人工文本,也可以提取场景文本,是对通用文本信息提取方法研究的初步探索,取得了一定的研究成果。自然场景中的文本信息提取无论应用于智能人机接口还是为基于内容的图像检索服务,都将具有广泛的应用前景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号