首页> 中文学位 >基于CRF的原生数字图像文本提取研究
【6h】

基于CRF的原生数字图像文本提取研究

代理获取

目录

声明

摘要

第一章 绪论

第一节 研究背景和意义

第二节 相关领域研究现状

1.2.1 基于边缘的方法

1.2.2 基于纹理的方法

1.2.3 基于连通区域的方法

1.2.4 其它方法

第三节 本文研究目标和难点

1.3.1 原生数字图像中文本提取方法的研究

1.3.2 基于CRF的连通体分类

第四节 本文组织结构

第二章 基于小波变换的图像分割

第一节 彩色图像转为灰度图像

第二节 近似背景分布

2.2.1 多层小波分解

2.2.2 滤波去噪阈值选取

2.2.3 重构图像

第三节 近似前景分布

第四节 全局阈值计算

第五节 局部二值化阈值计算

第六节 二值化

第七节 区域生长

第三章 基于条件随机场的文本提取

第一节 条件随机场简介

第二节 条件随机场

3.2.1 概率图模型

3.2.2 无向图模型

3.2.3 条件随机场模型

第三节 条件随机场的训练

3.3.1 极大似然估计

3.3.2 L-BFGS算法

第四节 条件随机场的标注

第五节 图像中的条件随机场

第六节 连通体分析

3.6.1 连通体提取

3.6.2 连通体邻接图

第七节 特征提取

3.7.1 一元连通体特征

3.7.2 二元连通体特征

第八节 分类器设计

3.8.1 状态特征函数

3.8.2 转移特征函数

第九节 算法步骤

第四章 实验与评测

第一节 实验数据集

第二节 实验评测标准

4.2.1 图像分割评测标准

4.2.2 CRF评测标准

第三节 图像分割结果及分析

4.3.1 参数选取

4.3.2 与其他二值化方法的比较

第四节 CRF分类结果及分析

第五章 总结与展望

第一节 总结

第二节 展望

参考文献

致谢

个人简历、学术论文与研究成果

展开▼

摘要

网页与电子邮件中的图像经常嵌入一些文字信息。以图像作为文字的载体源于许多需求,例如美化页面标题和文章标题,广告中吸引人们的注意,还有一些隐藏信息如垃圾邮件中的不良文本信息可以很容易地转为原生数字图像在网络中传播,从而避过文本过滤技术等。原生数字图像是用计算机软件生成的图像,图像中的文字包含许多有用的信息,能够客观反映图像所要表达的内容。因此,原生数字图像的文本提取对于网页内容的索引和检索、获取和过滤(如广告和垃圾邮件的过滤)等都存在着重要的意义。但是,原生数字图像文本提取工作面临分辨率低、文字本身大小和字体颜色的多样性以及边缘柔化所引起的连通体生成困难等问题,而真实场景图像的文本提取方法不一定适用于原生数字图像中的文本提取,所以原生数字图像中的文本提取成为了一个具有重要意义和挑战性的课题。
   本文主要研究了基于条件随机场的原生数字图像中的文本提取。条件随机场不仅具有对上下文信息进行建模的能力,而且能够基于有监督学习自动确定模型中的参数。本文利用条件随机场根据连通体自身特征和连通体之间的上下文特征做出文本连通体与非文本连通体的分类,能够有效地从原生数字图像中提取文本信息。实验表明其有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号