首页> 中文学位 >面向非纯文本文档图像的检索技术研究与实现
【6h】

面向非纯文本文档图像的检索技术研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景与意义

1.2 研究现状

1.3 研究内容

1.4 论文结构

1.5 本章小结

第2章 图像预处理和特征提取技术

2.1 图像检索流程

2.2 图像预处理

2.2.1 去噪

2.2.2 二值化

2.2.3 倾斜校正

2.3 特征提取

2.4 形态学算法的应用

2.5 本章小结

第3章 文档图像预处理

3.1 二值化

3.2 去噪

3.2.1 均值滤波去噪

3.2.2 中值滤波去噪

3.2.3 改进的去噪方法

3.3 倾斜校正

3.4 本章小结

第4章 文档版面分析和特征提取

4.1 文档图像版面分析

4.1.1 确定文档内容的区域范围

4.1.2 确定纯文本文档

4.1.3 区分表格文档和图像文档

4.2 文本特征提取

4.2.1 确定膨胀模板

4.2.2 文本特征提取

4.3 表格特征提取

4.4 图像特征提取

4.5 本章小结

第5章 系统实现与分析

5.1 图像匹配

5.2 实验与分析

5.2.1 实验步骤

5.2.2 实验

5.2.3 实验结果和分析

5.3 本章小结

第6章 总结与展望

参考文献

致谢

攻读硕士学位期间公开发表的论文

展开▼

摘要

随着电子信息化进程的加快和互联网的快速发展,图像资源正海量的增长。越来越多的文档以图像的形式进行存储。文档图像中除了纯文本文档图像和纯表格文档图像外还有很多在文本中包含表格或图像的文档。如何对这些非纯文本内容的文档图像进行检索值得进行深入的研究。
  针对纯文本文档的检索技术主要提取与文本或字符有关的特征,这些特征对于文本中有表格或图像的文档图像则不适用。针对表格提取的特征同样不适用于文档中的文本部分。对于文本占主体同时包含表格或图像的文档图像,充分利用文本部分和非文本部分的特征,并且把两部分的特征很好的结合起来才能有效的表达图像。
  本文提出综合文档版面分析、全局特征以及局部特征的方法对文本图像进行特征提取和检索。在特征提取前首先对文档图像进行预处理。由于种种原因,文档以图像存储时可能会产生噪声或发生倾斜,这些干扰将影响到文档图像的特征提取,因此对文档图像进行预处理很有必要。本文通过对文档图像预处理的研究,对文档图像进行二值化、去噪、倾斜校正操作,使得文档图像便于特征提取。在特征提取时,分析文档的版面特征,把文档分为纯文本文档、包含表格的文档和包含图像的文档。针对纯文本文档和非纯文本文档中的文本部分,提取全局段落特征和局部像素特征;针对非纯文本文档中的表格部分,提取其相对空间位置特征和表格单元格框架特征;针对图像部分提取其空间位置特征和投影直方图特征。然后将所提取到的特征相结合作为文档图像的综合特征,以此作为对文档图像检索的依据。
  检索前,把图像库中文档图像的特征按文档类型的不同存到相应的特征库中。在检索时,根据文档的类型,把提取的文档图像特征与特征库中相应类型的特征进行匹配,根据特征向量之间距离的大小检索出最相似的图像。
  实验时分别对纯文本文档、包含表格的文档和包含图像的文档三种类型的文档进行检索,通过与针对文本文档的检索方法和针对表格文档的检索方法进行对比,实验结果表明:通过对文档进行版面分析并把文档分成不同的类型,然后针对每一种类型分别提取全局和局部特征,最后对提取的特征进行综合的方法对非纯文本文档的检索有较高的正确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号