首页> 中文学位 >中文印刷体文档内容识别系统研究
【6h】

中文印刷体文档内容识别系统研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1课题研究的目的和意义

1.2 OCR技术概述

1.2.1统计特征字符识别技术

1.2.2结构特征字符识别技术

1.2.3基于人工神经网络的识别技术

1.3文档信息处理系统

1.3.1文档信息处理系统简介

1.3.2文档信息处理系统组成

1.4公式识别简介和发展历程

1.4.1公式识别分类

1.4.2公式识别发展历程

1.5中文数学公式识别系统介绍

1.5.1数学公式识别系统MatheReader

1.5.2汉王助教先锋

1.6论文所作的工作与结构安排

第2章图像的预处理

2.1图像的灰度变换

2.2图像的二值化

2.2.1基于直方图谷点门限的分割方法

2.2.2 Ostu算法

2.2.3最大熵阈值分割

2.2.4算法选择

2.3图像的平滑去噪

2.4图像的细化

2.5图像的归一化

2.5.1位置归一化方法

2.5.2大小归一化方法

2.5.3位置与大小归一化实例

2.6本章小结

第3章文档的版面分析

3.1版面分析的对象与任务

3.2版面分析方法综述

3.3基于最近邻连接强度和行列可信度的版面分析算法

3.3.1计算最近邻连接强度

3.3.2连通域合并成行列

3.3.3行列合并成区域

3.3.4区域属性判断

3.3.5实验结果

3.4本章小结

第4章印刷体汉字识别技术

4.1印刷体汉字识别中存在的困难

4.2印刷体汉字识别方法的研究

4.2.1结构模式识别

4.2.2统计模式识别

4.2.3结构模式识别与统计模式识别结合

4.3汉字识别模块的实现

4.3.1最大宽度回溯字切分算法

4.3.2汉字特征选择和特征提取

4.4近邻法的快速算法

4.5汉字识别模块测试

4.5.1实验环境

4.5.2实验结果

4.5.3性能分析以及后续工作

4.6本章小结

第5章数学公式的定位

5.1基于Parzen窗的独立公式行提取

5.1.1文本行的特征提取

5.1.2 Parzen窗方法

5.2基于字符宽度中心矩的公式提取方法

5.2.1建立样本文本特征库

5.2.2公式行的判断

5.2.3独立公式行的判定方法

5.2.4内嵌公式行内数学公式的定位提取

5.3基于汉字拒识的数学公式定位方法

5.4方法的比较

5.5本章小结

第6章数学公式中字符的分割和识别

6.1数学符号的特点分析

6.2数学符号的分割

6.3基于数学符号特点的符号特征提取

6.4公式字符标准特征库的建立

6.5本章小结

第7章数学公式的结构分析

7.1结构分析预处理

7.2字符的同行判断

7.3基于特征字符的结构分析

7.3.1特征字符的定义与分类

7.3.2特征子块

7.4识别算法

7.4.1归一化水平最左字符

7.4.2整体算法

7.4.3特征子块的切割

7.5生成识别结果

7.6 Word EQ域简介

7.7本章小结

第8章软件设计和实验结果

8.1面向对象和可视化技术

8.2算法库简介

8.3实验结果

8.4本章小结

结 论

参考文献

致谢

展开▼

摘要

随着信息的传播和交换的迅猛增长,将以纸张为介质的文档信息自动转换成数字形式成为一项十分有意义的工作。为此,开发一种高效的文档信息处理系统成为一项迫切的任务。 本文提出的文档信息处理系统包括了复杂文档的版面分析、版面理解、汉字识别、公式识别、表格处理、版面重构几个功能模块。主要对版面分析、汉字识别和公式识别三个方面进行了研究。 在版面分析中,采用基于最近邻连接强度和行列可信度的自底向上的版面分析算法,分割出图像区域、表格区域和文本区域;在汉字识别模块中,采用回溯切分方法切分出字符段,计算合并差异度与特征字典比较,通过引入汉字的拒识类,从而实现了公式的定位;将定位后的数学公式送入公式识别器,在公式识别器中采用基于连通域搜索的字符分割方法和模板匹配方法对字符识别,对于识别出的字符,再采用基于特征字符的结构分析方法,从而将二维的数学公式转化为一维的Word EQ域语句。经过上述的几个步骤之后,系统输出为纯文本。汉字和Word EQ语句的顺序就是原文本中的汉字和公式的顺序。 该系统很好地提取文档中的文本区域,通过比较现有的公式定位方法,该系统的方法更加迅速、准确,并通过结构分析前的预处理,提高了公式的识别率。

著录项

  • 作者

    刘维平;

  • 作者单位

    哈尔滨工程大学;

  • 授予单位 哈尔滨工程大学;
  • 学科 模式识别与智能系统
  • 授予学位 硕士
  • 导师姓名 王科俊;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    文档信息; 版面分析; 汉字识别; 公式识别;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号