首页> 中文学位 >文本页面中数学表达式的定位及分析
【6h】

文本页面中数学表达式的定位及分析

代理获取

目录

文摘

英文文摘

声明

第一章概述

1.1引言

1.2文本页面处理和数学表达式处理

1.2.1页面分割算法的现状

1.2.2数学表达式的处理研究

1.3本文的结构及所做的工作

第二章基于微结构的文本元分类及页面校正

2.1页面图像的预处理

2.2页面的微结构描述

2.2.1文本元的形成

2.2.2文本元分类

2.2.3部分文本元分析

2.3文本页面倾斜校正

2.3.1基线特征点的选取

2.3.2基线特征点划分及剔除

2.3.3最小二乘法求基线

2.3.4快速校正算法

2.4倾斜校正的结果

第三章页面文本行分割与数学表达式定位

3.1页面结构类型

3.2常用的分割策略

3.2.1自上而下的分析策略

3.2.2自底向上的分析策略

3.2.3混合的分割策略

3.3本文的分割算法

3.3.1页面分割目标

3.3.2基于微结构及投影的页面分割

3.4数学表达式定位

3.4.1独立表达式行的定位

3.4.2基于最小错误率的分类器设计

3.4.3内嵌表达式的定位

3.4.4文本行上下基线分析

3.4.5连通体提取

3.5数学表达式定位结果讨论

第四章表达式结构分析和字符切分

4.1数学表达式结构分析

4.1.1表达式的位置关系

4.1.2表达式细化处理

4.1.3结构分析策略

4.2字符切分

4.2.1文本行字符切分

4.2.2表达式字符切分

4.2.3基于连通体的切分算法

4.2.4字符切分结果

4.3识别前的预处理

第五章结论与展望

5.1本文算法讨论

5.1.1页面前景像素的描述算法

5.1.2页面倾斜校正算法

5.1.3数学表达式定位算法

5.1.4表达式分析算法

5.2总结

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

电子文档具有容易修改、检索和传输等优点,从而基于移动办公终端的文档实时电子化变得越来越频繁。文档的电子化必须经过页面分割和字符识别,页面内通常含有多种元素如字符、图片、表格和数学表达式等,其中数学表达式的分析、识别和重组是文档电子化的难点。因此研究高效的分析算法十分必要,本文的工作主要体现在以下几个方面: 鉴于文本页面各文本元区域的前景像素存在自.相关性,本文提出了基于微结构的页面分割算法来切分文本页面。首先采用快速扫描算法将前景像素归类并形成微结构集,利用微结构的相关性分类出页面含有的图元、表格元等;改变合并规则合并分类后的字符元得到字符区,选取字符区域的最大者结合最小二乘法检测字符区的倾斜角度来校正页面;最后利用微结构并结合水平投影将校正后的页面切割为文本行。 数学表达式的二维结构特性使数学表达式与普通文本行存在很大差异,本文利用这些差异将独立表达式行与普通文本行区分开来;接着采用连通体搜索方法搜索分类后的文本行,判断搜索得到的连通体与该文本行上下基线的关系确定内嵌表达式所在位置,结合最大投影间隔法切分出内嵌表达式,最后借助微结构和投影法分析数学表达式结构。实验结果表明,本文提出的算法是有效的,并具有较好的稳定性、适应性。此外,将文本元逐个分类和分解会增加识别的成功率,更加有利于字符的识别。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号