印刷体数学表达式自动识别的方法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着Internet 的迅猛发展，利用Internet 发布和交换信息更加频繁，同时数字图书馆和远程教育也成为热门领域，因此，信息资源的电子化是至关重要的一个问题。现有的OCR( Optical Character Recognition )技术虽然对中英文字和数字等都能获得很好的识别效果，但无法处理数学表达式。原因在于数学表达式具有复杂的二维嵌套结构，并且符号含义多样性，导致数学表达式在分割和结构分析等方面存在很多困难。为了方便读者和提高文献的利用率，设计一个系统，实现了将图像格式的印刷体数学表达式转换成可编辑的LaTeX 格式的数学表达式。所完成的主要工作包括： 1、设计实现了一个功能，快速方便地选取文献资料中要识别的数学表达式图像。 2、图像预处理的功能是去除噪声，使反映符号本质特征的部分得到保留甚至突出出来，从而正确识别图像内容。 3、特征提取与选择是图像识别的一个关键问题。本文对数学符号提取统计特征和结构特征组成45 维特征集，对这样的特征集分类识别不受字体限制，而像素特征集受字体影响比较大，不同字体的同一个符号所提取的像素特征集差异可能比较大。并且设计实现K-L 正交变换对特征集进行优化处理，去掉冗余信息，经过综合对比，最后确定39 维特征集能取得比较理想的识别效果。 4、支持向量机(SVM)是在统计学习理论的基础上发展起来的一种最新的机器学习方法。数学表达式识别是有限样本的多类识别问题，本文应用二类组合分类方法中的成对分类法（即一对一）进行符号识别。经过大量的实验，找到比较理想的参数，并与其它相关文献中的实验结果进行了比较，识别正确率有所提高。 5、结构分析是数学表达式识别系统与字符识别系统的最大区别，也是难点之一。由于图像预处理时对符号进行了过分割，所以，设计一些规则检测合并多元结构的符号或函数型符号。然后，应用基准线的结构分析算法，使用树的存储形式，采用从上至下的分析策略，思想简单，容易实现，且识别正确率较高，速度较快，适合于数学表达式识别的实时系统。 6、TeX 系统是国际公认的最好的数学公式排版系统，LaTeX 建立在TeX 之上。因此，本文把图像格式的数学表达式转化成LaTeX 格式的数学表达式。 7、本系统全部功能完全在VC++6.0 下实现，速度快，界面简洁，使用方便。

著录项

作者
佟树成;
展开▼
作者单位

广西师范大学;

展开▼
授予单位广西师范大学;
学科计算机软件与理论
授予学位硕士
导师姓名王强;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.41;
关键词
印刷体; 数学表达式; 特征提取; 自动识别;

相似文献

中文文献
外文文献
专利

1. 基于多类支持向量机的印刷体数学表达式符号识别的研究 [J] . 佟树成 ,杜时英 . 科技信息 . 2009,第023期
2. 数学表达式的自动识别 [J] . 陈洪波 ,王强 ,徐晓蓉 . 广西科学 . 2004,第001期
3. 手写数学表达式识别方法研究 [J] . 沈佳伟 ,周宇昂 ,赵天宇 . 福建电脑 . 2021,第007期
4. 数学表达式的归一化方法研究 [J] . 陈鲤江 ,景程 ,吴姚鑫 . 浙江工业大学学报 . 2012,第002期
5. 基于数学形态学的三维风暴体自动识别方法研究 [J] . 韩雷 ,郑永光 ,王洪庆 . 气象学报 . 2007,第005期
6. 印刷体汉字的机器自动识别与编码输入兼容的方法研究 [C] . 郑雄侠 . 汉字编码专业委员会学术交流会 . 1985
7. 印刷体数学表达式识别实现方法研究 [A] . 李宁 . 2005

印刷体数学表达式自动识别的方法研究

摘要

著录项

相似文献

相关主题

期刊订阅