首页> 中文学位 >印刷体数学表达式自动识别的方法研究
【6h】

印刷体数学表达式自动识别的方法研究

代理获取

摘要

随着Internet 的迅猛发展,利用Internet 发布和交换信息更加频繁,同时数字图书馆和远程教育也成为热门领域,因此,信息资源的电子化是至关重要的一个问题。 现有的OCR( Optical Character Recognition )技术虽然对中英文字和数字等都能获得很好的识别效果,但无法处理数学表达式。原因在于数学表达式具有复杂的二维嵌套结构,并且符号含义多样性,导致数学表达式在分割和结构分析等方面存在很多困难。为了方便读者和提高文献的利用率,设计一个系统,实现了将图像格式的印刷体数学表达式转换成可编辑的LaTeX 格式的数学表达式。 所完成的主要工作包括: 1、设计实现了一个功能,快速方便地选取文献资料中要识别的数学表达式图像。 2、图像预处理的功能是去除噪声,使反映符号本质特征的部分得到保留甚至突出出来,从而正确识别图像内容。 3、特征提取与选择是图像识别的一个关键问题。本文对数学符号提取统计特征和结构特征组成45 维特征集,对这样的特征集分类识别不受字体限制,而像素特征集受字体影响比较大,不同字体的同一个符号所提取的像素特征集差异可能比较大。并且设计实现K-L 正交变换对特征集进行优化处理,去掉冗余信息,经过综合对比,最后确定39 维特征集能取得比较理想的识别效果。 4、支持向量机(SVM)是在统计学习理论的基础上发展起来的一种最新的机器学习方法。数学表达式识别是有限样本的多类识别问题,本文应用二类组合分类方法中的成对分类法(即一对一)进行符号识别。经过大量的实验,找到比较理想的参数,并与其它相关文献中的实验结果进行了比较,识别正确率有所提高。 5、结构分析是数学表达式识别系统与字符识别系统的最大区别,也是难点之一。 由于图像预处理时对符号进行了过分割,所以,设计一些规则检测合并多元结构的符号或函数型符号。然后,应用基准线的结构分析算法,使用树的存储形式,采用从上至下的分析策略,思想简单,容易实现,且识别正确率较高,速度较快,适合于数学表达式识别的实时系统。 6、TeX 系统是国际公认的最好的数学公式排版系统,LaTeX 建立在TeX 之上。因此,本文把图像格式的数学表达式转化成LaTeX 格式的数学表达式。 7、本系统全部功能完全在VC++6.0 下实现,速度快,界面简洁,使用方便。

著录项

  • 作者

    佟树成;

  • 作者单位

    广西师范大学;

  • 授予单位 广西师范大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 王强;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    印刷体; 数学表达式; 特征提取; 自动识别;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号