首页> 中文学位 >基于文档属性的PDF数学表达式信息获取
【6h】

基于文档属性的PDF数学表达式信息获取

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 引 言

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文工作与组织结构

第2章 PDF文档解析

2.1 PDF文档结构

2.1.1 PDF文档类型说明

2.1.2 PDF文档的基本组成

2.1.3 PDF文档页面组织与构成

2.1.4 PDF文档解析过程概述

2.1.5 典型解析问题及处理方法

2.2 PDF文档中的数学表达式

2.2.1 PDF文档中数学表达式的存在形式

2.2.2 PDF文档提取数学表达式的关键问题

第3章 PDF文档中数学表达式信息的提取

3.1 PDF文档字符信息提取

3.1.1 基础信息提取

3.1.2 特殊字符的处理

3.2 PDF文档中数学表达式的定位

3.2.1 文本行提取

3.2.2 孤立数学表达式定位

3.2.3 内嵌数学表达式定位

3.3 数学表达式内容提取

3.3.1 表达式结构建立

3.3.2 数学内容输出

第4章 实验过程及结果分析

4.1 实验设计与过程

4.2 实验结果分析

第5章 总结与展望

5.1 工作总结

5.2 后续工作展望

参考文献

致谢

攻读学位期间取得的科研成果

展开▼

摘要

PDF文档的广泛应用使获取其中的信息成为研究热点。PDF文档具有面向页面描述的特点,其内容的逻辑关系不明显,给信息提取带来了困难。本文面向数学表达式检索的需要,从PDF文档属性数据出发,研究代码型PDF文档中数学表达式信息的获取方法,为实现PDF文档数学表达式检索打下基础。
  首先,通过解析PDF文档字体文件的方式获取版面字符的精确外接矩形框;然后,以PDF属性中的文本显示原点坐标为参照,进行文本行的定位,并在分析文本输出命令的基础上直接进行文本行内词块的分割;最后,采用基于规则的方法,定位文档内的数学表达式内容区域,并根据PDF文档中数学表达式的排版特点,设计算法还原表达式的结构,通过分析表达式结构获取相关表达式信息。实验结果表明,本文方法较充分地利用PDF文档自身属性数据,结合数学表达式的特点,获取PDF文档内的数学表达式信息,对特定类型的PDF文档有较好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号