基于文档属性的PDF数学表达式信息获取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

PDF文档的广泛应用使获取其中的信息成为研究热点。PDF文档具有面向页面描述的特点，其内容的逻辑关系不明显，给信息提取带来了困难。本文面向数学表达式检索的需要，从PDF文档属性数据出发，研究代码型PDF文档中数学表达式信息的获取方法，为实现PDF文档数学表达式检索打下基础。
　　首先，通过解析PDF文档字体文件的方式获取版面字符的精确外接矩形框；然后，以PDF属性中的文本显示原点坐标为参照，进行文本行的定位，并在分析文本输出命令的基础上直接进行文本行内词块的分割；最后，采用基于规则的方法，定位文档内的数学表达式内容区域，并根据PDF文档中数学表达式的排版特点，设计算法还原表达式的结构，通过分析表达式结构获取相关表达式信息。实验结果表明，本文方法较充分地利用PDF文档自身属性数据，结合数学表达式的特点，获取PDF文档内的数学表达式信息，对特定类型的PDF文档有较好的效果。

著录项

作者
于波涛;
展开▼
作者单位

河北大学;

展开▼
授予单位河北大学;
学科计算机科学与技术
授予学位硕士
导师姓名田学东;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
PDF文档; 数学表达式检索; 信息获取; 词块分割; 文本定位;

相似文献

中文文献
外文文献
专利

1. 基于数学表达式特征的科技文档检索模型 [J] . 田学东 ,崔晓娟 . 河北大学学报（自然科学版） . 2017,第006期
2. 基于文档图结构的恶意PDF文档检测方法 [J] . 俞远哲 ,王金双 ,邹霞 . 信息技术与网络安全 . 2021,第011期
3. 基于C#语言实现word文档转pdf文档 [J] . 苟博文 . 电脑知识与技术 . 2017,第035期
4. 科技文档中数学表达式的结构分析与识别 [J] . 徐晓宇 ,宗亚辉 ,胡欣宇 . 物联网技术 . 2016,第011期
5. 中文科技文档中的数学表达式定位 [J] . 张志伟 ,孔凡让 ,刘维来 . 中文信息学报 . 2007,第004期
6. 文档动态属性及基于动态属性的文档检索技术研究 [C] . 滕旭东 ,吴宝中 ,杨世宁 . 全国企业应用集成系统与技术学术研讨会(EAIST'05) . 2005
7. 基于层次策略的PDF数学文档快速鉴别研究 [A] . 薛蓓 . 2014

基于文档属性的PDF数学表达式信息获取

目录

摘要

著录项

相似文献

相关主题

期刊订阅