学术论文PDF结构解析技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

PDF为数字化信息传播及电子文档发行提供了很大便利，它也成为了目前学术论文的主要载体。这些海量的学术论文资源经过加工、整合、重编可以形成可重用的论文结构对象，这些结构对象将作为学术论文应用的输入数据。在理想情况下，PDF的元数据是可以存储结构化的信息，然而PDF是一种基于布局的格式，它并不提供结构信息，因此，对PDF学术论文结构内容的提取是学术资源挖掘的主要挑战。　　本文从文本元素和矢量元素两方面介绍了解析的关键问题，对影响其解析结果的因素进行了分析并提出了解决方案，针对文本区域提出了基于文本坐标规律的识别方法，将文本块内的文本行的坐标规律作为文本块扩充的条件；针对非文本区域提出基于最大矩形区域扩充的识别方法，将正文看成以页面分割的各个区域，对提取的矢量元素按左右下方向扩充，以最大范围地包含矢量元素及非正文文本，识别出非文本块。考虑到识别出的块与块之间的冗余与重叠，设计了块的合并算法，并对于多栏版面的PDF渲染顺序不正确引起的生成的块顺序不正确的问题设计了排序算法。　　实验结果表明，本文中提出的识别算法能很好地提取PDF结构信息，能够自动化地对学术资源进行抽取与处理，有利于PDF在学术论文领域中的进一步利用，对当前学术论文资源知识挖掘研究具有重要意义。

著录项

作者
周忆莲;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科计算机技术
授予学位硕士
导师姓名何黎刚,涂旭平;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
学术论文,PDF结构解析,最大矩形区域扩充,特征提取,数据挖掘;

相似文献

中文文献
外文文献
专利

1. PDF集群并行解析显示技术研究 [J] . 罗明宇 ,付燕平 ,刘其军 . 计算机技术与发展 . 2014,第006期
2. 基于篇章结构相似度的中文学术论文复制检测技术研究 [J] . 王建国 ,杨焕海 . 现代计算机（专业版） . 2010,第006期
3. 基于冷冻透射电镜电子断层扫描技术对适用于原位解析真核细胞核糖体结构的样品厚度研究 [J] . 朱刘琪 ,李霞 . 电子显微学报 . 2021,第006期
4. 视频数据结构化解析技术在雪亮工程中的应用研究 [J] . 黄德煌 . 四川水泥 . 2020,第001期
5. 利用光谱技术解析绿豆两种谷氨酸脱羧酶结构的研究 [J] . 王宪青 ,魏彤 ,杨勇 . 光谱学与光谱分析 . 2020,第012期
6. 针对PDF阅读器字体解析引擎的测试用例生成研究 [C] . ZHAO Gang ,赵刚 ,YU Yue . 第十届信息安全漏洞分析与风险评估大会 . 2017
7. PDF文档解析与内容脱敏技术研究 [A] . 朱玲玉 . 2018

学术论文PDF结构解析技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅