PDF文档表格信息的识别与提取

田翠华; 张一平; 胡志钢; 高静敏; 李西雨

首页> 中文期刊>厦门理工学院学报 >PDF文档表格信息的识别与提取

PDF文档表格信息的识别与提取

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为编辑PDF文档中的表格信息,设计一种基于Python平台的,包含文件选取与文件转换两大功能模块的信息提取软件.该软件利用Python内置库,针对PDF中不同表格的结构设计算法,识别表格内的文字信息与表格结构,将得到的表格结构还原至Word与Excel文档中,文字信息同样复原至对应单元格内.实验表明:开发的软件完整快速地提取了PDF中的表格信息,并将其转化为易于编辑的Excel和Word文档,达到了预期目的;其转换速度与收费软件WPS相当,转换速度明显快于其他免费转换软件;识别精确度与迅捷PDF转换器、Smallpdf等相比有所提高.

著录项

来源
《厦门理工学院学报》|2020年第3期|70-76|共7页
作者
田翠华; 张一平; 胡志钢; 高静敏; 李西雨;
展开▼
作者单位

厦门理工学院计算机与信息工程学院福建厦门361024;

厦门理工学院计算机与信息工程学院福建厦门361024;

厦门理工学院计算机与信息工程学院福建厦门361024;

厦门理工学院计算机与信息工程学院福建厦门361024;

厦门理工学院计算机与信息工程学院福建厦门361024;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序包（应用软件）;
关键词
PDF文档; 表格信息; 信息识别; 信息提取; Python开发平台;

相似文献

中文文献
外文文献
专利

1. 面向工程图纸离线式表格信息提取与识别方法研究 [J] . 董玉德 ,刘孙 ,朱长江 . 图学学报 . 2009,第001期
2. 轻松提取PDF文档中的图文信息 [J] . 邓炎木 . 电脑迷 . 2013,第005期
3. 表格字符识别系统的分层特征提取算法 [J] . 周凤香 . 智慧工厂 . 2016,第002期
4. 一种新的表格识别特征提取方法 [J] . 黄锦德 ,郝红卫 ,张冬霞 . 计算机工程 . 2006,第006期
5. Excel VBA技术在批量提取Word表格信息中的应用 [J] . 郑培寅 ,曹艳杰 ,余志远 . 河南科技 . 2019,第016期
6. 基于DSP从PDF文档提取文字信息的研究与实现 [C] . 何肇雄 ,郭阳 ,陈书明 . 第十届计算机工程与工艺全国学术年会 . 2006
7. 面向PDM的工程图纸离线式识别提取表格信息的研究 [A] . 刘孙 . 2008

PDF文档表格信息的识别与提取

摘要

著录项

相似文献

相关主题

期刊订阅