首页> 中文期刊>厦门理工学院学报 >PDF文档表格信息的识别与提取

PDF文档表格信息的识别与提取

     

摘要

为编辑PDF文档中的表格信息,设计一种基于Python平台的,包含文件选取与文件转换两大功能模块的信息提取软件.该软件利用Python内置库,针对PDF中不同表格的结构设计算法,识别表格内的文字信息与表格结构,将得到的表格结构还原至Word与Excel文档中,文字信息同样复原至对应单元格内.实验表明:开发的软件完整快速地提取了PDF中的表格信息,并将其转化为易于编辑的Excel和Word文档,达到了预期目的;其转换速度与收费软件WPS相当,转换速度明显快于其他免费转换软件;识别精确度与迅捷PDF转换器、Smallpdf等相比有所提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号