【24h】

Extraction of Tabular Data from PDF to CSV Files

机译:从PDF提取表格数据到CSV文件

获取原文

摘要

Companies generate their reports in the form of PDF files. For further data analysis, the statistics or quantitative data in these reports have to be converted to CSV (.csv) or Excel (.xlsx) files. This is done manually by companies. This consumes a lot of time and manual work which can be reduced for better utilization of resources. Forecomp is a web application to automatically convert the tables in the PDF to CSV files. The tables could be present in text format or as an image. The web application is built keeping flexibility in mind such that the user can select the process used to convert the PDF into CSV files based on the tables in their PDF. Different technologies used in this application include YOLO model for machine learning, Tesseract OCR, Tabula, and an inbuilt snipping tool. This paper introduces the concepts behind Forecomp focussing on the methodology employed and the various results obtained.
机译:公司以PDF文件的形式生成其报告。 有关进一步的数据分析,这些报告中的统计数据或定量数据必须转换为CSV(.csv)或Excel(.xlsx)文件。 这是由公司手动完成的。 这消耗了很多时间和手动工作,以便更好地利用资源。 预防来自Web应用程序,可以自动将PDF中的表转换为CSV文件。 表格可以以文本格式或图像存在。 Web应用程序的内容保持灵活性,使得用户可以根据其PDF中的表选择用于将PDF转换为CSV文件的过程。 本应用中使用的不同技术包括用于机器学习,TESERACT OCR,Tabula和内置剪下工具的Yolo模型。 本文介绍了预防预防措施对所采用的方法的概念和所获得的各种结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号