首页> 中国专利> PDF文档跨页表格合并方法、装置及相关设备

PDF文档跨页表格合并方法、装置及相关设备

摘要

本发明实施例公开了一种PDF文档跨页表格合并方法、装置及相关设备。该方法包括对PDF文档进行结构化处理,得到PDF文档的结构化文档;根据结构化文档判断PDF文档中相邻两个页面间是否存在合并条件;若相邻两个页面间存在合并条件,则通过预训练的表头识别模型对结构化文档每一页面中的表格进行表头识别,判断相邻两个页面是否均存在表头;若相邻两个页面均存在表头则判断表头是否一致,若表头一致则移除下一页面的表头,将两个页面的表体进行合并处理;若表头不一致,则不进行合并处理;若相邻两个页面均不存在表头,则将两个页面的表体进行合并处理。该方法相比传统方法对判断跨页表格是否需要合并有较高的准确率。

著录项

  • 公开/公告号CN114036909A

    专利类型发明专利

  • 公开/公告日2022-02-11

    原文格式PDF

  • 申请/专利权人 深圳市财富趋势科技股份有限公司;

    申请/专利号CN202111299246.X

  • 发明设计人 郭黎坤;

    申请日2021-11-04

  • 分类号G06F40/174(20200101);G06F40/289(20200101);G06F40/30(20200101);

  • 代理机构44740 深圳市精英创新知识产权代理有限公司;

  • 代理人林燕云

  • 地址 518000 广东省深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园5栋1801

  • 入库时间 2023-06-19 14:09:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-02-11

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号