首页> 外国专利> METHOD TO IDENTIFY AND EXTRACT FRAGMENTS AMONG LARGE COLLECTIONS OF DIGITAL DOCUMENTS USING REPEATABILITY AND SEMANTIC INFORMATION

METHOD TO IDENTIFY AND EXTRACT FRAGMENTS AMONG LARGE COLLECTIONS OF DIGITAL DOCUMENTS USING REPEATABILITY AND SEMANTIC INFORMATION

机译:利用可重复性和语义信息在大量数字文档中识别和提取片段的方法

摘要

Techniques for processing of digital documents using, for example, algorithms including deep learning and deep neural networks (“DNN”), to extract fragments across a corpus of documents. The extracted fragments can then be edited individual and referenced by a plurality of documents so that changes to the fragments are reflected universally across a corpus of documents efficiently. In one example case, a computer-implemented method is provided for extracting fragments in a digital document. The method includes indexing said document to generate a document element ID sequence; processing said document element ID sequence to generate at least one fragment candidate; processing said at least one fragment candidate to generate at least one respective fragment; and utilizing said at least one fragment to perform a reconstruction of said document.
机译:用于处理数字文档的技术,例如,使用包括深度学习和深度神经网络(“ DNN”)在内的算法来提取整个文档集的片段。然后可以单独编辑提取的片段,并由多个文档进行引用,以便对片段的更改可以有效地在整个文档集中反映出来。在一个示例情况下,提供了一种计算机实现的方法,用于提取数字文档中的片段。该方法包括索引所述文档以生成文档元素ID序列;以及处理所述文档元素ID序列以产生至少一个片段候选;处理所述至少一个片段候选以生成至少一个相应的片段;利用所述至少一个片段来重构所述文档。

著录项

  • 公开/公告号US2019108277A1

    专利类型

  • 公开/公告日2019-04-11

    原文格式PDF

  • 申请/专利权人 ADOBE INC.;

    申请/专利号US201715729833

  • 发明设计人 SALIL TANEJA;ARNEH JAIN;

    申请日2017-10-11

  • 分类号G06F17/30;G06F17/22;

  • 国家 US

  • 入库时间 2022-08-21 12:10:23

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号