首页> 外国专利> Page frame and page coordinate determination method and system based on sequential regularities

Page frame and page coordinate determination method and system based on sequential regularities

机译:基于顺序规则的页面框架和页面坐标确定方法及系统

摘要

Disclosed is a method that generates a page frame structure associated with a sequentially-ordered set of pages, each being characterized by a set of page frame features. N-grams (sequence of n features) are computed from a set for n contiguous pages, and n-grams which are repetitive (Kleene cross) are selected. Pages matching the most frequent repetitive n-ram are grouped together under a new node, and a new sequence is created. The method is iteratively applied to this new sequence. The output is an ordered set of trees.
机译:公开了一种生成与依次排序的页面集合相关联的页面框架结构的方法,每个页面的特征在于一组页面框架特征。从一组连续的n个连续页面中计算出n-gram(n个特征的序列),然后选择重复性(克林十字)的n-gram。匹配最频繁重复n-ram的页面在新节点下分组在一起,并创建新序列。该方法被迭代地应用于此新序列。输出是一组有序的树。

著录项

  • 公开/公告号US9189461B2

    专利类型

  • 公开/公告日2015-11-17

    原文格式PDF

  • 申请/专利权人 XEROX CORPORATION;

    申请/专利号US201313943263

  • 发明设计人 HERVÉ DÉJEAN;

    申请日2013-07-16

  • 分类号G06F17;G06F17/21;G06K9/62;G06K9/72;G06F17/22;G06K9;

  • 国家 US

  • 入库时间 2022-08-21 14:30:33

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号