首页> 外国专利> TITLE INFERENCER

TITLE INFERENCER

机译:字幕推论者

摘要

A method for processing an electronic document (ED) to infer titles in the ED is provided. The method includes: generating a mark-up version of the ED comprising text-styling attributes, text-layout attributes, and text content information of characters included in the ED; generating statistical information of the text-styling and text-layout attributes; calculating, for each text-styling and text-layout attribute, a relative weight score; calculating, for each paragraph in the ED: a styling criteria score and a layout criteria score based on the statistical information and the relative weight scores; a text content score based on the text content information; and a title confidence score based on the styling criteria score, the layout criteria score, and the text content score; and generating a metadata for the ED that includes the title confidence score for each paragraph for use in inferring the titles in the ED.
机译:提供了一种用于处理电子文档(ED)以推断ED中的标题的方法。该方法包括:生成包括文本样式属性,文本布局属性和ED中包括的字符的文本内容信息的ED的标记版本;以及生成文本样式和文本布局属性的统计信息;为每个文本样式和文本布局属性计算相对权重分数;对于ED中的每个段落,基于统计信息和相对权重分数计算样式标准分数和布局标准分数;基于文本内容信息的文本内容分数;基于样式标准分数,布局标准分数和文本内容分数的标题置信度分数;并为ED生成元数据,其中包括每个段落的标题置信度得分,以用于推断ED中的标题。

著录项

  • 公开/公告号US2019251163A1

    专利类型

  • 公开/公告日2019-08-15

    原文格式PDF

  • 申请/专利权人 KONICA MINOLTA LABORATORY U.S.A. INC.;

    申请/专利号US201815897911

  • 发明设计人 DARRELL EUGENE BELLERT;

    申请日2018-02-15

  • 分类号G06F17/27;G06N5/04;

  • 国家 US

  • 入库时间 2022-08-21 12:10:28

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号