首页> 外国专利> DOCUMENT INFORMATION EXTRACTION METHOD AND SYSTEM BASED ON BODY TEXT IDENTIFICATION

DOCUMENT INFORMATION EXTRACTION METHOD AND SYSTEM BASED ON BODY TEXT IDENTIFICATION

机译:基于正文文本识别的文档信息提取方法和系统

摘要

A document information extraction method and a system based on text identification are provided to prevent the unrelated string to the user willing of the web document from being expressed by excluding the expression without the main information from the title substitute expression. A document is parsed(S110), and the document is divided according to the sections by referring to the parsing information(S120). The text section of the document is recognized according to the predetermined reference containing at least one of the ratio of the text without a link attribute to each section, the quantity of the section occupied in the total document, the section size, and the section position information(S130). The position of the text content is recognized according to the predetermined reference containing at least one of the position in which a line is changed in the text content, and the text width.
机译:提供了一种基于文本识别的文档信息提取方法和系统,以通过从标题替换表达式中排除没有主要信息的表达式来防止表达与Web文档的用户意愿无关的字符串。解析文档(S110),并且通过参考解析信息按照部分将文档划分(S120)。根据预定参考识别文档的文本部分,该预定参考包含以下至少一项:没有链接属性的文本与每个部分的比例,整个文档中所占部分的数量,部分大小以及部分位置信息(S130)。根据预定参考识别文本内容的位置,该预定参考包含文本内容中的行被改变的位置和文本宽度中的至少一个。

著录项

  • 公开/公告号KR20070100184A

    专利类型

  • 公开/公告日2007-10-10

    原文格式PDF

  • 申请/专利权人 CHUTNOON CO. LTD.;

    申请/专利号KR20070043587

  • 发明设计人 KIM BYUNG HAK;KIM CHANG HA;

    申请日2007-05-04

  • 分类号G06F17/21;G06F17/30;

  • 国家 KR

  • 入库时间 2022-08-21 20:33:25

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号