首页> 外国专利> System and method for automatically detecting and extracting semantically significant text from a HTML document associated with a plurality of HTML documents

System and method for automatically detecting and extracting semantically significant text from a HTML document associated with a plurality of HTML documents

机译:从与多个HTML文档相关联的HTML文档中自动检测和提取语义上有意义的文本的系统和方法

摘要

A system and method for automatically detecting and extracting semantically significant text from a HTML document associated with a plurality of HTML documents is disclosed. The method may include receiving a HTML document, parsing the HTML document into a parse tree, segmenting the parse tree into one or more segments of one or more unique paths, processing the one or more segments based at least the HTML document, and extracting one or more processed segments from the at least the HTML document based on a predetermined number.
机译:公开了一种用于从与多个HTML文档相关联的HTML文档中自动检测和提取语义上有意义的文本的系统和方法。该方法可包括:接收HTML文档;将HTML文档解析为解析树;将解析树划分为一个或多个唯一路径的一个或多个段;至少基于HTML文档处理一个或多个段;以及提取一个至少HTML文件中基于预定数量的一个或多个已处理段。

著录项

  • 公开/公告号US8051372B1

    专利类型

  • 公开/公告日2011-11-01

    原文格式PDF

  • 申请/专利权人 EVAN STAPLETON SANDHAUS;

    申请/专利号US20070734467

  • 发明设计人 EVAN STAPLETON SANDHAUS;

    申请日2007-04-12

  • 分类号G06F17/30;

  • 国家 US

  • 入库时间 2022-08-21 18:10:24

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号