首页> 中国专利> 基于网页页面布局提取网页核心内容的系统、方法

基于网页页面布局提取网页核心内容的系统、方法

摘要

本发明提供一种提取网页的核心内容的网页核心内容提取系统和方法,该系统接收HTML文档(网页)并从其中提取核心内容,所述系统包括:文本块分析器,用于以HTML标记作为定界符将输入的HTML文档中的每个有用基本结构中的文本片断分段为一个或多个独立的文本块,并将出现在每个有用基本结构中的所有文本块依次连接起来作为输出,其中所述有用基本结构为包含网页核心内容的基本结构;以及文本块检查器,用于从文本块分析器依次输出的所述文本块中去除不含网页的核心内容的文本块并输出余下的文本块作为网页核心内容。通过针对每个文本块确定是否含有广告和导航信息,从而能够精确地确定网页中包括的核心内容。本发明还提高了处理效率。

著录项

  • 公开/公告号CN100432996C

    专利类型发明授权

  • 公开/公告日2008-11-12

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN200410100059.4

  • 发明设计人 马立;苏中;刘世霞;潘越;

    申请日2004-12-07

  • 分类号G06F17/30(20060101);G06F17/22(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人黄小临;王志森

  • 地址 美国纽约州

  • 入库时间 2022-08-23 09:01:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-23

    未缴年费专利权终止 IPC(主分类):G06F 17/30 授权公告日:20081112 终止日期:20171207 申请日:20041207

    专利权的终止

  • 2010-12-08

    专利权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20101101 申请日:20041207

    专利申请权、专利权的转移

  • 2010-12-08

    专利权的转移 IPC(主分类):G06F 17/30 变更前: 变更后: 登记生效日:20101101 申请日:20041207

    专利申请权、专利权的转移

  • 2008-11-12

    授权

    授权

  • 2008-11-12

    授权

    授权

  • 2006-08-09

    实质审查的生效

    实质审查的生效

  • 2006-08-09

    实质审查的生效

    实质审查的生效

  • 2006-06-14

    公开

    公开

  • 2006-06-14

    公开

    公开

查看全部

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号