首页> 中国专利> 一种通用的网页主题内容提取方法和系统

一种通用的网页主题内容提取方法和系统

摘要

本发明特别涉及一种通用的网页主题内容提取方法和系统,方法包括以下步骤:构建目标网页的DOM树,对DOM树的节点进行清理,并按照与正文内容的相关性对剩余节点进行属性标记;遍历DOM树,将DOM树的剩余节点分类缓存;根据各个类别中节点与所述可视标题节点的距离判断所述节点的内容是否为主题内容,并根据判断结果完成对目标网页主题内容的提取。本发明提供了一种更为优化的基于语义的网页信息抽取方法,其基于页面结构上存在的强关联关系,对DOM树的正文可视标题节点进行识别并对其他节点进行分类缓存,然后以DOM树中其他类别节点与正文可视标题节点的距离作为判定节点是否属于主题内容的重要依据,从而提高了网页信息抽取的精度和效率。

著录项

  • 公开/公告号CN108920434A

    专利类型发明专利

  • 公开/公告日2018-11-30

    原文格式PDF

  • 申请/专利权人 武汉酷犬数据科技有限公司;

    申请/专利号CN201810572726.0

  • 发明设计人 钟刚;

    申请日2018-06-06

  • 分类号

  • 代理机构北京一格知识产权代理事务所(普通合伙);

  • 代理人赵永伟

  • 地址 430000 湖北省武汉市东湖高新技术开发区光谷软件园A1-F10

  • 入库时间 2023-06-19 07:29:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-25

    实质审查的生效 IPC(主分类):G06F17/22 申请日:20180606

    实质审查的生效

  • 2018-11-30

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号