首页> 中国专利> 一种基于DOM网页剪枝的相似网页查找方法及系统

一种基于DOM网页剪枝的相似网页查找方法及系统

摘要

本发明提供了一种基于DOM网页剪枝的相似网页查找方法及系统,其包括步骤:输入数据格式化:获取网页的数字化标识;相似网页查找:在存储网页数字化标识的数据库中查找相似网页。其中,所述获取网页的数据化标识具体包括以下步骤:网页数据格式化:获取输入网页的HTML源代码;网页净化:去除网页中的冗余信息;生成网页的DOM树:对网页进行DOM解析,生成DOM树;精炼的DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。本发明方法能够提高海量网页中相似网页的查找效率。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-12

    授权

    授权

  • 2019-05-07

    著录事项变更 IPC(主分类):G06F 17/22 变更前: 变更后: 申请日:20180720

    著录事项变更

  • 2019-05-07

    著录事项变更 IPC(主分类):G06F 17/22 变更前: 变更后: 申请日:20180720

    著录事项变更

  • 2019-01-15

    实质审查的生效 IPC(主分类):G06F 17/22 申请日:20180720

    实质审查的生效

  • 2019-01-15

    实质审查的生效 IPC(主分类):G06F 17/22 申请日:20180720

    实质审查的生效

  • 2019-01-15

    实质审查的生效 IPC(主分类):G06F 17/22 申请日:20180720

    实质审查的生效

  • 2018-12-21

    公开

    公开

  • 2018-12-21

    公开

    公开

  • 2018-12-21

    公开

    公开

  • 2018-12-21

    公开

    公开

查看全部

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号