首页> 中国专利> 网页相似度计算方法、装置、设备、计算机可读存储介质

网页相似度计算方法、装置、设备、计算机可读存储介质

摘要

本发明提供了一种网页相似度计算方法、装置、设备、计算机可读存储介质,属于数据处理技术领域。网页相似度计算方法包括:获取待比较网页的DOM树,并对DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块;根据布局块的坐标对待比较网页的布局块分别进行横向划分,得到N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本发明能够准确计算出两个网页间的相似度。

著录项

  • 公开/公告号CN109657208A

    专利类型发明专利

  • 公开/公告日2019-04-19

    原文格式PDF

  • 申请/专利权人 株式会社理光;

    申请/专利号CN201710934918.7

  • 申请日2017-10-10

  • 分类号

  • 代理机构北京银龙知识产权代理有限公司;

  • 代理人黄灿

  • 地址 日本东京都

  • 入库时间 2024-02-19 09:26:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-14

    实质审查的生效 IPC(主分类):G06F17/22 申请日:20171010

    实质审查的生效

  • 2019-04-19

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号