首页> 中国专利> 应用于网页中DOM树处理方法

应用于网页中DOM树处理方法

摘要

本发明公开了一种应用于网页中DOM树处理方法,包括以下步骤:步骤S10,获取目标网页所对应的DOM树,删除DOM树中无效信息;步骤S20,计算目标网页中子节点的文本密度和链接密度;步骤S30,根据文本密度和链接密度计算第一权重,判断第一权重是否大于第一预设阈值,若第一权重大于第一预设阈值,则确定对应的子节点为正文标签;步骤S40,在DOM树中根据正文标签确定标题和作者;步骤S50,在DOM树中对内容节点进行降噪处理;步骤S60,根据目标网页的网站域名保留DOM树模型。本发明,能够建立与目标网页匹配度高的DOM树,以便于用户在后续过程中的信息检索,适应不同类型的网站。

著录项

  • 公开/公告号CN111651694A

    专利类型发明专利

  • 公开/公告日2020-09-11

    原文格式PDF

  • 申请/专利权人 深圳市比一比网络科技有限公司;

    申请/专利号CN202010436191.1

  • 发明设计人 詹锦州;杜卫红;谢立欧;

    申请日2020-05-21

  • 分类号G06F16/955(20190101);G06F16/958(20190101);

  • 代理机构44248 深圳市科吉华烽知识产权事务所(普通合伙);

  • 代理人胡吉科

  • 地址 518000 广东省深圳市南山区科苑北路讯美科技大厦1栋3楼306室

  • 入库时间 2023-06-19 08:14:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-29

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号