首页> 中国专利> 基于CART决策树的URL分类方法及装置

基于CART决策树的URL分类方法及装置

摘要

本发明涉及一种基于CART决策树的URL分类方法及装置,其中,方法包括:根据统一资源定位符URL的预设特征以及各个预设特征的类别构建用于训练CART决策树的训练集;根据各预设特征对训练集的分类能力确定CART决策树的每一节点的特征;根据训练集和预设终止条件从CART决策树的根节点开始递归每一节点,以构建CART决策树;利用构建的CART决策树对爬虫系统爬取的URL的特征进行分类,以根据分类的结果对爬取的URL进行分类。本发明实现了将CART应用于爬虫系统中,可以将网页解析得到的大量URL以主题相关度为主要特征进行分级,使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页,在节约资源的同时,也直接减少了后续的数据清洗工作。

著录项

  • 公开/公告号CN108228656B

    专利类型发明专利

  • 公开/公告日2021-05-25

    原文格式PDF

  • 申请/专利权人 普天信息技术有限公司;

    申请/专利号CN201611195732.6

  • 发明设计人 李乃鹏;胡炜;

    申请日2016-12-21

  • 分类号G06F16/955(20190101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人李相雨

  • 地址 100080 北京市海淀区海淀北二街6号普天大厦

  • 入库时间 2022-08-23 11:50:54

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号