首页> 中国专利> 一种基于URL特征的网站首页识别方法及电子装置

一种基于URL特征的网站首页识别方法及电子装置

摘要

本发明提供一种基于URL特征的网站首页识别方法及电子装置,包括剔除待识别URL首部的http://字符或者https://字符,获取包含http://字符或https://字符的临时变量t1;按照“/”字符对临时变量t1进行拆分,并进行有效性判断;若不能拆分或仅能拆成两部分且第二部分为空,则判断临时变量t1是否包含是二级、三级或四级域名;若仅能拆成两部分、第二部分不为空且第二部分长度小于第一阈值,则判断第二部分是否包含特定字符;若临时变量t1包含是二级、三级或四级域名或第二部分包含特定字符,则判断待识别URL为首页URL。本发明无需训练分类器、人工标注大量数据集及对URL页面内容进行分析,解决了通过语义无法识别嵌套URL的情况,降低了误报率,节省人力与网络资源,提升了识别速度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-18

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号