首页> 中国专利> 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法

基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法

摘要

本发明公开了一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,属于网页搜索引擎技术领域,本发明是针对网页中动态变化的主题词垂直搜索引擎中的网页识别方法研究,主要研究如何判断一个动态变化的网页是否与主题词相关,通过计算页面的主题词关联度,筛出与综合主题词关联度较大的URL进入待爬行队列,利用垂直搜索和聚焦爬虫技术获得网页的分类信息,设计了网页分类识别模型和算法,通过对动态变化的网页识别,获得不同分类的URL,为用户对提供网页的精准搜索,也能给出未知的URL所属网页分类。本发明对于动态网页的分类识别具有非常广泛的意义和较高的应用价值。

著录项

  • 公开/公告号CN106649823A

    专利类型发明专利

  • 公开/公告日2017-05-10

    原文格式PDF

  • 申请/专利权人 淮海工学院;

    申请/专利号CN201611247621.5

  • 申请日2016-12-29

  • 分类号G06F17/30(20060101);

  • 代理机构北京市领专知识产权代理有限公司;

  • 代理人林辉轮

  • 地址 222005 江苏省连云港市海州区苍梧路59号

  • 入库时间 2023-06-19 02:06:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20161229

    实质审查的生效

  • 2017-05-10

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号