首页> 中国专利> 一种互联网信息发掘方法

一种互联网信息发掘方法

摘要

本发明公开了一种互联网信息发掘方法,包括:针对互联网站点,归纳其发布网页的规律;针对存在网页发布规律、且发布规律可预测的站点,生成相应的发掘算法,计算当前时刻网页URL生成规则中动态部分的最新值,并输出待采集的URL集合;发布网页URL生成规则,规则包含静态部分与动态部分;发掘行为逻辑,通过网页URL生成规则输出有效的网页URL;采集已生成发掘算法的站点数据,以发掘算法计算生成对应站点的新发布网页URL;网页信息采集程序以发掘算法生成的新发布网页URL为输入进行数据采集。本发明通过一种全新的算法来弥补广度优先搜索算法的缺点,提高互联网采集数据的及时性、完整性和经济性。

著录项

  • 公开/公告号CN108319651B

    专利类型发明专利

  • 公开/公告日2022-02-15

    原文格式PDF

  • 申请/专利权人 南京烽火星空通信发展有限公司;

    申请/专利号CN201711463752.1

  • 发明设计人 沈文凯;李广兵;汪洋;

    申请日2017-12-28

  • 分类号G06F16/958(20190101);G06F16/955(20190101);

  • 代理机构32200 南京经纬专利商标代理有限公司;

  • 代理人杨海军

  • 地址 210019 江苏省南京市建邺区云龙山路88号烽火科技大厦A栋26F

  • 入库时间 2022-08-23 13:07:21

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号