首页> 外国专利> METHOD AND DEVICE FOR CRAWLING TARGET CORPUS DATA, AND STORAGE MEDIUM

METHOD AND DEVICE FOR CRAWLING TARGET CORPUS DATA, AND STORAGE MEDIUM

机译:检索目标语料库数据和存储介质的方法和设备

摘要

Provided is a method for crawling target corpus data. The method comprises: after a crawling request for target information is received, firstly determining a crawling rule required for crawling a target corpus, and invoking the crawling rule to sequentially crawl a first title page URL list, a first list page URL list and a first content page URL list from an initial corpus; and then crawling a second list page URL list corresponding to the first title page URL list, generating a third list page URL list, crawling a second content page URL list corresponding to the third list page URL list, and generating a third content page URL list, so as to acquire content page data; and finally, using a target information crawling rule to crawl the target information, so as to generate target corpus data. Further provided are an electronic device and a computer storage medium. By means of using the above-mentioned method, the efficiency and accuracy of crawling target corpus data are improved.
机译:提供了一种用于爬行目标语料库数据的方法。该方法包括:在接收到对目标信息的爬取请求后,首先确定对目标语料库进行爬取所需的爬取规则,并调用该爬取规则以依次对第一标题页面URL列表,第一列表页面URL列表和第一页面URL列表进行爬取。初始语料库的内容页面URL列表;然后爬行与第一标题页面URL列表相对应的第二列表页面URL列表,生成第三列表页面URL列表,爬行与第三列表页面URL列表相对应的第二内容页面URL列表,并生成第三内容页面URL列表,以获取内容页面数据;最后,使用目标信息爬行规则对目标信息进行爬行,以生成目标语料库数据。还提供了电子设备和计算机存储介质。通过使用上述方法,提高了目标语料库数据爬行的效率和准确性。

著录项

  • 公开/公告号WO2020024403A1

    专利类型

  • 公开/公告日2020-02-06

    原文格式PDF

  • 申请/专利权人 PING AN TECHNOLOGY (SHENZHEN) CO. LTD.;

    申请/专利号WO2018CN107489

  • 发明设计人 WU ZHUANGWEI;

    申请日2018-09-26

  • 分类号G06F16/955;

  • 国家 WO

  • 入库时间 2022-08-21 11:13:38

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号