首页> 中文期刊> 《九江学院学报:自然科学版》 >排名于后的深层Web数据源爬取

排名于后的深层Web数据源爬取

         

摘要

在大数据时代,绝大多数数据并非来自表面Web,多数需求数据是通过超链接互连的Web引擎。相反,宝贵的数据库通常存在于深层网络中,即隐藏的网络-在查询接口后端。自从众多应用程序,如垂直门户网站,需要深入的Web数据,各种爬行方法都是以最小(或接近最小)的成本收获深度Web数据源。在实践中,数据源通常返回前k个对应的值匹配。这使得详尽的数据收集难度增加:高排名的文件将被多次返回,而文件排名靠后的低排名文件出现可能性很小。文章将此问题分解为两个正交子问题,即基于查询和排序的偏差问题,并提出一个基于频率的爬行方法克服了排序偏差问题。方法是使用文档频率在指定范围内进行查询,避免搜索排名加上返回限制的影响,大大降低了爬行排名靠后的深层数据源挖掘。该方法在各种数据集上进行了广泛的测试与现有的两种方法相比,实验结果证明了文中的方法更加优越。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号