首页> 外文OA文献 >Methodologies for crawler based Web surveys.
【2h】

Methodologies for crawler based Web surveys.

机译:基于爬虫的Web调查的方法。

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

There have been many attempts to study the content of the Web, either through human or automatic agents. Describes five different previously used Web survey methodologies, each justifiable in its own right, but presents a simple experiment that demonstrates concrete differences between them. The concept of crawling the Web also bears further inspection, including the scope of the pages to crawl, the method used to access and index each page, and the algorithm for the identification of duplicate pages. The issues involved here will be well-known to many computer scientists but, with the increasing use of crawlers and search engines in other disciplines, they now require a public discussion in the wider research community. Concludes that any scientific attempt to crawl the Web must make available the parameters under which it is operating so that researchers can, in principle, replicate experiments or be aware of and take into account differences between methodologies. Also introduces a new hybrid random page selection methodology.
机译:已经尝试了许多通过人工或自动代理研究Web内容的尝试。描述了五种以前使用过的Web调查方法,每种方法本身都是合理的,但是提供了一个简单的实验来证明它们之间的具体差异。爬网的概念还需要进一步检查,包括要爬网的页面范围,用于访问和索引每个页面的方法以及用于标识重复页面的算法。这里涉及的问题对于许多计算机科学家来说都是众所周知的,但是,随着其他学科中对爬虫和搜索引擎的越来越多的使用,它们现在需要在更广泛的研究社区中进行公开讨论。结论是,任何科学上尝试爬网的尝试都必须提供其操作所依据的参数,以便研究人员原则上可以复制实验或了解并考虑方法之间的差异。还介绍了一种新的混合随机页面选择方法。

著录项

  • 作者

    Thelwall Mike;

  • 作者单位
  • 年度 2002
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"en","name":"English","id":9}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号