首页> 外文OA文献 >Web scraping techniques
【2h】

Web scraping techniques

机译:网页抓取技术

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

In this thesis we tried to analyse different methodologies of access to unstructured data on websites. Our main focus was on different techniques of gathering information from presentation layer (HTML parsing) with the use of specific tools that we can find in the open source community as well as downsides of commercial data scrapers and scraping services.udBecause of experience in PHP programming language and a plethora of tools, libraries and products implemented in it, we focused on techniques of web scraping with Curl library in combination with Xpath. Other techniques were also the use of ''headless'' browsers for advanced scraping of data on websites where AJAX requests are used extensively and a tool for automatization of website functionality testing Mink.udWith the rise and demand of webcrawlers many content providers try to disable access for them by tracking access of the bots. There are different uses of anonymization tools and user identification techniques being used on websites that we analyzed, as well as tackled the legislation concerning webscraping and most widely known legal cases in this industry.udLastly, we mentioned positive and negative aspects of the implemented scraper, as well as upgrading and extending the implementation in terms of request parallelization and distributed control on different servers.ud
机译:在本文中,我们试图分析访问网站上非结构化数据的不同方法。我们的主要重点是通过使用我们可以在开源社区中找到的特定工具,以及从商业数据抓取工具和抓取服务的不利方面,使用表示工具从表示层(HTML解析)收集信息的不同技术。 ud由于有PHP的经验编程语言以及用其实现的大量工具,库和产品,我们专注于结合使用Curl库和Xpath进行Web抓取的技术。其他技术还包括使用“无头”浏览器在广泛使用AJAX请求的网站上进行高级数据抓取,以及用于自动进行网站功能测试的工具Mink。 ud随着网络抓取工具的兴起和需求,许多内容提供商试图通过跟踪机器人的访问权限来禁止他们访问。我们分析的网站上使用了匿名化工具和用户标识技术,并解决了有关网络抓取的法律和该行业中最广为人知的法律案件。 ud最后,我们提到了已实现的抓取工具的正面和负面方面,以及在不同服务器上的请求并行化和分布式控制方面升级和扩展实现。 ud

著录项

  • 作者

    Grlica Peter;

  • 作者单位
  • 年度 2013
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"sl","name":"Slovene","id":39}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号