【24h】

Distributed Web Crawlers using Hadoop

机译:使用Hadoop分布式Web爬虫器

获取原文
获取原文并翻译 | 示例
           

摘要

Web Crawler is a software, which crawls through the WWW to build database for a search engine. In recent years, web crawling has started facing many challenges. Firstly, the web pages are highly unstructured which makes it difficult to maintain a generic schema for storage. Secondly, the WWW is too huge and it is impossible to index it as it is. Finally, the most difficult challenge is to crawl the deep web. Here we are proposing a novel web crawler, which uses Neo4J, HBase as data stores. It also applies Natural Language Processing (NLP) and machine learning techniques to resolve the above-mentioned problems.
机译:Web爬网程序是一种软件,它通过WWW爬行以构建搜索引擎的数据库。 近年来,网络爬行已经开始面临许多挑战。 首先,网页是高度非结构化的,这使得难以维持用于存储的通用模式。 其次,WWW太大了,因为它是不可能索引它。 最后,最困难的挑战是爬行深媒体。 在这里,我们正在提出一种新颖的Web爬网,它使用Neo4j,HBase作为数据存储。 它还应用自然语言处理(NLP)和机器学习技术来解决上述问题。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号