首页> 外文期刊>電子情報通信学会技術研究報告 >100億規模のWbbページ収集とその活用
【24h】

100億規模のWbbページ収集とその活用

机译:100亿个Wbb页面的收集及其利用

获取原文
获取原文并翻译 | 示例
       

摘要

The number of Web pages distributed from Web servers is estimated about 53.7 billion as of Oct. 2005. We had gathered 14,456,201,906 Web pages from 5,548 Web servers during Jan. 2004 to July 2006. It had been conducted as part of e-Society project which is one of MEXT, Ministry of Education, Culture, Sports, Science and Technology, leading projects. Speedup of crawling Web pages conflicts with Web-site friendly crawling, however, both are indispensable for gathering Web pages. In the project, we have studied and proposed a dynamic delay adjustment scheme for accessing Web servers to prevent hammering them. Moreover, many know-how including access control for Web servers have been studied. As for the analysis, written language distribution, top level domain distribution and geographical location distribution of 10.7 billion of Web pages were calculated. Besides that, back-link analysis and PageRank calculation among Web servers were done. In this talk, I will introduce a crawling technique for gathering large amount of Web pages and applications for best use of gathered Web pages.%インターネット上のWeb サーバから発信されるWebページ数は,2005年10月時点で537億ページと推測されている.我々は文部科学省のe-Society プロジェクトの一環として,2004年1月~2006年7月未の間に,全世界の5,548 万台のWeb サーバからユニークWeb ページ数として14,456,201,906 ページを収集した.収集にあたっては,高速収集の実現と相手Web サーバへの負担軽減といった相反する事項の両立が重要である.本プロジェクトでの実験を通じて,Web サーバへのリクエスト間隔の動的な調整,アクセスコントロール等,様々なノウハウを蓄積することができた.また,収集済Web ページの約107億ページを対象に,記述書語分布,トップレベルドメイン分布,Web サーバの地理的位置の解析,Wbb サーバ単位でのバックリンク解析やPageRank 計算を進めてきた. 本講演では,これまでの経験を踏まえ,大規模なWib ページ収集を行うためのクロール技術とWeb ページの活用について述べる.
机译:截至2005年10月,从Web服务器分发的Web页面的数量估计约为537亿个。在2004年1月至2006年7月期间,我们已经从5,548个Web服务器中收集了14,456,201,906个Web页面。是教育,文化,体育,科学和技术部MEXT的领先项目之一。爬网的加速与网站友好的爬网冲突,但是,这两者对于收集网页都是必不可少的。在该项目中,我们研究并提出了一种动态延迟调整方案,用于访问Web服务器,以防止锤击它们。此外,还研究了许多专有技术,包括Web服务器的访问控制。分析时,计算出了107亿个网页的书面语言分布,顶级域分布和地理位置分布。除此之外,还完成了Web服务器之间的反向链接分析和PageRank计算。在本次演讲中,我将介绍一种用于收集大量Web页面的爬网技术以及可以最佳利用所收集Web页面的应用程序。%イターネット上のWebサーバから発信されるWebページ数は,2005年10月时点で537亿我々は文部科学省のe-Societyプロジェクトの一环として,2004年1月〜2006年7月未の间に,全世界の5,548万台のWebサーバからユニークWebページ数として14,456,201,906ページを收集した。收集にあたっては,高速收集の実现と相手调整,アクセスコントロール等,様々なノウハウを蓄积することができた。また,收集済Webページの约107亿ページを対象に,记述书语分布,トップレベルドメイン分布,Webサーバの地理的位置の解析,Wbbサーバ単位でのバックリンク解析やPageRank计算を进めてきた。本讲演では,これまでの経験を踏まえ,大规模なWibページ收集を行うためのクロール技术とWebページの活用について述べる。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号