首页> 外文期刊>情報処理 >100億規模のwebページ収集・分析への挑戦
【24h】

100億規模のwebページ収集・分析への挑戦

机译:收集和分析100亿个网页的挑战

获取原文
获取原文并翻译 | 示例
       

摘要

Webページ数は,2006年11月時点で537憶ページrnと推測されている.我々は,2004年1月~2006年rn7片の間に,全世界の5,548万台のWebサーバからテrnキストのみを対象に収集を行い,ユニークなWebペーrnジ数として約144.5憶ページを収集した.また,収集rn済みWebページに対して,トップレベルドメイン分布,rn記述言語分布,Webサーバの地理的位置の解析,バッrnクリンク解析やPageRank計算を進め,Web空間のrn現状分析を行った.さらに,Webページの解析がビジrnネスに利用可能であることを示すために,企業のWebrnサイト上の活動を可視化するe企業調査プロトタイプrnを構築し,企業の特徴,戦略,評判などの抽出を行った.
机译:截至2006年11月,网页数量估计为5370亿页。从2004年1月到2006年,我们仅从全球5548万台Web服务器中收集了三者,并收集了约1445亿个唯一Web页面。我收集了此外,我们分析了顶级域分布,描述语言分布,Web服务器地理位置分析,谷仓链接分析和收集的rn个Web页面的PageRank计算,并分析了Web空间的当前状态。此外,为了显示对网页的分析可用于业务,我们构建了一个电子公司调查原型rn,该模型可视化了公司Webrn站点上的活动并提取了公司的特征,策略和声誉。已完成。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号