【24h】

Identifying Websites with Flow Simulation

机译:使用Flow Simulation识别网站

获取原文
获取原文并翻译 | 示例

摘要

We present in this paper a method to discover the set of webpages contained in a logical website, based on the link structure of the Web graph. Such a method is useful in the context of Web archiving and website importance computation. To identify the boundaries of a website, we combine the use of an online version of the preflow-push algorithm, an algorithm for the maximum flow problem in traffic networks, and of the Markov CLuster (MCL) algorithm. The latter is used on a crawled portion of the Web graph in order to build a seed of initial webpages, a seed which is extended using the former. An experiment on a subsite of the INRIA Website is described.
机译:我们在本文中提出了一种基于Web图的链接结构来发现逻辑网站中包含的网页集的方法。这种方法在Web归档和网站重要性计算的上下文中很有用。为了确定网站的边界,我们结合使用在线版本的预流推算法,用于交通网络中最大流量问题的算法以及马尔可夫·克鲁斯特(MCL)算法。后者用于Web图的爬网部分,以构建初始网页的种子,该种子使用前者进行扩展。描述了在INRIA网站的子网站上进行的实验。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号