首页> 外文期刊>Computer standards & interfaces >A focused crawler combinatory link and content model based on T-Graph principles
【24h】

A focused crawler combinatory link and content model based on T-Graph principles

机译:基于T-Graph原理的集中式爬虫组合链接和内容模型

获取原文
获取原文并翻译 | 示例
       

摘要

The two significant tasks of a focused Web crawler are finding relevant documents and prioritizing them for effective download. For the first task, we propose an algorithm to fetch and analyze the most effective HTML elements of the page to predict and elicit the topical focus of each unvisited page with high accuracy. For the second task, we propose a scoring function of the relevant URLs through the use of T-Graph to prioritize each unvisited link. Thus, our novel method uniquely combines these approaches, giving precision and recall values close to 50%, which indicate the significance of the proposed architecture.
机译:重点关注的Web爬网程序的两个重要任务是查找相关文档,并对它们进行优先排序以进行有效下载。对于第一个任务,我们提出一种算法来获取和分析页面的最有效HTML元素,以高精度预测并吸引每个未访问页面的主题焦点。对于第二个任务,我们建议使用T-Graph对相关URL进行评分,以对每个未访问的链接进行优先级排序。因此,我们的新颖方法将这些方法独特地结合在一起,从而提供了接近50%的精度和召回率,这表明了所提出体系结构的重要性。

著录项

  • 来源
    《Computer standards & interfaces》 |2016年第1期|1-11|共11页
  • 作者

    Ali Seyfi; Ahmed Patel;

  • 作者单位

    Department of Computer Science The George Washington University, Washington, DC, United States;

    Faculty of Computer Science and Information Systems, Jazan University, Saudi Arabia,Faculty of Science, Engineering and Computing, Kingston University, United Kingdom;

  • 收录信息 美国《科学引文索引》(SCI);美国《工程索引》(EI);
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

    Focused Web crawler; T-Graph; HTML data; Information retrieval; Search engine;

    机译:专注于Web爬虫;T图HTML数据;信息检索;搜索引擎;
  • 入库时间 2022-08-18 02:12:09

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号