【24h】

Towards a Keyword-Focused Web Crawler

机译:迈向以关键字为中心的网络爬虫

获取原文
获取原文并翻译 | 示例

摘要

This paper concerns predicting the content of textual web documents based on features extracted from web pages that link to them. It may be applied in an intelligent, keyword-focused web crawler. The experiments made on publicly available real data obtained from Open Directory Project1 with the use of several classification models are promising and indicate potential usefulness of the studied approach in automatically obtaining keyword-rich web document collections.
机译:本文涉及根据从链接到文本网页的特征中提取特征来预测文本Web文档的内容。它可以应用于智能的,以关键字为中心的网络爬虫。使用几种分类模型对从Open Directory Project1获得的可公开获得的真实数据进行的实验很有希望,并且表明了该研究方法在自动获取富含关键字的Web文档集合中的潜在实用性。

著录项

  • 来源
  • 会议地点 Warsaw(PL)
  • 作者单位

    Institute of Computer Science, Polish Academy of Sciences, Warsaw, Poland;

    Polish-Japanese Institute of Information Technology, Warsaw, Poland,Institute of Computer Science, Polish Academy of Sciences, Warsaw, Poland;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号