...
首页> 外文期刊>Программирование >СБОР И ИЗВЛЕЧЕНИЕ ДАННЫХ С ВЕБ-САЙТОВ СМИ
【24h】

СБОР И ИЗВЛЕЧЕНИЕ ДАННЫХ С ВЕБ-САЙТОВ СМИ

机译:来自媒体网站数据的集合和提取数据

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

Для понимания текущего состояния и динамики развития информационного пространства сети Интернет необходимы инструменты массового сбора и извлечения данных с сайтов СМИ, обладающие высокими скоростью и покрытием. Однако далеко не все сайты предоставляют синдикацию данных в RSS формате, а разработка специализированных инструментов извлечения данных для каждого веб-сайта является трудозатратной. В работе предлагаются методы, позволяющие автоматически собирать тексты новостей с произвольных сайтов СМИ. За счет классификации типов веб-страниц и последующей группировки их URL адресов, удалось повысить качество извлечения текстов новостей. Также предложена стратегия обхода сайта с выявлением страниц, содержащих списки ссылок на новостные страницы, позволяющая сократить число запросов и снизить нагрузку на сайт.
机译:要了解互联网信息空间的现有状态和动态,需要高速和涂层的媒体网站需要大规模集合和数据提取工具。但是,并非所有网站都以RSS格式提供数据联合,并且每个网站的专业数据提取工具的开发为劳动力。本文提供了允许您自动收集与任意媒体网站的新闻文本的方法。由于网页类型和随后分组其URL地址的分类,可以提高新闻文本的提取质量。还提出了一个站点绕过策略,识别包含与新闻页面的链接列表的页面,允许减少请求的数量并减少站点上的负载。

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号