СБОР И ИЗВЛЕЧЕНИЕ ДАННЫХ С ВЕБ-САЙТОВ СМИ

А. К. Яцков; М. И. Варламов; Д. Ю. Турдаков

首页> 外文期刊>Программирование >СБОР И ИЗВЛЕЧЕНИЕ ДАННЫХ С ВЕБ-САЙТОВ СМИ

【24h】

СБОР И ИЗВЛЕЧЕНИЕ ДАННЫХ С ВЕБ-САЙТОВ СМИ

机译：来自媒体网站数据的集合和提取数据

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Для понимания текущего состояния и динамики развития информационного пространства сети Интернет необходимы инструменты массового сбора и извлечения данных с сайтов СМИ, обладающие высокими скоростью и покрытием. Однако далеко не все сайты предоставляют синдикацию данных в RSS формате, а разработка специализированных инструментов извлечения данных для каждого веб-сайта является трудозатратной. В работе предлагаются методы, позволяющие автоматически собирать тексты новостей с произвольных сайтов СМИ. За счет классификации типов веб-страниц и последующей группировки их URL адресов, удалось повысить качество извлечения текстов новостей. Также предложена стратегия обхода сайта с выявлением страниц, содержащих списки ссылок на новостные страницы, позволяющая сократить число запросов и снизить нагрузку на сайт.

机译：要了解互联网信息空间的现有状态和动态，需要高速和涂层的媒体网站需要大规模集合和数据提取工具。但是，并非所有网站都以RSS格式提供数据联合，并且每个网站的专业数据提取工具的开发为劳动力。本文提供了允许您自动收集与任意媒体网站的新闻文本的方法。由于网页类型和随后分组其URL地址的分类，可以提高新闻文本的提取质量。还提出了一个站点绕过策略，识别包含与新闻页面的链接列表的页面，允许减少请求的数量并减少站点上的负载。

著录项

来源
《Программирование》 |2018年第5期|共13页
作者
А. К. Яцков; М. И. Варламов; Д. Ю. Турдаков;
展开▼
作者单位

Институт системного программирования им. В.П. Иванникова РАН;

Институт системного программирования им. В.П. Иванникова РАН;

Институт системного программирования им. В.П. Иванникова РАН;

展开▼
收录信息
原文格式 PDF
正文语种 rus
中图分类计算技术、计算机技术;
关键词

相似文献

中文文献
专利

СБОР И ИЗВЛЕЧЕНИЕ ДАННЫХ С ВЕБ-САЙТОВ СМИ

摘要

著录项

相似文献

相关主题

期刊订阅