首页> 美国卫生研究院文献>other >Vigi4Med Scraper: A Framework for Web Forum Structured Data Extraction and Semantic Representation
【2h】

Vigi4Med Scraper: A Framework for Web Forum Structured Data Extraction and Semantic Representation

机译:Vigi4Med Scraper:Web论坛结构化数据提取和语义表示的框架

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

The extraction of information from social media is an essential yet complicated step for data analysis in multiple domains. In this paper, we present Vigi4Med Scraper, a generic open source framework for extracting structured data from web forums. Our framework is highly configurable; using a configuration file, the user can freely choose the data to extract from any web forum. The extracted data are anonymized and represented in a semantic structure using Resource Description Framework (RDF) graphs. This representation enables efficient manipulation by data analysis algorithms and allows the collected data to be directly linked to any existing semantic resource. To avoid server overload, an integrated proxy with caching functionality imposes a minimal delay between sequential requests. Vigi4Med Scraper represents the first step of Vigi4Med, a project to detect adverse drug reactions (ADRs) from social networks founded by the French drug safety agency Agence Nationale de Sécurité du Médicament (ANSM). Vigi4Med Scraper has successfully extracted greater than 200 gigabytes of data from the web forums of over 20 different websites.
机译:从社交媒体中提取信息是在多个领域进行数据分析的必不可少而又复杂的步骤。在本文中,我们介绍了Vigi4Med Scraper,这是一个通用的开源框架,用于从Web论坛中提取结构化数据。我们的框架是高度可配置的;使用配置文件,用户可以自由选择要从任何Web论坛提取的数据。使用资源描述框架(RDF)图将提取的数据匿名化并以语义结构表示。这种表示使数据分析算法能够进行有效的操作,并使收集的数据直接链接到任何现有的语义资源。为避免服务器过载,具有缓存功能的集成代理在顺序请求之间施加了最小的延迟。 Vigi4Med Scraper代表了Vigi4Med的第一步,Vigi4Med是一个由法国药物安全局(Agence Nationale deSécuritéduMédicament)建立的社交网络,用于检测不良药物反应(ADR)的项目。 Vigi4Med Scraper已成功从20多个不同网站的网络论坛中提取了200 GB以上的数据。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号