首页> 外文OA文献 >Hyphe, a Curation-Oriented Approach to Web Crawling for the Social Sciences
【2h】

Hyphe, a Curation-Oriented Approach to Web Crawling for the Social Sciences

机译:Hyphe,一种面向策展的社会科学网络爬虫方法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

The web is a field of investigation for social sciences, and platform-based studies have long proven their relevance. However the generic web is rarely studied in itself though it contains crucial aspects of the embodiment of social actors: personal blogs, institutional websites, hobby-specific media… We realized that some sociologists see existing web crawlers as “black boxes” unsuitable for research though they are willing to study the broad web. In this paper we present Hyphe, a crawler developed with and for social scientists, with an innovative “curation-oriented” approach. We expose the problems of using web-mining techniques in social science research and how to overcome those by specific features such as step-by-step corpus building and a memory structure allowing researchers to redefine dynamically the granularity of their “web entities”.
机译:网络是社会科学的研究领域,基于平台的研究早已证明了其相关性。但是,尽管通用网络本身包含体现社会行为者的关键方面:个人博客,机构网站,特定于爱好的媒体……,但很少对其本身进行研究。我们意识到,尽管有些社会学家将现有的网络爬虫视为“黑匣子”,但并不适合进行研究。他们愿意研究广泛的网络。在本文中,我们介绍了Hyphe,这是一种由社会科学家开发并为社会科学家开发的爬虫,具有创新的“面向导向”方法。我们将揭露在社会科学研究中使用网络挖掘技术的问题,以及如何通过特定的功能(例如逐步的语料库构建和允许研究人员动态地重新定义其“网络实体”的粒度)的内存结构来克服这些问题。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号