【24h】

Mining the Twentieth Century's History from the Time Magazine Corpus

机译:从时间杂志语料库中挖掘二十世纪的历史

获取原文

摘要

In this paper we report on an explorative study of the history of the twentieth century from a lexical point of view. As data, we use a diachronic collection of 270,000+ English-language articles harvested from the electronic archive of the well-known Time Magazine (1923-2006). We attempt to automatically identify significant shifts in the vocabulary used in this corpus using efficient, yet unsuper-vised computational methods, such as Parsimonious Language Models. We offer a qualitative interpretation of the outcome of our experiments in the light of momentous events in the twentieth century, such as the Second World War or the rise of the Internet. This paper follows up on a recent string of frequentist approaches to studying cultural history ('Culturomics'), in which the evolution of human culture is studied from a quantitative perspective, on the basis of lexical statistics extracted from large, textual data sets.
机译:在本文中,我们从词汇角度来报告对二十世纪历史的探索性研究。 作为数据,我们使用从知名时间杂志(1923-2006)的电子档案中收获的270,000多个英语文章的历时谐波收集。 我们尝试使用高效,令人难过的计算方法自动识别本语料库中使用的词汇表中的重大转变,例如解析语言模型。 我们根据二十世纪的重点活动提供了对我们实验结果的定性解释,例如第二次世界大战或互联网的崛起。 本文在最近的一系列常见途径审视文化历史('Culturomics')的情况下,在从大型文本数据集中提取的词汇统计数据的基础上,研究了人类文化的演变。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号