【24h】

Near real-time atrocity event coding

机译:近实时暴行事件编码

获取原文

摘要

In recent years, mass atrocities, terrorism, and political unrest have caused much human suffering. Thousands of innocent lives have been lost to these events. With the help of advanced technologies, we can now dream of a tool that uses machine learning and natural language processing (NLP) techniques to warn of such events. Detecting atrocities demands structured event data that contain metadata, with multiple fields and values (e.g. event date, victim, perpetrator). Traditionally, humans apply common sense and encode events from news stories but this process is slow, expensive, and ambiguous. To accelerate it, we use machine coding to generate an encoded event. In this paper, we develop a near-real-time supervised machine coding technique with an external knowledge base, WordNet, to generate a structured event. We design a Spark-based distributed framework with a web scraper to gather news reports periodically, process, and generate events. We use Spark to reduce the performance bottleneck while processing raw text news using CoreNLP.
机译:近年来,大规模暴行,恐怖主义和政治动荡已造成许多人的痛苦。这些事件使成千上万的无辜者丧生。借助先进的技术,我们现在可以梦想一个使用机器学习和自然语言处理(NLP)技术来警告此类事件的工具。检测暴行需要结构化的事件数据,其中包含元数据,并具有多个字段和值(例如事件日期,受害者,犯罪者)。传统上,人类采用常识并对新闻故事中的事件进行编码,但是此过程缓慢,昂贵且模棱两可。为了加快速度,我们使用机器编码来生成编码事件。在本文中,我们使用外部知识库WordNet开发了一种近乎实时的受监督机器编码技术,以生成结构化事件。我们设计了一个基于Spark的分布式框架,其中包含一个Web抓取工具,用于定期收集新闻报道,处理和生成事件。我们使用Spark来减少使用CoreNLP处理原始文本新闻时的性能瓶颈。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号