首页> 外文期刊>Future generation computer systems >Exploratory analysis of textual data streams
【24h】

Exploratory analysis of textual data streams

机译:文本数据流的探索性分析

获取原文
获取原文并翻译 | 示例

摘要

In this paper, we address exploratory analysis of textual data streams and we propose a bootstrapping process based on a combination of keyword similarity and clustering techniques to: (ⅰ) classify documents into fine-grained similarity clusters, based on keyword commonalities; (ⅱ) aggregate similar clusters into larger document collections sharing a richer, more user-prominent keyword set that we call topic; (ⅲ) assimilate newly extracted topics of current bootstrapping cycle with existing topics resulting from previous bootstrapping cycles, by linking similar topics of different time periods, if any, to highlight topic trends and evolution. An analysis framework is also defined enabling the topic-based exploration of the underlying textual data stream according to a thematic perspective and a temporal perspective. The bootstrapping process is evaluated on a real data stream of about 330.000 newspaper articles about politics published by the New York Times from Jan 1st 1900 to Dec 31st 2015.
机译:在本文中,我们着眼于文本数据流的探索性分析,并提出了一种基于关键字相似度和聚类技术相结合的引导过程,以:(ⅰ)基于关键字相似度将文档分类为细粒度相似度聚类; (ⅱ)将相似的类聚集到更大的文档集中,共享一个我们称为主题的更丰富,更用户关注的关键字集; (ⅲ)通过链接不同时间段的相似主题(如果有的话)来突出主题趋势和演变,从而将当前引导周期的新提取主题与先前引导周期产生的现有主题进行同化。还定义了一个分析框架,从而可以根据主题角度和时间角度对基础文本数据流进行基于主题的探索。引导过程是根据1900年1月1日至2015年12月31日《纽约时报》发表的约330.000篇有关政治的报纸文章的真实数据流进行评估的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号