首页> 中文会议>2014全国高性能计算学术年会 >一个面向文本数据的统计分析系统

一个面向文本数据的统计分析系统

摘要

伴随信息社会的迅猛发展,大量数据不断地产生出来.这其中,有相当一部分是由电信网络以及社交网络产生的文本数据,如短信、彩信、微博客、即时通讯等.随着上述应用的不断普及与发展,数据产生的速度也在不断地增长,这给数据分析带来新的挑战.在某些应用场景下,对文本数据分析具有较高的性能要求,因此需要分析系统具有良好的实时分析响应能力.然而,面向通用数据类型而设计的分析系统,如数据库、数据仓库等,虽然可以对文本数据进行分析,但受限于本身的设计特点,很难达到快速分析、实时响应的要求.为此,设计并实现了一个面向海量文本数据的统计分析系统Seal.该系统采用无共享架构,并使用类似并行数据库的并行处理引擎,使得系统具有良好的执行响应时间.通过增加细粒度的索引,使得系统具有高效的数据访问性能.实验中使用Hive、Impala及Shark作为对比系统,评测结果表明,在进行文本数据统计分析时,相较与对比系统,Seal具有两个数量级的性能优势;而在SSBM测试集上的测试表明,Seal在非文本类型数据分析中,其性能也优于其它系统.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号