首页> 外文OA文献 >Discovery driven analysis on semi-structured text data
【2h】

Discovery driven analysis on semi-structured text data

机译:半结构化文本数据的发现驱动分析

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Discovery Driven Analysis (DDA) is a common feature of OLAP technology to analyze structured data. In essence, DDA helps analysts to discover anomalous data by highlighting 'unexpected' values in the OLAP cube. By giving indications to the analyst on what dimensions to explore, DDA speeds up the process of discovering anomalies and their causes. However, Discovery Driven Analysis (and OLAP in general) is only applicable on structured data, such as records in databases. We propose a system to extend DDA technology to semi-structured text documents, that is, text documents with a few structured data. Our system pipeline consists of two stages: first, the text part of each document is structured around user specified dimensions, using semi-PLSA algorithm; then, we adapt DDA to these fully structured documents, thus enabling DDA on text documents. We present some applications of this system in OLAP analysis and show how scalability issues are solved. Results show that our system can handle reasonable datasets of documents, in real time, without any need for pre-computation.
机译:发现驱动分析(DDA)是OLAP技术的一项常见功能,用于分析结构化数据。本质上,DDA通过在OLAP多维数据集中突出显示“意外”值来帮助分析人员发现异常数据。通过向分析人员指示要探索的维度,DDA加快了发现异常及其原因的过程。但是,发现驱动分析(通常是OLAP)仅适用于结构化数据,例如数据库中的记录。我们提出了一种将DDA技术扩展到半结构化文本文档(即具有少量结构化数据的文本文档)的系统。我们的系统管道包括两个阶段:首先,使用半PLSA算法围绕用户指定的维度来构造每个文档的文本部分;然后,我们使DDA适应这些完全结构化的文档,从而在文本文档上启用DDA。我们介绍了该系统在OLAP分析中的一些应用,并展示了如何解决可伸缩性问题。结果表明,我们的系统可以实时处理合理的文档数据集,而无需进行预先计算。

著录项

  • 作者

    Hauguel Samson A.;

  • 作者单位
  • 年度 2010
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"en","name":"English","id":9}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号