首页> 外文会议>International Conference on Advanced Data Mining and Applications >A Scalable Document-Based Architecture for Text Analysis
【24h】

A Scalable Document-Based Architecture for Text Analysis

机译:基于可扩展的文档的文本分析架构

获取原文

摘要

Analyzing textual data is a very challenging task because of the huge volume of data generated daily. Fundamental issues in text analysis include the lack of structure in document datasets, the need for various preprocessing steps and performance and scaling issues. Existing text analysis architectures partly solve these issues, providing restrictive data schemas, addressing only one aspect of text preprocessing and focusing on one single task when dealing with performance optimization. Thus, we propose in this paper a new generic text analysis architecture, where document structure is flexible, many preprocessing techniques are integrated and textual datasets are indexed for efficient access. We implement our conceptual architecture using both a relational and a document-oriented database. Our experiments demonstrate the feasibility of our approach and the superiority of the document-oriented logical and physical implementation.
机译:分析文本数据是一个非常具有挑战性的任务,因为每天生成的数据量大量。文本分析中的基本问题包括文档数据集中缺乏结构,需要各种预处理步骤和性能和缩放问题。现有的文本分析架构部分解决了这些问题,提供限制性数据模式,仅在处理性能优化时寻址文本预处理和专注于单个任务的一个方面。因此,我们提出了一个新的通用文本分析架构,其中文档结构是灵活的,许多预处理技术是集成的,文本数据集被索引以进行高效访问。我们使用关系和面向文档的数据库实现我们的概念架构。我们的实验表明了我们方法的可行性以及面向文档的逻辑和物理实施的优越性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号