首页> 外文会议>International conference on advanced data mining and applications >A Scalable Document-Based Architecture for Text Analysis
【24h】

A Scalable Document-Based Architecture for Text Analysis

机译:可扩展的基于文档的文本分析架构

获取原文

摘要

Analyzing textual data is a very challenging task because of the huge volume of data generated daily. Fundamental issues in text analysis include the lack of structure in document datasets, the need for various preprocessing steps and performance and scaling issues. Existing text analysis architectures partly solve these issues, providing restrictive data schemas, addressing only one aspect of text preprocessing and focusing on one single task when dealing with performance optimization. Thus, we propose in this paper a new generic text analysis architecture, where document structure is flexible, many preprocessing techniques are integrated and textual datasets are indexed for efficient access. We implement our conceptual architecture using both a relational and a document-oriented database. Our experiments demonstrate the feasibility of our approach and the superiority of the document-oriented logical and physical implementation.
机译:由于每天生成大量数据,因此分析文本数据是一项非常具有挑战性的任务。文本分析的基本问题包括文档数据集缺乏结构,需要各种预处理步骤以及性能和缩放问题。现有的文本分析体系结构部分地解决了这些问题,提供了限制性的数据模式,仅解决了文本预处理的一个方面,并且在处理性能优化时只专注于一项任务。因此,我们在本文中提出了一种新的通用文本分析体系结构,其中文档结构灵活,集成了许多预处理技术,并对文本数据集进行了索引以进行有效访问。我们使用关系数据库和面向文档的数据库来实现我们的概念架构。我们的实验证明了我们方法的可行性以及面向文档的逻辑和物理实现的优越性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号