首页> 外文会议>Brazilian Symposium in Information and Human Language Technology >Influencia de Tecnicas Nao-supervisionadas de Reducao de Dimensionalidade para Organizacao Flexivel de Documentos
【24h】

Influencia de Tecnicas Nao-supervisionadas de Reducao de Dimensionalidade para Organizacao Flexivel de Documentos

机译:非监督降维技术对灵活文档组织的影响

获取原文

摘要

A organizacao flexivel de documentos consiste em agregar tratamento de imprecisao e incerteza, caracteristicas da natureza da linguagem natural e, por conseguinte, dos textos. Nessa tarefa, o agrupamento fuzzy tem sido um poderoso aliado. Porem, a performance do agrupamento geralmente e afetada negativamente pela representagao dos documentos em vetores esparsos e de alta dimensionalidade, alem da presenga de termos ruidosos. Com base nisso, o presente estudo busca investigar o impacto, na performance do agrupamento fuzzy, da redugao de dimensionalidade utilizando tecnicas nao-supervisionadas. Os resultados mostram que boas estruturas fuzzy sao obtidas com muito poucos atributos que conseguem identificar os aspectos semanticos latentes nos textos. Flexible document organization consists of handling uncertainty and imprecision, which are characteristics of natural language's nature and therefore, of texts. In this task, fuzzy clustering has been a powerful allied. However, clustering performance usually is negatively affected by document representation in sparse and high-dimensional vectors, besides the presence of noisy terms. Based on this, the present study seeks to investigate the impact, on fuzzy clustering performance, of dimensionality reduction by using unsupervised methods. The results show that good fuzzy structures are obtained with very few features which can identify the latent semantic aspects within the texts.
机译:灵活的文件组织包括增加对不精确性和不确定性的处理,自然语言的性质特征以及因此的文本的性质。在此任务中,模糊分组一直是强大的盟友。但是,除了存在嘈杂的术语之外,分组的性能​​通常还受到稀疏和高维向量中文档表示的负面影响。基于此,本研究旨在研究使用无监督技术对模糊分组的性能​​对降维的影响。结果表明,获得的良好模糊结构具有很少的属性,可以识别文本中潜在的语义方面。灵活的文档组织包括处理不确定性和不精确性,这是自然语言的本质特征,因此也是文本的特征。在此任务中,模糊聚类是一个强大的联盟。但是,除稀疏和高维向量外,聚类性能通常还受到文档表示的负面影响,除了存在嘈杂的术语外。基于此,本研究试图通过使用无监督方法来研究降维对模糊聚类性能的影响。结果表明,获得的良好模糊结构具有很少的特征,可以识别文本中潜在的语义方面。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号