首页> 外文期刊>Revista Brasileira de Computao Aplicada >Avalia??o da performance do algoritmo J48 para constru??o de modelos baseados em árvores de decis?o
【24h】

Avalia??o da performance do algoritmo J48 para constru??o de modelos baseados em árvores de decis?o

机译:基于决策树的J48建立模型算法的性能评估

获取原文
       

摘要

As árvores de decis?o s?o modelos hierárquicos utilizados em várias áreas do conhecimento por sua capacidade preditiva e de resolu??o de problemas de maneira simples e objetiva. Entretanto, apresentam algumas limita??es relacionadas à sua adequa??o à base de dados e ao se atentar quanto aos procedimentos para sele??o dos parametros de crescimento e poda a serem adotados. Desta forma, têm-se como objetivo avaliar e discutir a performance do algoritmo J48 para constru??o de modelos de tomada de decis?o em árvore em base de dados com atributos de diferentes tipos. Para tanto, realizaram-se experimentos em 10 bases de dados disponíveis em repositório internacional, considerando como variantes os métodos de treinamento, teste e poda, aplicados em toda base de dados e com o uso dos métodos Wrapper e CFS (Correlation-based Feature Selection) para sele??o de atributos. Identificou-se que na presen?a de dados contínuos, os únicos modelos que apresentaram boa capacidade preditiva estiveram presentes em situa??es em que a grande quantidade de exemplos puderam compensar tal deficiência. Os modos de treinamento "valida??o cruzada" e "divis?o por porcentagem" mostraram-se similares em suas predi??es quando ajustados a 10 folds e 75%, respectivamente. Ademais, a sele??o de atributos n?o foi capaz de gerar melhores predi??es denotando que tal método de forma isolada n?o compensa possíveis inadequa??es nas bases de dados. Pode-se constatar que os resultados referentes à capacidade preditiva dos modelos s?o fortemente direcionados pelo quantitativo de exemplos pertencentes à base, presen?a de dados contínuos e de dados com ruído.
机译:决策树是用于各个知识领域的分层模型,它们具有以简单客观的方式预测和解决问题的能力。但是,它们在与数据库适应性以及注意选择要采用的生长和修剪参数的程序方面存在一些限制。因此,目标是评估和讨论J48算法在具有不同类型属性的数据库中的树中构建决策模型的性能。为此,在国际存储库中的10个数据库上进行了实验,考虑了作为变体应用于整个数据库的训练,测试和修剪方法,并使用了Wrapper和CFS(基于相关性的特征选择)方法)以选择属性。可以确定,在存在连续数据的情况下,只有大量示例可以弥补这一不足的情况下,才会出现显示出良好预测能力的唯一模型。当分别调整为10倍和75%时,训练模式“交叉验证”和“按百分比划分”证明是相似的。另外,属性的选择不能产生更好的预测,这表明孤立地使用这种方法不能弥补数据库中可能的不足。可以看出,关于模型的预测能力的结果在很大程度上取决于属于数据库的示例数,连续数据的存在和带有噪声的数据。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号