首页> 外文期刊>International Journal of Business Intelligence and Data Mining >Imputation of missing values for semi-supervised data using the proximity in random forests
【24h】

Imputation of missing values for semi-supervised data using the proximity in random forests

机译:使用随机森林中的邻近度来估算半监督数据的缺失值

获取原文
获取原文并翻译 | 示例
           

摘要

This paper presents a procedure that imputes missing values by using random forests on semi-supervised data. Applying our method to Hewlett-Packard Lab.'s spam data and Edgar Anderson's iris data, we found that the rate of correct classification is higher than that of other methods: a simple expansion of Liaw's 'rflmpute' for (un)supervised data and the fc-nearest neighbour method (kNN). Our method allows missing predictor variables as well as missing response variable. An imputation that uses random forests for semi-supervised cases in the training dataset has never been implemented until now.
机译:本文提出了一种通过对半监督数据使用随机森林来插补缺失值的过程。将我们的方法应用于Hewlett-Packard Lab。的垃圾邮件数据和Edgar Anderson的虹膜数据,我们发现正确分类的比率高于其他方法:对(无)受监督数据的Liaw'rflmpute'的简单扩展以及fc最近邻法(kNN)。我们的方法允许缺少预测变量以及缺少响应变量。到目前为止,从未实施过将训练数据集中的半监督案例使用随机森林的推算。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号