首页> 外文期刊>Fundamenta Informaticae >Boruta - A System for Feature Selection
【24h】

Boruta - A System for Feature Selection

机译:Boruta-特征选择系统

获取原文
获取原文并翻译 | 示例
       

摘要

Machine learning methods are often used to classify objects described by hundreds of attributes; in many applications of this kind a great fraction of attributes may be totally irrelevant to the classification problem. Even more, usually one cannot decide a priori which attributes are relevant. In this paper we present an improved version of the algorithm for identification of the full set of truly important variables in an information system. It is an extension of the random forest method which utilises the importance measure generated by the original algorithm. It compares, in the iterative fashion, the importances of original attributes with importances of their randomised copies. We analyse performance of the algorithm on several examples of synthetic data, as well as on a biologically important problem, namely on identification of the sequence motifs that are important for aptameric activity of short RNA sequences.
机译:机器学习方法通​​常用于对由数百个属性描述的对象进行分类。在这种类型的许多应用中,很大一部分属性可能与分类问题完全无关。甚至更多,通常不能先验地确定哪些属性是相关的。在本文中,我们提出了一种用于识别信息系统中真正重要变量的完整算法的改进版本。它是对随机森林方法的扩展,它利用了原始算法生成的重要性度量。它以迭代方式将原始属性的重要性与其随机副本的重要性进行比较。我们在合成数据的几个示例上以及在生物学上重要的问题上分析算法的性能,即在鉴定对短RNA序列的适体活性很重要的序列基序上。

著录项

  • 来源
    《Fundamenta Informaticae》 |2010年第4期|P.271-285|共15页
  • 作者单位

    ICM, University of Warsaw Pawinskiego 5a, Warsaw, Poland;

    rnICM, University of Warsaw Pawinskiego 5a, Warsaw, Poland;

    rnICM, University of Warsaw Pawinskiego 5a, Warsaw, Poland;

  • 收录信息 美国《科学引文索引》(SCI);美国《工程索引》(EI);
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

  • 入库时间 2022-08-17 13:41:03

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号