首页> 外文OA文献 >SparkBOOST, an Apache spark-based boosting library
【2h】

SparkBOOST, an Apache spark-based boosting library

机译:SparkBOOST,一个基于Apache Spark的Boosting库

摘要

SparkBOOST is a Java library built over Apache Spark that provides a distributed implementation of AdaBoost.MH and MP-Boost machine learning algorithms. These boosting algorithms are known to be very effective and robust to overfitting in many application domains, e.g. in natural language processing contexts. SparkBOOST offers to developers a fast way to scale these algorithms to large scale problems, where one needs to build classifiers from very large training datasets or simply needs to quickly classify huge stream of documents. The library can be integrated into custom programs by using a simple API. The SparkBOOST implementation also provides some command line tools to perform learning and classification on data sources available in LibSVM format.
机译:SparkBOOST是基于Apache Spark构建的Java库,它提供AdaBoost.MH和MP-Boost机器学习算法的分布式实现。已知这些增强算法对于在许多应用领域中的过拟合非常有效且健壮。在自然语言处理环境中。 SparkBOOST为开发人员提供了一种将这些算法扩展到大规模问题的快速方法,在这种情况下,人们需要从非常大的训练数据集中构建分类器,或者仅需要对大量文档进行快速分类。该库可以通过使用简单的API集成到自定义程序中。 SparkBOOST实现还提供一些命令行工具,以对LibSVM格式的可用数据源执行学习和分类。

著录项

  • 作者

    Fagni Tiziano; Esuli Andrea;

  • 作者单位
  • 年度 2016
  • 总页数
  • 原文格式 PDF
  • 正文语种 en
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号