Multiple Balance Subsets Stacking for Imbalanced Healthcare Datasets

机译：堆叠不平衡医疗数据集的多个余额子集

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Accurate prediction is highly important for clinical decision making and early treatment. In this paper, we study the imbalanced data problem in prediction, a key challenge existing in the healthcare area. Imbalanced datasets bias classifiers towards the majority class, leading to an unsatisfied classification prediction performance on the minority class, which is known as imbalance problem. Existing imbalance learning methods may suffer from issues like information loss, overfitting, and high training time cost. To tackle these issues, we propose a novel ensemble learning method called Multiple bAlance Subsets Stacking (MASS) by exploiting a multiple balance subsets construction strategy. Furthermore, we improve MASS with introducing parallelism (Parallel MASS) to reduce the training time cost. We evaluate MASS on three real-world healthcare datasets, and experimental results demonstrate that its prediction performance outperforms the state-of-art methods in terms of AUC, F1-score and MCC. Through the speedup analysis, Parallel MASS reduces the training time cost greatly on large dataset, and its speedup increases as the data size grows.

机译：对于临床决策和早期治疗，精确的预测非常重要。在本文中，我们研究了预测中的不平衡数据问题，在医疗领域存在的关键挑战。非衡度数据集偏置大多数类的偏置分类器，导致少数类别上的不满意的分类预测性能，称为不平衡问题。现有的不平衡学习方法可能遭受信息丢失，过度拟合和高训练时间成本等问题。为了解决这些问题，我们提出了一种新的集合学习方法，通过利用多余余额亚空建设策略来提出称为多个余额子集的新集合学习方法。此外，我们改善了引入平行（平行质量）以降低训练时间成本的质量。我们评估了三个现实世界医疗数据集的质量，实验结果表明，其预测性能在AUC，F1分数和MCC方面优于最先进的方法。通过加速分析，并联质量在大型数据集中大大降低了培训时间成本，随着数据大小的增长，其加速会增加。

著录项

来源
《IEEE International Conference on Parallel and Distributed Systems》|2020年|300-307|共8页
会议地点
作者
Yachao Shao; Tao Zhao; Xiaoning Wang; Xiaofeng Zou; Xiaoming Fu;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Training; Learning systems; Conferences; Stacking; Decision making; Medical services; Parallel processing;

机译：培训;学习系统;会议;堆叠;决策;医疗服务;并行处理;

相似文献

外文文献
中文文献
专利

1. Prediction is a Balancing Act: Importance of Sampling Methods to Balance Sensitivity and Specificity of Predictive Models based on Imbalanced Chemical Datasets [J] . Banerjee Priyanka, Dehnbostel Frederic Oliver, Preissner Robert Frontiers in Chemistry . 2018,第1期

机译：预测是一种平衡行为：基于不平衡化学数据集的采样方法对平衡预测模型的敏感性和特异性的重要性
2. Learning a Distance Metric by Balancing KL-Divergence for Imbalanced Datasets [J] . Feng Lin, Wang Huibing, Jin Bo, IEEE Transactions on Systems, Man, and Cybernetics . 2019,第12期

机译：通过平衡不平衡数据集的KL散度来学习距离度量
3. Domino: Extracting, Comparing, and Manipulating Subsets Across Multiple Tabular Datasets [J] . Gratzl S., Gehlenborg N., Lex A., Visualization and Computer Graphics, IEEE Transactions on . 2014,第12期

机译：Domino：跨多个表格数据集提取，比较和操作子集
4. In-hospital Mortality Prediction for ICU Patients on Large Healthcare MIMIC Datasets Using Class Imbalance Learning [C] . Lijuan Li, Guangjian Liu IEEE International Conference on Big Data Analytics . 2020

机译：使用类不平衡学习的大型医疗MIMIC数据集对ICU患者的院内死亡率预测
5. Temperature index modeling of the Kahiltna Glacier: Comparison to multiple field and geodetic mass balance datasets. [D] . Young, Joanna C. 2013

机译：Kahiltna冰川的温度指数建模：与多场和大地质量平衡数据集的比较。
6. Domino: Extracting Comparing and Manipulating Subsets across Multiple Tabular Datasets [O] . Samuel Gratzl, Nils Gehlenborg, Alexander Lex, -1

机译：Domino：跨多个表格数据集提取比较和操作子集
7. Comparison of balancing techniques for multimedia IR over imbalanced datasets [O] . Bermejo P., Hopfgartner F., Gamez J., 2009

机译：多媒体红外平衡技术在不平衡数据集上的比较

Multiple Balance Subsets Stacking for Imbalanced Healthcare Datasets

摘要

著录项

相似文献

相关主题

期刊订阅