首页> 中文学位 >基于数据挖掘技术对心脏病诊断的研究
【6h】

基于数据挖掘技术对心脏病诊断的研究

代理获取

目录

第一个书签之前

摘 要

ABSTRACT

1 绪论

1.1 研究的目的和意义

1.2 国内外应用研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文的主要工作及内容安排

1.4 论文组织结构

2 相关理论与技术基础

2.1 数据挖掘

2.1.1 数据挖掘概述及应用

2.1.2 数据挖掘过程

2.2 数据挖掘常用算法

2.2.1 人工神经网络

2.2.2 支持向量机

2.2.3 随机森林

2.3 相关软件介绍

2.3.1 WEKA数据挖掘工具简介

2.3.2 ARFF文件结构

2.4 本章小结

3 心脏病临床检测及数据预处理

3.1 心脏病临床检测

3.2 数据介绍

3.3 数据预处理

3.3.1 心脏病样本集的ARFF文件

3.3.2 数据预处理

3.4 本章小结

4 心脏病数据建模

4.1 基于BP神经网络算法建模

4.1.1 BP神经网络算法

4.1.2 基于参数优化的BP神经网络分类器

4.2 基于支持向量机建模

4.2.1 支持向量机算法

4.2.2 基于参数优化的支持向量机分类器

4.3 基于随机森林建模

4.3.1 随机森林算法

4.3.2 基于参数优化的随机森林分类器

4.4 本章小结

5 评估与优化

5.1 实验环境

5.2 评估方法简介

5.3 BP神经网络算法、支持向量机、随机森林评估结果对比分析

5.3.1 建模时间对比分析

5.3.3 误差对比分析

5.3.4 成本对比分析

5.4 集成学习

5.4.1 常用集成学习算法

5.4.2 支持向量机集成学习

5.5 本章小结

6 总结与展望

6.1 全文总结

6.2 展望

致 谢

参考文献

攻读学位期间发表的学术论文目录

原创性声明及关于学位论文使用授权的声明

展开▼

摘要

近些年来,心血管疾病引发的死亡已经持续成为居民首位死亡原因,而且,心脏病的患病人群也越来越年轻化。因此,心脏病的诊断与治疗已经成为医学研究的重中之重。心脏病种类繁多、影响因素多样,如何提高心脏病的诊断效率已经成为急需解决的问题。 针对上述情况,论文以UCI机器学习数据库中298例心脏病数据集为研究对象,分别采用BP神经网络算法、支持向量机及随机森林建立心脏病诊断分类器,并对研究结果进行对比分析,找到最优分类器。经过对支持向量机进行集成优化,进一步提高了分类器的分类性能,从而有助于帮助医生对病情进行更加精准的诊断。论文的主要内容如下: (1)充分理解心脏病的临床诊断指标,选取合适的属性作为本次数据挖掘的研究对象。心脏病数据集共有75项属性,最终选取其中的14项属性进行研究。 (2)对获得的心脏病数据集进行数据预处理。首先,删掉所有属性中的缺失值,保证数据的完整性。其次,将数据格式转换成WEKA中支持的ARFF格式文件。将心脏病数据集中的所有属性按照相关算法的需求情况来展开规范化分析。最后,借助各种形式的属性选择方案来实现对无关属性的过滤操作,选出相关效果最好的属性子集构建分类器。 (3)对心脏病数据集建立模型。分别采用BP神经网络算法、支持向量机、随机森林三种算法建立心脏病诊断分类器。不同的算法对参数要求不同,要选取最优的参数组合,使得所建分类器的性能最优。 (4)对上述三种分类器进行评估分析并对最优分类器实现再次优化处理。从建模时间长短、可解释性程度、误差大小以及成本投入四部分展开对比分析,找出性能最优的诊断分类器。经过评估分析得出,分类性能最好的是支持向量机分类器,在此基础上,应用Bagging算法来对单独的支持向量机构建得到的分类器完成集成优化控制,确保分类器实现工作的性能得到更大程度的优化增强。 实施的实验结果明确,经过对三种算法进行参数优化建立模型,得到的诊断分类器中支持向量机分类器性能最优,其分类准确率为84.8993%,而BP神经网络分类器和随机森林分类器的分类准确率分别为78.1879%、77.5168%。而使用Bagging算法进行集成优化后,ROC面积值上升0.9%, 所得均方根误差缩减幅度是0.54%,相对均方根误差缩减幅度是1.0905%,集成支持向量机分类器相较于单个支持向量机分类器,性能上有了一定的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号