首页> 中文学位 >基于数据挖掘技术的2型糖尿病患病风险预测研究
【6h】

基于数据挖掘技术的2型糖尿病患病风险预测研究

代理获取

目录

声明

第1章 绪 论

1.1 研究背景与研究意义

1.2 国内外研究现状

1.3 研究内容与研究方法

第2章 相关理论基础

2.1 数据挖掘概述

2.2 分类技术概述

2.3 分类器评估方法概述

2.4 本章小结

第3章 基于单一分类器的2型糖尿病患病风险预测模型构建

3.1 数据来源

3.2 基于决策树C5.0的2型糖尿病患病风险预测模型构建

3.3 基于ANN的2型糖尿病患病风险预测模型构建

3.4 基于SVM的2型糖尿病患病风险预测模型构建

3.5 本章小结

第4章 基于单一分类器的2型糖尿病患病风险预测模型的评估及比较

4.1 决策树C5.0预测模型的评估及比较

4.2 ANN预测模型的评估及比较

4.3 SVM预测模型的评估与比较

4.4 本章小结

第5章 基于集成分类器的2型糖尿病患病风险预测模型研究

5.1 基于集成学习算法的研究及应用

5.2 集成分类器在2型糖尿病风险预测中的应用

5.3 集成分类器预测模型的评估与比较

5.4 本章小结

结论

参考文献

附录1 原始实验数据

附录2 预处理后的部分属性数据

附录3 模型的预测结果数据

攻读硕士学位期间承担的科研项目与主要成果

致谢

展开▼

摘要

糖尿病已成为继心脑血管疾病、恶性肿瘤后的第三大威胁人类健康的慢性病。随着我国人民生活水平的普遍提高以及生活节奏的加快,糖尿病患病者数量正在以惊人的速度增长,且向低龄化发展。最新调查显示,我国成年糖尿病患者高达1.14亿,呈现高发病率状态,然而知晓率、治疗率和达标率偏低。没有得到及时治疗与控制的糖尿病患者可能有心脑血管以及糖尿病足等各种并发症,这不仅严重影响了糖尿病患者的生活质量,也为家庭和社会带来了沉重的负担。因此,预防和控制2型糖尿病的发生,对于节约医疗资源、降低我国医疗支出具有重要战略意义。
  本研究基于数据挖掘分类技术和分类器评估等相关理论,首先到秦皇岛市属医院进行原始数据采集,并利用相关的数据预处理技术进行了数据的清洗;其次,针对单一分类器的局限性,本文综合比较多个分类器(包括决策树C5.0,人工神经网络和支持向量机)的优势和劣势,运用多个评估工具进行模型的预测性能评价和质量评价,通过比较获得适合2型糖尿病患病风险预测的最优参数下的最佳分类器;第三,针对模型的可操作性和实用性,本文运用决策树C5.0算法,分别在简单个人水平、简单临床和复杂临床数据集下建立患病风险预测模型,以实现不同情况下为2型糖尿病的预警和干预提供帮助;最后,由于医疗数据的复杂性和医疗临床决策中对分类精度和算法稳定性的高度要求,采用Weka和Eclipse软件建立集成分类器,增强模型的鲁棒性,最终建立一个稳定性良好、学习速度快、分类效果最佳的数据挖掘模型。模型的评估结果表明,在单一分类器中,决策树C5.0模型在复杂临床数据集下的预测准确率、灵敏度、特异度、约登指数以及ROC曲线下面积均是最高的,说明决策树C5.0模型在2型糖尿病患病风险预测中的应用是最适合的,这对糖尿病高危人群的预防和医生临床诊断起到一定的指导作用,具有参考价值。但是,由于经典算法的局限性,加入集成算法,发现在复杂临床数据集下,使用Bagging集成算法组合多个C4.5单分类器后的分类模型的稳定性好,学习速度快,泛化能力强,分类效果最佳。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号