首页> 中文学位 >慢性阻塞性肺病发病人数的预测模型
【6h】

慢性阻塞性肺病发病人数的预测模型

代理获取

目录

1 绪 论

1.1研究背景与意义

1.2国内外研究现状

1.3本文的研究目的和研究内容

2 回归分析预测算法

2.1数据预处理

2.2简单线性回归分析

2.3多元线性回归分析

2.4岭回归

2.5局部加权线性回归

2.6分类回归树

2.7本章小结

3 基于局部加权线性回归的改进算法

3.1组合多个局部加权线性回归模型

3.2动态加权预测值

3.3构造新的核函数

3.4本章小结

4 基于组合模型的预测算法

4.1基于训练集二叉树的局部加权线性回归组合模型

4.2基于K-means的局部加权线性回归组合模型

4.3本章小结

5 总结与展望

5.1工作总结

5.2展望方向

致谢

参考文献

附录

A. 作者在攻读硕士学位期间论文成果:

展开▼

摘要

慢性阻塞性肺病(Chronic Obstructive Pulmonary Disease,COPD)是一种常见的慢性呼吸系统疾病,这种疾病有较高的发病率和死亡率,给患者的生活造成严重的影响,并造成一定的经济负担和社会负担。一些相关研究表明 COPD与空气中的有害颗粒(比如PM2.5)和有害气体(比如SO2、NO2、CO等)有一定的关联。为了预测医院每周新增的 COPD患者住院人数,本论文以数据挖掘和机器学习作为研究方法,基于数据分析考察了每周PM2.5、SO2、NO2、CO的平均浓度对每周新增COPD患者住院人数的影响。然后选择合适的空气污染物因素作为预测变量,以平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)作为衡量模型的预测精度,通过探索和对比的方式逐步构建了一个预测精度较高的基于 K-means的局部加权线性回归组合模型,用于预测慢性阻塞性肺病的每周新增住院人数。本论文的主要研究工作和成果如下:
  ①研究和分析了若干回归分析方法,并实现各算法来预测每周新增COPD患者住院人数。回归分析是一种监督学习,用于刻画预测变量和目标变量之间的关系,相当于变量之间的函数映射。回归分析主要有两个阶段,第一个阶段是模型的训练,也等价于函数拟合,即拟合已知数据;第二阶段是预测,基于训练所得到的模型,对新数据进行预测。本论文对比了若干回归分析方法在测试集上的预测精度,其中分类回归树算法在本论文的测试集中的预测精度最高(13.36%)。
  ②提出了局部加权线性回归(Local Weighted Linear Regression,LWLR)组合模型。局部加权线性回归是一种基于实例的非参数学习算法,在预测方面有良好的效果。在很多机器学习方法中,组合模型的预测能力往往强于单一模型,本论文研究了两种组合方式:一种是组合具有不同核函数的局部加权线性回归模型,在该模型中对各单一模型的预测值进行动态加权;另外一种是对不同核函数进行动态加权构成新的核函数。这两种组合模型相比于单一模型都提高了预测精度,单一的局部加权线性回归能取得的最低预测误差是13.49%,而第一种组合模型获得的最低预测误差是13.34%,第二种组合模型获得的最低预测误差是13.38%。
  ③提出了基于训练集二叉树的局部加权线性回归组合模型。由于局部加权线性回归模型在每次预测时都必须先遍历训练集的所有样本,然后在进行回归预测时只有少部分样本起作用。随着训练样本数量的增多,其计算量也会增加。为了减小计算量,本论文基于分类回归树的思想,构建了训练集二叉树。当本论文的局部加权线性回归组合模型与训练集二叉树联合时,由于训练集被划分成多个子集,而局部加权线性回归算法与训练集的容量大小成正比,因此该组合模型可以大幅度减小计算量,同时也降低了模型的预测误差(13.13%)。
  ④提出了基于K-means聚类算法的局部加权线性回归组合模型。基于训练集二叉树的局部加权线性回归组合模型存在丢失预测点所需样本的问题,为了解决该问题,本论文以 K-means算法将训练集划分成若干子集,并由预测点根据实际情况自适应选取所需样本集,该方法大幅度提高了计算速度,同时提高了整个模型的预测精度。在聚类类别数为11时,该模型在测试集上的预测误差为12.08%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号