首页> 中文学位 >《比较统计学》框架的构建及在回归分析中的示范研究
【6h】

《比较统计学》框架的构建及在回归分析中的示范研究

代理获取

目录

声明

缩略词表

摘要

第一章 前言

1.1 研究背景

1.2 研究现状

1.3 研究内容

1.4 课题意义

1.5 研究方法

1.6 论文结构

第二章 比较统计学框架的构建

2.1 比较统计学概述

2.2 资料来源

2.3 框架的制定

2.4 《比较统计学》框架

2.5 本章小结

第三章 多种缺失数据处理方法在重复测量资料中的比较

3.1 缺失数据的来源

3.2 数据缺失的机制和模式

3.21 敦据缺失的机制

3.22 数据缺失的模式

3.3 缺失数据的常用处理方法

3.31 删除法

3.32 单一填补法

3.33 多重填补法

3.4 适合单调缺失模式数据集的多重填补法

3.41 线性回归法

3.42 预测均数匹配法

3.43 趋势得分法

3.44 判别分析法

3.45 logistic回归分析法

3.5 适合任意缺失模式数据集的多重填补方法

3.51 马尔科夫链蒙特卡罗模拟填补法

3.52 通过MCMC法产生单调缺失模式法

3.6 多重填补的综合推断

3.7 多重填补中涉及的几个问题

3.8 各种方法处理效果的模拟比较

3.81 模拟数据集的产生

3.82 任意缺失模式数据集的模拟比较结果

3.83 单调缺失模式致据集的模拟比较结果

3.9 本章小结

第四章 四种稳健回归估计的比较

4.1 稳健回归的背景

4.2 失效点和相对效率

4.3 稳健回归的分类

4.31 L估计

4.32 R估计

4.33 M估计

4.34 S估计

4.35 MM估计

4.4 四种稳健估计和OLS估计稳健性的模拟比较

4.41 误差不服从正态分布

4.42 仅因变量中存在异常点

4.43 仅自变量中存在异常点

4.44 自变量和因变量中都存在异常点

4.5 四种稳健估计和OLS估计效率的模拟比较

4.6 Huber M估计的应用

4.7 本章小结

第五章 多种变量筛选方法的比较及在多重回归分析中的SAS自动化实现

5.1 多重线性回归

5.2 多重logistic回归

5.3 自变量筛选准则

5.31 基于残差平方和的准则

5.32 Cp准则

5.33 AIC准则

5.34 预测残差平方和准则

5.35 统计学意义准则

5.4 六种变量筛选方法的基本原理

5.41 前进法

5.42 后退法

5.43 逐步筛选法

5.44 R2选择法

5.45 校正R2选择法

5.46 Mallow’s Cp选择法

5.5 六种变量筛选方法的原理比较

5.6 应用多种变量筛选法的必要性

5.7 六种变量筛选方法在多重线性回归分析中的SAS自动化实现

5.71 模型拟合效果的比较方法

5.72 SAS自动化实现的编程思路

5.73 实例应用

5.8 四种常用变量筛选法在logistic回归分析中的SAS自动化实现

5.81 SAS自动化实现的编程思路

5.82 实例应用

5.9 Logistic回归分析多种变量筛选方法自动化程序在SFTS死亡危险因素探索中的应用

5.91 发热伴血小板藏少综合征简介

5.92 数据来源

5.93 多种变量筛选方法自动化程序在SFTS死亡危险因素探索中的应用

5.10 本章小结

第六章 交流与合作

6.1 制定邀请函的目的

6.2 中文邀请函

6.3 英文邀请函

6.4 本章小结

第七章 总结与讨论

7.1 本研究的主要工作

7.2 结果和结论

7.3 创新点

7.4 讨论

7.5 课题展望

参考文献

附录

文献综述 关于缺失数据、稳健回归及变量筛选研究的文献综述

代表论著

个人简历

致谢

展开▼

摘要

[目的]针对人们在处理同一个与统计学有关的问题时往往随意从多种类似的分析方法中选择其一的事实,和迄今为止统计学体系中缺乏科学系统的理论研究的现状,建立比较统计学研究的平台,构建科学、合理、系统、完善的比较统计学框架,并对回归分析中的三个子课题进行深入研究,以期成为此项研究的示范;同时邀请与本课题研究有关的各分支领域的专家共同参与该项研究,促进比较统计学的繁荣与发展。
  [内容]本研究首先构建比较统计学的框架,内容涉及统计学的方方面面,包括统计思想、统计理论和统计方法,重点是对相似的统计概念、理论和方法进行比较研究。
  在框架构建完成后,本研究对回归分析中的三个子课题进行了深入探索和研究,即①多种缺失数据处理方法在重复测量资料分析中的比较研究;②四种稳健回归分析方法的比较研究;③多种变量筛选方法的比较研究及在多重回归分析中的SAS自动化实现。
  在对重复测量资料多种缺失数据处理方法的比较研究中,考察了删除法、单一填补法和多重填补法的处理效果;在对稳健回归方法的比较研究中,考察了最常用的Huber M估计、LTS估计、S估计和MM估计的稳健性及相对效率;在多种变量筛选方法的比较研究中,考察了前进法、后退法、逐步筛选法、R2选择法、校正R2选择法和Mallow's Cp选择法的优劣,并通过SAS软件的宏语言,实现了在进行多重线性回归分析和多种logistic回归分析时,针对同一个问题自动运用多种方法进行变量筛选并自动输出最优的拟合模型,并通过实例验证程序的可行性。
  本研究还制定了中英文邀请函,邀请国内外专家参与该课题的研究,以凝聚更多专家的智慧和力量,促进比较统计学的繁荣和发展。
  [方法]为构建科学、合理、系统、完善的比较统计学框架,本研究大量搜集、阅读、学习、归纳和整理包括Pubmed、Embase、中国知网、万方、维普等大型数据库中的相关文献,在现有的统计学知识的基础上,对比较统计学的整体架构进行梳理,并与教研室师生进行了多次讨论并反复修改。
  对于重复测量资料多种缺失数据处理方法的比较研究,首先对各种方法进行原理上的总结与比较,然后运用蒙特卡罗模拟的方法构建含一个分组因素和一个重复测量因素的数据集,并进行混合效应模型分析,比较各种方法处理缺失数据的能力。对于单调缺失模式的数据集,考察了删除法、单一填补法中的均值填补法和末次观测结转法、多重填补法中的线性回归法、预测均数匹配法和趋势得分法在三种不同缺失机制、五种不同缺失率数据中的处理效果,其中多重填补法还考虑了不同的填补次数对结果的影响。对于任意缺失模式的数据集,考察了删除法、单一填补法中的均值填补法和末次观测结转法以及多重填补法中的马尔科夫链蒙特卡罗填补法在三种不同缺失机制、五种不同缺失率数据中的处理效果,同时也考察了多重填补不同填补次数对结果的影响。
  对于四种稳健回归方法的比较,首先对各种方法进行原理上的介绍与比较,然后运用蒙特卡罗模拟的方法比较各种方法的稳健性和相对效率。通过构造一个线性模型,分别运用普通最小二乘估计、Huber M估计、LTS估计、S估计和MM估计分析误差不满足正态分布以及含不同来源和不同比例的异常点的情况。同时,考察在数据满足高斯—马尔科夫假定下,以普通最小二乘估计的效率为基准,计算四种稳健估计相对于普通最小二乘估计的效率。最终,综合稳健性及相对效率归纳四种稳健回归方法的优劣。
  对于多种变量筛选方法的比较研究及在多重回归分析中的SAS自动化实现,选择常用的三种自变量筛选方法(即前进法、后退法和逐步筛选法)及三种最优回归子集法(R2选择法、校正R2选择法、Mallow's Cp选择法),总结各种筛选方法的原理及优缺点,并基于SAS语言编写程序,实现多重线性回归分析和多重logistic回归分析的自动化筛选。随后,将该程序运用到有氧健身效果的影响因素分析、喉癌的发病危险因素分析以及由中国人民解放军第154医院提供的357例确诊的发热伴血小板减少综合征病例的数据中,探索三个不同发病时期的死亡危险因素,以验证程序的可行性。
  [结果]本课题构建了比较统计学研究的框架,并对回归分析中的三个子课题进行了深入研究,全面分析和比较了多种缺失数据处理方法处理重复测量资料的优劣、四种常用稳健回归方法的优劣及多种变量筛选方法的优缺点,并通过SAS软件进行大量编程,实现了多重线性回归分析和多重logistic回归分析自动运用多种方法进行变量筛选并输出最优模型的SAS自动化程序。具体而言,本文的研究结果以及主要创新点包括以下四个方面:
  (1)构建了科学、合理、系统、完善的比较统计学框架,包括统计思想的比较、各种科研设计方法的比较、统计资料收集与整理方法的比较、常用统计分析方法的比较以及特殊领域中统计应用的比较。
  (2)多种缺失数据处理方法在重复测量资料中的比较研究得出:在任意缺失模式下,当缺失机制为完全随机缺失和随机缺失时,在低缺失率(≤10%)情况下,删除法、单一填补法和多重填补法的效果均较好;随着缺失率的增大,删除法和单一填补法的处理效果都不佳,单一填补法甚至不如删除法;而多重填补法的处理效果依然令人满意,当缺失率较低时结果几乎与真值无异,当缺失率高达50%时,其回归系数也非常接近真值,其缺点是在高缺失率下容易高估变量的变异程度。另一方面,多重填补的效果并非随着填补次数的增加而增加。当缺失机制为非随机缺失时,各种方法的处理效果都不理想。
  在单调缺失模式下,当缺失机制为完全随机缺失和随机缺失时,删除法、均值填补法、末次观测结转法和多重填补的趋势得分法的处理效果都不理想,而多重填补的线性回归法和预测均数匹配法的填补效果很好,其回归系数非常接近真值,缺点是在一定程度上会高估系数的变异程度。另一方面,多重填补的效果并非随着填补次数的增加而增加。当缺失机制为非随机缺失时,所有方法都无法取得较好的处理效果。
  (3)四种稳健回归方法的比较研究得出:当误差不满足正态分布时,普通最小二乘估计无法进行正确的参数估计和假设检验,且结果非常不稳健,而HuberM估计、LTS估计、S估计和MM估计则能有效抵抗非正态误差的影响。当数据中存在异常值时,无论存在于原因变量还是结果变量,普通最小二乘估计都无法抵御,结果非常不稳健。当异常值只出现在结果变量中时,四种稳健估计法都能正确地估计回归模型,结果非常稳健;当异常值只出现在原因变量中时,Huber M估计无法正确估计回归模型,而LTS估计、S估计和MM估计仍能正确拟合模型,结果稳健;当结果变量和原因变量都存在异常值时,Huber M估计同样无法正确拟合回归模型,而LTS估计、S估计和MM估计依然能正确地估计模型,结果稳健。也就是说,Huber M估计只对结果变量存在异常值的情况稳健,而LTS估计、S估计和MM估计对于原因变量和结果变量的异常值都很稳健。
  另一方面,在对四种稳健回归方法效率的考察时,以普通最小二乘回归为参照,得出当数据满足高斯—马尔科夫假定时,Huber M估计的相对效率最高,能达到普通最小二乘估计的95%; MM估计的相对效率次之,但仍然较高,能达到普通最小二乘估计的85%;S估计再次之,为普通最小二乘估计的75%; LTS估计最低,只有普通最小二乘估计的27%。因此,综合稳健性和相对效率,MM估计相对Huber M估计、LTS估计和S估计具有很大优势,是一种良好的稳健回归估计方法。
  (4)对六种变量筛选方法的比较研究,首先从原理上分析了各种方法的优缺点,并借助SAS软件的宏编程语言,实现了在多重线性回归和多重logistic回归分析中自动运用多种方法进行自变量筛选并自动输出最优的拟合模型。将该程序运用到有氧健身效果的影响因素分析中,得到年龄、跑1.5km消耗的时间以及跑步时的心率为影响有氧健身效果的影响因素;运用该程序分析喉癌的发病危险因素,得到吸烟量、新鲜蔬菜摄食量以及癌症家族史为喉癌的发病危险因素;分析中国人民解放军第154医院提供的357例确诊的SFTS病例的数据,得出SFTS发病第一阶段的死亡危险因素为血小板减少;发病第二阶段的死亡危险因素为年龄增加和AST升高;发病第三阶段的死亡危险因素为淋巴细胞百分比降低和LDH升高。通过在以上实例中的运用,证明了程序的切实可行性。
  [结论]本课题构建了比较统计学研究的框架,在一定程度和范围内,为未来统计学的研究和发展绘就了一幅宏伟的蓝图;针对回归分析中的三个子课题进行了深入的比较研究,得到了令人满意的结果,为完善比较统计学这个学术平台起到了很好的示范作用。在对多种缺失数据分析方法处理重复测量资料的比较研究中,通过原理上和模拟上的比较,考虑了不同的缺失模式、缺失机制和缺失率,使统计结论更可靠,为实际应用中寻找此类问题的最佳处理提供了有效策略;在对四种常用的稳健回归分析方法的比较研究中,同样进行了原理上和模拟上的比较,对四种方法的稳健性和相对效率进行了全面、系统的评价,统计推论更可信,为稳健回归估计方法的普及和合理选择夯实了理论基础。此外,还对六种变量筛选方法进行了综合比较,通过SAS编程实现了多重回归分析中自动运用多种方法进行变量筛选并自动输出最优模型,并通过实例验证了程序的可行性,为更好、更快捷地选择合适的多重回归模型奠定了理论基础和提供了有效途径。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号