首页> 中文学位 >广义线性混合效应模型(GLMM)与复杂抽样的logistic回归模型在分层整群抽样数据分析中的比较
【6h】

广义线性混合效应模型(GLMM)与复杂抽样的logistic回归模型在分层整群抽样数据分析中的比较

代理获取

摘要

在公共卫生领域的抽样调查中为了减少抽样误差,提高抽样的精度,经常会采用如分层整群抽样这类复杂的抽样方法。由于这类抽样方法所得到数据往往是具有多层次的结构特点的,这就使得在同一较低层次的各个个体之间具有一定的相关性,即结局变量的分布在个体间不具备独立性。因而不满足传统的统计分析方法的应用条件,而多层统计分析模型和复杂抽样的统计分析方法均可以处理这类数据。
  目的:
  研究和分析广义线性混合效应模型和复杂抽样的logistic回归方法在分层整群抽样数据中的应用,通过实例数据分析以及数据模拟的研究方法,结合国际通用统计分析软件SAS中相应的模块GLIMMIX与SURVEY模块来进行这两种方法在分层整群抽样数据中的比较应用。并通过改变模拟数据的参数组合,来比较在不同的内部相关系数(ICC),给定个体水平变量系数,抽样比以及样本量的情况下二者的适用性。同时,为了验证传统的统计分析方法在分层整群抽样数据分析中的局限性,也将传统的logistic回归模型纳入到比较分析中。
  方法:
  首先将三种统计方法应用到实例数据的分析中,参考其分析结果设定模拟数据的参数值。数据模拟分两个部分:模拟一研究,模拟还原实例数据的总体,并从中进行分层整群抽样,模拟抽样1000次,对每一次抽样的数据分别应用logistic回归模型,复杂抽样的logistic回归模型以及广义线性混合效应模型三种方法进行分析;模拟二研究,在模拟一研究的基础上,改变模拟的参数:各层的内部相关系数ICC,给定个体水平变量系数以及不同的抽样比来比较这三种方法的适用性,模拟次数1000次。两个阶段的模拟评价指标为:第Ⅰ类错误率,偏倚,95%可信区间覆盖率,功效以及标准误。
  结果:
  实例数据的分析中,在应用surveylogistic回归(surveylogistic)与广义线性混合效应模型(GLMM)进行调整后,各回归系数的标准误都比logistic回归中的标准误大,且各危险因素的OR值的95%可信区间较logistic回归都有不同程度的增宽。
  数据模拟分析中,surveylogistic和GLMM对分析结果的影响,主要体现在组群水平(即宏观层次)的变量上。从模拟评价指标来看:在第Ⅰ类错误的控制上,GLMM表现最强,surveylogistic在组群水平变量上表现的与GLMM一致,但是在个体水平变量上,却是三种方法上最差的。当人数多的一层的ICC为0.1,人数少的一层的ICC为0.5,抽样比是按相同抽样概率抽样时,应用surveylogistic回归模型对个体水平变量第1类错误率影响最大。随着人数多的一层的ICC增大,组群水平变量的第1类错误率会增高。
  95%可信区间覆盖率最高的是GLMM,无论在个体水平还是组群水平变量上,最差的是logistic回归,同时,95%可信区间覆盖率还受抽样比和给定个体水平变量的系数的影响,且人数多的一层的ICC和方法形成交互作用影响95%可信区间覆盖率。三种统计方法对个体水平和组群水平变量的偏倚的影响差异不大,相比之下,GLMM比其他两种方法对偏倚的影响要大。
  结论:
  传统的logistic回归方法在分层整群抽样数据中应用是受到限制的。在做这类数据分析时,我们可以从两个角度去考虑分析:在个体水平变量上,最好的方法是GLMM,而如果应用传统的logistic回归方法在两层ICC都不大的情况下,也不会出现大的问题,不建议使用复杂抽样的logistic回归;但是,在组群水平变量的问题上时,传统的logistic回归方法会造成参数估计的标准误被低估,从而使得其显著性检验过于宽松,这种情况下,GLMM和复杂抽样的logistic回归更加适用,但如果考虑到计算的简便省时,并且抽样框信息齐全的情况下,推荐使用复杂抽样的logistic回归。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号