首页> 中文学位 >基于统计学习的逆概率加权方法研究及其在医学中的应用
【6h】

基于统计学习的逆概率加权方法研究及其在医学中的应用

代理获取

目录

声明

摘要

缩略词表

第一部分 概述

一、研究背景

(一)潜在结果框架(Potential Outcomes Framework)

(二)逆概率加权(Inverse Probability Weighting,IPW)

(三)连续性处理/暴露因素的效应估计

(四)时依性竞争风险生存资料的效应估计

二、研究目的与意义

(一)研究目的

(二)研究意义

第二部分 研究内容与步骤、技术路线

一、研究内容与步骤

(一)连续性处理因素的逆概率加权方法研究

(二)时依性竞争风险生存数据的逆概率加权方法研究

二、研究技术路线

三、资料来源及研究平台

第三部分 连续性处理因素的逆概率加权方法研究

一、引言

二、研究方法

(一)剂量-反应函数和广义倾向性评分

(二)逆概率权重的估计方法

(三)协变量均衡性的评价

(四)加权结局模型的估计

三、模拟研究

(一)模拟实验设计

(二)模拟实验结果

四、实例分析

(一)引言

(二)逆概率权重的估计

(三)协变量均衡性评价

(四)剂量-反应函数的估计

五、讨论与小结

第四部分 时依性竞争风险生存数据的逆概率加权方法研究

一、引言

二、研究方法

(一)边际结构原因别风险模型(MSCSHM)的基本原理

(二)逆概率权重的估计方法

三、模拟研究

(一)模拟实验设计

(二)模拟实验结果

四、实例分析

(一)引言

(二)分析过程

(三)结果

五、讨论与小结

第五部分 研究总结

一、研究总结

二、研究特色和创新点

(一)连续性处理/暴露因素的IPW方法研究

(二)时依性竞争风险生存数据的IPW方法研究

三、今后可开展的研究方向

(一)基于统计学习算法的效应估计值的标准误估计

(二)目标最大似然估计的兴起

(三)纵向随访数据中的协变量均衡性评价

(四)加权累积暴露模型的扩展

(五)潜在混杂因素的问题

参考文献

附录

文献综述

在读期间发表论文和参加科研工作情况

致谢

展开▼

摘要

研究背景:  探讨处理/暴露因素与结局之间的因果效应是医学研究中的重要课题。随机对照试验通常被认为是因果效应估计的金标准。在观察性研究中,研究对象的处理分配机制通常不是随机发生的,而是会受到众多混杂因素的影响。在比较处理组间的暴露效应时,如果忽略这些混杂因素,效果估计就会发生偏倚。基于边际结构模型的逆概率加权法(inverse probability weighing,IPW)是一类可用于观察性资料处理效应估计的重要方法。IPW在应用时需要满足一些前提假设,比如无遗漏未观测混杂因素、非负性假设、稳定单元处理值假设以及要正确设定权重估计模型等。对于IPW而言,第一阶段的逆概率权重估计非常关键,这是因为最终的处理效应估计对于第一阶段的权重估计准确与否非常敏感。如果权重估计模型设定错误(如遗漏二次项或交互项等),估计的权重就不准确,且容易产生极端权重,导致最终的效应估计发生偏倚。近年来,越来越多的研究人员推荐采用包括许多统计学习算法在内的数据适应性方法估计逆概率权重,取得了良好的效果。然而,目前的研究大多局限于二分类处理因素资料以及单一结局纵向生存资料。  医学实践中存在着许多处理/暴露因素为连续性变量的资料以及时依性竞争风险生存资料。对于处理因素为连续性变量的资料类型而言,采用IPW进行效应估计要比二分类处理因素的情况更复杂,比如要考察处理因素的分布类型、控制较多的极端权重对于效应估计的影响等。对于时依性竞争风险生存资料而言,传统的边际结构原因别风险模型(marginal structural cause specific hazard models,MSCSHM)中的逆概率权重是多次随访所得的权重累乘所得。即使权重估计模型设定发生了比较轻微的错误,最终处理效应估计都将可能发生严重的偏倚。有鉴于此,探索基于统计学习算法的逆概率加权法在连续性处理因素资料以及时依性竞争风险生存资料中的适用效果具有潜在的理论意义和实际应用价值。  研究目的:  1、针对连续性处理因素的资料,通过模拟研究比较包括一般线性模型在内的7种逆概率权重估计方法在不同数据情境下的估计效果。同时,以一般线性模型为例,探讨权重截断方法对于效应估计的影响。  2、针对时依性竞争风险生存资料,在MSCSHM的基础上,引入8种统计学习方法估计逆概率权重。通过模拟研究比较logistic回归与这8种方法在不同数据情境下的估计效果,筛选出其中表现较优的方法。另外,探讨不同程度的权重截断水平对于各个估计方法的影响。  研究方法:  针对以上两个研究目的,均分别采用数据模拟→模型构建→模型筛选→实例应用的研究流程开展研究。分述如下:  1、连续性处理因素的逆概率加权方法研究  采用蒙特卡洛法模拟处理因素为连续性变量的观察性队列资料。模拟实验设置三种不同大小的样本量(250、1000和2500)和四种不同复杂程度的处理因素生成模型(线性可加、非线性、非可加以及非线性非可加模型),比较一般线性模型(general linear model,GLM)、gamma回归模型、分位数分组法(quantile binning,QB)、协变量均衡性倾向性评分(covariate-balancing propensity score,CBPS)、非参数CBPS(nonparametric CBPS,npCBPS)、boosted分类与回归树(boosted classification and regression trees,boosted CART)和随机森林(random forest,RF)等7种方法估计广义倾向性评分和逆概率权重,另外,对由GLM得到的稳定权重分别在双侧1%和5%分位点进行截断处理,得到相应的截断权重。进一步,利用得到的9个权重变量对原始样本加权,通过加权结局回归模型得到各自的处理效应估计量。采用平均绝对相关系数(average absolute correlation coefficient,AACC)、相对偏倚(relative bias)、经验标准差(standard deviation,SD)、模型输出的标准误(standard error,SE)、均方根误差(root mean squared error,RMSE)和95%置信区间(confidence interval,CI)覆盖率等指标评价估计效果。最后通过研究吸烟量对于医疗总支出的影响,比较不同的IPW估计方法在实际数据分析时的应用效果。  2、时依性竞争风险生存数据的逆概率加权方法研究  首先提出采用MSCSHM作为本研究的基础框架,引入LASSO、贝叶斯logistic回归、CART、bagged CART、boosted CART、随机森林、支持向量机(support vector machine,SVM)和EL(ensemble learner)算法等8种统计学习方法构造第一阶段的逆概率权重。然后采用蒙特卡洛法模拟时依性竞争风险生存数据。模拟设置了两种不同大小的样本量(250和1000)、不同强度的处理因素序列的自相关性(相关系数为log(4)和0.5)、不同的竞争终点事件数(2和3)以及四种处理因素生成模型(线性可加、非可加、非线性以及非线性非可加模型)。分别采用logistic回归和上述8种统计学习方法估计稳定权重。另外,分别在稳定权重分布的双侧1%、5%、10%、25%、35%和50%分位点进行截断处理,探讨不同的截断水平对于处理效应估计的影响。  上述研究过程均采用统计分析软件R3.4.3中实现。  研究结果:  1、连续性处理因素的逆概率加权方法研究  (1)模拟研究结果:①在均衡协变量的能力方面,CBPS在所有方法中表现最好,其次为npCBPS。直接采用GLM法得到的原始稳定权重对样本加权,协变量分布仍然不均衡,通过权重截断方法去除极端值后,采用GLM(1,99)加权后的样本的协变量均衡性显著改善。②Boosted CART和RF在不同程度的权重估计模型误设的情况下的估计偏倚均较小,在减小偏倚方面优于其他方法。③由GLM、GLM(1,99)和GLM(5,95)三者的SD可以看出,权重截断方法可以减小估计量的方差,且随着截断水平的提高,方差逐渐变小。④CBPS、npCBPS和boosted CART的RMSE较小,估计精度较高。由于权重截断减小了方差,致使GLM(5,95)和GLM(1,99)的RMSE小于前述三种方法。⑤随着处理因素生成模型复杂度的上升,各个方法的95%CI覆盖率均有不同程度的下降。GLM(1,99)、CBPS、npCBPS和boosted CART四种方法的表现相对稳健。  (2)实例研究结果:通过“考察处理因素的分布-逆概率权重的估计-考察权重的分布-协变量均衡性的评价-剂量反应函数的估计”的分析流程研究了吸烟数量对于医疗总支出的影响。结果表明,随着吸烟量的增加,个人的医疗总支出也随之增加;在调整了相关混杂因素后,吸烟量对于医疗总支出的效应虽有所减弱,标准误增大,但是除了boosted CART(1,99)加权法得到的估计量具有临界统计学意义外,GLM(1,99)和RF(1,99)加权法得到的估计量仍具有显著的统计学意义。  2、时依性竞争风险生存数据的逆概率加权方法研究  (1)模拟研究结果:①当处理因素生成模型仅包括主效应项(线性可加)时,boosted CART估计量的偏倚较小,且在SD和RMSE方面表现最优,而基于参数logistic回归的估计量的SD较大,估计精度较差。②当处理因素生成模型仅包括二阶交互项(非可加)时,在大样本且处理因素序列强自相关时,boosted CART和RF的估计效果非常接近,且均优于其他方法;在小样本或处理因素序列中度自相关时,RF在偏倚和RMSE方面表现最优。③当处理因素生成模型包括非线性项时,boosted CART在偏倚、RMSE和95%CI覆盖率方面最优。④当处理因素生成模型同时包括二阶交互项和非线性项时,RF在RMSE和95%CI覆盖率方面表现最优。⑤低水平(如双侧1%分位点)的权重截断能够进一步减小boosted CART和RF两种方法的RMSE。⑥在相同的模拟情境下,多数估计方法的最优截断水平不尽相同;在不同的模拟情境下,同一种方法的最优截断水平也有差异。最优截断水平的选择具有数据依赖性。  (2)实例研究结果:采用带有时依性协变量的Cox比例风险模型、分别基于logistic回归和boosted CART的MSCSHM分析硫唑嘌呤暴露对炎症性肠病患者的两个竞争终点事件的风险大小。结果显示,无论处理因素定义为过去3个月暴露还是累积暴露,各个模型的效应估计结果均未显示暴露效应具有统计学意义。  研究结论:  对于连续性处理因素资料,CBPS和npCBPS在均衡协变量方面的能力较强;在减小估计偏倚方面,boosted CART和RF等统计学习算法的表现较优;在采用IPW进行效应估计时,应首先考察权重变量的分布,若存在较多离群点,应首先对权重作截断处理,然后进行下一步的效应估计。  对于时依性竞争风险生存资料,在采用MSCSHM模型进行效应估计时,由于实际资料中的处理分配机制往往未知,建议采用boosted CART和RF两种方法替代传统的logistic回归构建逆概率权重,以减小模型设定错误对于效应估计的影响。

著录项

  • 作者

    郭威;

  • 作者单位

    中国人民解放军海军军医大学海军军医大学;

  • 授予单位 中国人民解放军海军军医大学海军军医大学;
  • 学科 流行病与卫生统计学
  • 授予学位 博士
  • 导师姓名 贺佳;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    医学资料,逆概率加权法,效应估计,统计学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号