首页> 中文期刊>中华流行病学杂志 >队列研究中纵向缺失数据填补方法的模拟研究

队列研究中纵向缺失数据填补方法的模拟研究

摘要

目的 数据缺失是队列研究中几乎无法避免的问题.本文旨在通过模拟研究,比较当前常见的8种缺失数据处理方法在纵向缺失数据中的填补效果,为纵向缺失数据的处理提供有价值的参考.方法 模拟研究基于R语言编程实现,通过Monte Carlo方法产生纵向缺失数据,通过比较不同填补方法的平均绝对偏差、平均相对偏差和回归分析的Ⅰ类错误,评价不同填补方法对于纵向缺失数据的填补效果及对后续多因素分析的影响.结果 均值填补、k近邻填补(KNN)、回归填补和随机森林的填补效果接近,且表现稳定;多重插补和热卡填充次于以上填补方法;K均值聚类和EM算法填补效果最差,表现也最不稳定.均值填补、EM算法、随机森林、KNN和回归填补可较好地控制Ⅰ类错误,多重插补、热卡填充和K均值聚类不能有效控制Ⅰ类错误.结论 对于纵向缺失数据,在随机缺失机制下,均值填补、KNN、回归填补和随机森林均可作为较好的填补方法,当缺失比例不太大时,多重插补和热卡填充也表现较好,不推荐K均值聚类和EM算法.

著录项

  • 来源
    《中华流行病学杂志》|2021年第10期|1889-1894|共6页
  • 作者单位

    西安交通大学医学部公共卫生学院流行病与卫生统计学系 710061;

    西安交通大学医学部公共卫生学院流行病与卫生统计学系 710061;

    西安交通大学医学部公共卫生学院流行病与卫生统计学系 710061;

    西安交通大学医学部公共卫生学院流行病与卫生统计学系 710061;

    西安交通大学医学部公共卫生学院流行病与卫生统计学系 710061;

    西安交通大学医学部公共卫生学院流行病与卫生统计学系 710061;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    纵向数据; 缺失数据; 填补;

  • 入库时间 2023-07-25 11:47:06

相似文献

  • 中文文献
  • 外文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号