首页> 中文学位 >调查数据缺失值常用插补方法比较的实证分析
【6h】

调查数据缺失值常用插补方法比较的实证分析

代理获取

目录

声明

摘要

1 绪论

1.1 选题背景和研究意义

1.2 文献综述

1.3 文章创新点

2 调查中缺失数据的介绍

2.1 缺失数据产生的原因

2.2 缺失数据的缺失机制和缺失模式

2.3 本章小结

3 缺失值处理方法

3.1 基于插补技术的处理方法

3.2 统计常用的插补方法

4 调查中缺失数据不同插补方法的实证分析

4.1 单一变量缺失值插补

4.1.1 利用4个辅助变量的各个插补方法的比较

4.1.2 利用7个辅助变量的各个插补方法的比较

4.1.3 利用10个辅助变量的各个插补方法的比较

4.2 多变量缺失值插补

4.3 本章小结

5 全文总结与展望

参考文献

后记

攻读硕士学位期间科研成果

展开▼

摘要

由于调查受到各种已知或者未知因素的影响,往往会出现调查数据的缺失。在统计中,调查数据的缺失值问题是目前普遍存在而且难处理的问题。近年来,随着大数据时代的到来,这一问题越来越受到国内外学者的关注。数据缺失,尤其是高缺失率很容易引起数据本身的可用性的缺失,增加了数据分析的难度,使得统计分析出现很大的偏差,从而会降低研究者工作效率。对于含有缺失值的调查数据,事前预防是最有效的方法,即在调查过程中把无回答率降到最低,提高被调查者的回答率。但是由于各种因素的影响,现实中的无回答总是无法避免的,所以,对于调查数据无回答的事后处理显得尤为重要。
  调查中出现的问题不同,得到的含有缺失值的调查数据的特点也就不一样,所以采取的处理这些缺失值的方法也是不相同的。本文选取统计学上常用的缺失值插补方法,包括EM算法插补、多重插补法、回归插补法、均值插补法这四种插补方法,分别通过构建统计学模型来进一步探索这四种插补方法的插补效果。含有缺失值的数据集是利用SPSS随机生成。所研究的条件分别为:变量缺失的模式,即单一变量缺失和多变量缺失;不同的缺失率分别为10%、20%、30%、40%、50%;不同缺失率下的辅助变量的个数不同,分别为4个、7个及10个辅助变量的模拟比较分析。
  全文首先介绍了选题背景和研究意义,以及国内外对缺失值处理方法的文献综述和国内外文献评述。第2章介绍了缺失数据问题相关的理论,包括缺失数据产生的原因以及缺失值的缺失机制和模式。第3章详细总结了统计上常用的缺失数据插补方法。第4章利用缺失值插补常用方法对调查数据进行实证分析。利用均值插补、回归插补、EM算法、多重插补这四种插补方法,分别在单一变量缺失和多变量缺失的情况下,结合数据挖掘技术分析这些方法在不同的数据缺失率(10%、20%、30%、40%、50%)的插补效果分析。第5章是对全文的总结及展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号