调查数据缺失值常用插补方法比较的实证分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

由于调查受到各种已知或者未知因素的影响，往往会出现调查数据的缺失。在统计中，调查数据的缺失值问题是目前普遍存在而且难处理的问题。近年来，随着大数据时代的到来，这一问题越来越受到国内外学者的关注。数据缺失，尤其是高缺失率很容易引起数据本身的可用性的缺失，增加了数据分析的难度，使得统计分析出现很大的偏差，从而会降低研究者工作效率。对于含有缺失值的调查数据，事前预防是最有效的方法，即在调查过程中把无回答率降到最低，提高被调查者的回答率。但是由于各种因素的影响，现实中的无回答总是无法避免的，所以，对于调查数据无回答的事后处理显得尤为重要。
　　调查中出现的问题不同，得到的含有缺失值的调查数据的特点也就不一样，所以采取的处理这些缺失值的方法也是不相同的。本文选取统计学上常用的缺失值插补方法，包括EM算法插补、多重插补法、回归插补法、均值插补法这四种插补方法，分别通过构建统计学模型来进一步探索这四种插补方法的插补效果。含有缺失值的数据集是利用SPSS随机生成。所研究的条件分别为:变量缺失的模式，即单一变量缺失和多变量缺失;不同的缺失率分别为10％、20％、30％、40％、50％;不同缺失率下的辅助变量的个数不同，分别为4个、7个及10个辅助变量的模拟比较分析。
　　全文首先介绍了选题背景和研究意义，以及国内外对缺失值处理方法的文献综述和国内外文献评述。第2章介绍了缺失数据问题相关的理论，包括缺失数据产生的原因以及缺失值的缺失机制和模式。第3章详细总结了统计上常用的缺失数据插补方法。第4章利用缺失值插补常用方法对调查数据进行实证分析。利用均值插补、回归插补、EM算法、多重插补这四种插补方法，分别在单一变量缺失和多变量缺失的情况下，结合数据挖掘技术分析这些方法在不同的数据缺失率(10％、20％、30％、40％、50％)的插补效果分析。第5章是对全文的总结及展望。

著录项

作者
冯丽红;
展开▼
作者单位

河北经贸大学;

展开▼
授予单位河北经贸大学;
学科应用统计学
授予学位硕士
导师姓名李春林;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类统计资料的分析和整理;
关键词
调查数据; 缺失值插补法; CART模型; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 调查数据中缺失值的推理插补——以CGSS2013为示例 [J] . 褚刚 . 调研世界 . 2019,第005期
2. 正态线形模型下缺失值的Bootstrap多重插补与比较 [J] . 潘传快 ,祁春节 ,李思璇 . 统计与决策 . 2017,第10期
3. 基于指数平滑法的交通量检测设备短期缺失值插补方法分析 [J] . 李锋 ,申在明 . 交通标准化 . 2013,第009期
4. 随机试验设计中缺失值插补方法研究 [J] . 李杰 ,张晓玲 . 大理学院学报 . 2013,第010期
5. 交通流量数据缺失值的插补方法 [J] . 韩卫国 ,王劲峰 ,胡建军 . 交通信息与安全 . 2005,第001期
6. 基于临床数据集的缺失值处理方法比较 [C] . LI Lin ,李琳 ,YANG Hong-mei . 2018中华医院信息网络大会（CHINC） . 2018
7. 调查数据缺失值的多重插补研究 [A] . 李圣瑜 . 2015

调查数据缺失值常用插补方法比较的实证分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅