首页> 中文学位 >多变量缺失数据填补算法的研究
【6h】

多变量缺失数据填补算法的研究

代理获取

目录

文摘

英文文摘

华南理工大学学位论文原创性声明及学位论文版权使用授权书

第一章绪论

第二章多重填补

第三章PCAEM算法

第四章基于粗糙集的缺失数据填补

第五章神经网络在缺失数据处理中的应用

结论

参考文献

攻读学位期间发表的论文

致谢

附录

展开▼

摘要

在数据处理过程中,时常会遇到不完整的数据集,为了更好地进行数据挖掘,我们有必要对数据进行预处理。本文从概率统计、粗糙集、神经网络的角度研究和探讨了缺失数据的多种填补算法,有效地解决了多种情形下的不完整数据集的完整化问题。 基于概率统计,首先介绍了应用较为广泛的一种处理缺失数据强有力的工具——多重填补,着重阐明了其中的MCMC方法的填补及统计分析过程,并用实例验证了该方法填补的准确度。多重填补法在综合统计推断中体现了由于缺失数据而产生的不确定性,克服了简单填补的主要缺陷。另外,作为一种新的方法,本文尝试将多元统计中主成分分析的理论与EM算法相结合,以期产生较好的填补效果,实验也证明了这一点。 基于粗糙集理论的ROUSTIDA算法,是在可分辨矩阵的基础上用相似对象的相应属性值来对缺失属性值进行填补,但可能在处理后,仍然面临信息表没有完整化的问题。为此,文章在ROUSTIDA算法的基础上,对相似程度进行量化,扩充了相似对象集的概念,从而对算法进行了改进。改进算法对存在缺失数据对象是利用与该对象相似程度最大,即具有最强的缺失属性值填补能力的一个对象对其进行填补的,填补效率高、速度快。 由于人工神经网络具有很强的非线性并行处理能力以及一定的容错性能,使得神经网络运用于缺失数据填补成为可能。文章给出了几种特殊情形下的基于神经网络的缺失数据填补模型,并将粗糙集理论与BP网络结合起来,提出了一种新型的粗糙集神经网络模型,较好地解决了具有离散属性的不完备信息系统的完备化问题。至于其它情形下的缺失数据填补,要根据具体情况,选择合适的神经网络填补模型。 实际上,不存在可以适用于任何问题的缺失值的填补方法。而且任何一种填补算法也都不可能将缺失以前的原值完全准确地恢复过来。它们都只是对不完备信息的一种清洗补救手段,但这种补救是必要的。我们研究它,以便根据具体的不同情况选用不同的填补方法。选用时,应尽可能地做到合理、高效。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号