首页> 中文学位 >多维数据异常点识别方法的研究
【6h】

多维数据异常点识别方法的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 前言

1.1选题的意义

1.2研究方法

1.3论文创新点

1.4预期结果和意义

2常用的异常数据检验方法的比较与分析

2.1正态分布的异常数据检验法

2.2指数分布的异常数据检验法

2.3 威布尔分布的异常数据检验法

2.4均匀分布检验法

2.5多维统计数据对数正态分布异常点检验与识别

2.6对常用检验方法的总结

3寻找多指标情形下检查并发现异常点的方法

3.1统计数据中多指标情形下异常点的问题

3.2多指标情形下异常点识别的思路

3.3多指标情形下异常点识别方法的尝试

3.4小结

4结论

参考文献

致谢

作者简介

攻读学位期间的学术活动情况

附录

展开▼

摘要

统计数据质量问题一直困扰着我国统计界,是政府和社会各界关心的问题我们需要一种能检查和审核统计数据的可靠性和准确性、识别异常数据的定量方法和工具。
  在数据处理的过程中偶尔会出现一些异常的,不合逻辑的统计结果,这种结果的出现很可能是由于所处理的数据中包含异常数据造成的。但目前测量学中所提供的异常数据识别方法,都只针对一维数据,即只针对单一测量指标进行数据检查。然而,在统计实践中我们经常会感到仅仅使用单指标进行数据检查不能有效发现测量数据包含的全部异常。
  为了探索解决此类问题的方法,提高统计数据的准确性和可靠性,本文通过文献资料法、比较分析法和探究性实验法,在对常用异常数据识别方法进行分析的基础之上,尝试寻找一种可应用于多指标情形下的异常数据的识别方法,为数据分析提供便利的辅助工具。
  要建立异常点的识别方法,首先应寻找一个可以表达多指标情形下点与点之间关系的、简单易用的数量指标。距离是可以满足这个要求的指标之一,利用距离可以表示点与点间关系。如果某点是样本中的异常点,它必远离样本中的其它点,即与多数点的距离较大,其平均距离也必大。反之,若某点为正常值,则它必与样本中的某些点相邻较近,距离较小,则其平均距离必不大。基于此种思想,本文尝试利用点与点之间的平均距离作为识别多维指标下样本异常值的方法。并分别采用欧氏距离、马氏距离和斜交空间距离进行尝试。
  利用距离建立多指标情形下的异常点识别方法,虽然只是一种尝试,在简单直观的二维数据的运用效果比较好些,但在多维空间中应用是否有较好的表现,由于缺少直观有效的判据而无法验证,值得深入研究、继续完善。对于本例,三种距离获得的结果差别不大,但从距离定义的差别分析,马氏距离应更优于欧氏距离和斜交空间距离。该方法目前尚未完善,还存在许多问题需要在今后的研究中不断完善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号