首页> 中文学位 >因子分析模型多异常点识别的贝叶斯分析
【6h】

因子分析模型多异常点识别的贝叶斯分析

代理获取

摘要

本文主要研究因子分析模型多异常点的识别问题.在我们的问题中,异常点的个数和因子个数都是未知的.换言之,我们必须同时解决因子分析模型的多异常点识别问题和模型选择问题.针对这个复杂而又困难的问题,本文采用Bayes的方法解决.这当中最棘手的是如何设置异常点的分布.在以前的Bayes统计诊断文献中,一般假定正常点和异常点来自同一个分布族,只是参数值有所不同而已:或者均值发生了漂移,或者方差扩大了.这种做法要求我们对于异常点的产生机制预先有充分的了解.这在实际应用中并不总是可能的,因为异常点的来源一般是不清楚的.本文采取最保守的做法,假定异常点来自整个空间上的均匀分布.这相当于假定没有任何有关异常点的先验知识,对于多异常点的识别问题,本文提出了两套解决方案,即数据扫描法和随机搜索法.
   所谓数据扫描法就是为每个数据点设置一个指示变量,用于说明该数据点是否为异常点.与此相对应,在后验分布的抽样算法中,每次迭代都必须更新这些指示变量,换言之,我们要对整个数据集进行扫描,这一方案的最大好处在于容易实现.但是,当数据集比较大时,其计算量之大使人难以忍受.因此,我们提出了另一种方法,随机搜索法.在这一方案中,只有正常点的个数和每个正常点的标号(它们合在一起决定了正常点集)是随机变量,相应的抽样算法每次迭代只更新正常点集,所需的操作无非是增加一个数据点或剔除一个数据点.正常点集的更新是所谓的变维抽样问题,即在迭代过程中变量个数是可变的.为了实现变维抽样,本文采用了生死Markov链Monte Carlo(BDMCMC)方法.与其它方法相比,BDMCMC方法更容易实现.另外,因子个数的确定也是变维抽样问题,文中同样采用生死Markov链Monte Carlo方法确定因子个数.
   为了检验算法的精确性和有效性,本文进行了一系列模拟实验.实验结果令人满意:两种方法都能准确地确定因子个数和异常点,而且实验结果对参数的依赖性很小.由于迭代中需要更新的变量大大减少,随机搜索方法对于较大的数据集有明显的优势,在我们的一个实验中,随机搜索方法的计算时间缩减了30%以上.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号