首页> 中文学位 >高维数据的检验问题和上期望参数回归
【6h】

高维数据的检验问题和上期望参数回归

代理获取

目录

声明

摘要

符号说明

第一章绪论

§1.1聚类方法及相关检验

§1.1.1 聚类方法

§1.1.2 聚类检验方法

§1.2均值向量的检验方法

§1.2.3 Bai-Saranadasa的渐近正态检验

§1.2.4 Chen-Qin检验

§1.2.5 Cai-Liu检验

§1.3参数回归和上期望

§1.3.1 参数回归模型

§1.3.2 上期望

§1.4论文结构

第二章高维数据下聚类的显著性检验方法及其应用

§2.1 引言

§2.2新的显著性检验方法

§2.2.1 聚类指标BCI

§2.2.2 BCI的理论性质

§2.3推广至部分标记的数据集

§2.4模拟研究

§2.4.1 单一高斯样本数据集

§2.4.2 具有一个方向信号的双高斯分布的混合数据集

§2.4.3 具有全部方向信号的双高斯分布的混合数据集

§2.4.4 非高斯样本数据集

§2.4.5 小结

§2.5实际数据分析

§2.5.1 肺癌数据

§2.5.2乳腺癌数据

§2.6结论

§2.7理论解释与相关证明

第三章高维数据下Neyman截断均值检验方法及其应用

§3.1 引言

§3.2两类经典的双样本检验方法

§3.2.1 “Sum-of-Squares”类型检验统计量

§3.2.2 “Max”类型检验统计量

§3.2.3 小结

§3.3 Neyman截断双样本检验

§3.3.1 检验方法

§3.3.2 理论性质

§3.3.3 Bootstrap检验步骤

§3.4样本变换的Neyman截断双样本检验

§3.5 模拟实验

§3.6实际数据分析

§3.7结论与讨论

§3.8理论证明

第四章上期望回归

§4.1 引言

§4.2 动机以及上期望回归

§4.2.1 定义

§4.2.2 上期望线性回归

§4.2.3估计β和(u)的动机

§4.3方法和理论性质

§4.3.1 β和(u)的第一步估计值

§4.3.2 (u)的第二步估计值

§4.3.3 算法总结

§4.4推广和讨论

§4.5 数据研究

§4.5.1 模拟研究

§4.5.2 实际数据分析

§4.6结论

§4.7理论证明

参考文献

致谢

攻读博士学位期间发表及完成的论文

展开▼

摘要

近几十年来,生物科学、医学、信息技术和金融学等领域高速发展,许多需要解决的实际问题会涉及到各种类型的数据.面对如此繁杂的数据,统计学的作用尤为凸显.本论文中,主要研究高维数据的检验问题并对分布随机性数据进行建模.在论文的检验部分,考虑高维数据聚类的显著性检验以及双样本均值向量的检验.在分布随机性数据的分析中,先给出分布随机性的定义,针对这类数据构造上期望回归模型,并提出以两步惩罚的最大最小二乘方法估计上期望模型中的均值函数和误差项的上期望.这两大类问题具有一个共同特点,即数据集中的样本可能来自多个分布. 本文主体框架分为四个章节:第一章简单介绍聚类方法以及相关检验、均值向量检验的经典方法、经典参数回归模型以及上期望的概念,并在章节最后给出论文的主要结构.第二章和第三章都围绕高维数据的检验展开.其中,第二章提出新的聚类显著性检验方法NewSig,并应用到癌症数据的分析中.第三章构造Neyman截断统计量检验双样本的均值向量,并应用到白血病基因数据中.第四章研究分布随机性数据的特点,定义与之对应的上期望回归模型并提供相关参数估计方法.下面分别对第二、三、四章节进行简要介绍. 第二章:研究高维数据的聚类显著性检验问题.面对大量数据,人们首先想到归纳整理,这就涉及到聚类方法,比如基于平方距离的K-means聚类和基于树状图的层次聚类.目前己存在众多聚类方法,对某一确定的数据集,肯定存在某种聚类方法能将其划分为几个子类.但是,极少有学者在聚类之前判断数据集是否存在真实的子类,亦或是仅仅因为偶然而造成的结果.虽然这个问题经常被忽视,但这却是实施聚类方法并进行实际应用之前的一个重要步骤.本文这一部分即是对高维数据集是否具有真实子类这个显著性检验问题展开讨论的. 这一章节首先引入一个小案例,即在正态分布N(0,1)中随机生成n个样本,将其分为两个极端子类,然后通过常用的t统计量来检验两个子类之间的差异.检验所得结果中的p-值近似为零,意味着拒绝原假设,即数据不是来自于同一分布,这一结论与事实相互矛盾.这个案例说明均值检验不适用于检验聚类显著性,统计学中明显缺乏系统的聚类显著性检验方法.Liu et al.(2008)[47]提出SigClust检验,但该方法对第一类错误的过度保守控制导致检验功效降低.对此,仔细研究SigClust检验的统计量CI,剔除掉统计量里面一些重复和无用的项,并基于不同观测值之间的平方距离来构建新的统计量BCI.该统计量具有位移和旋转不变性,可避免检验过程中对均值和协方差矩阵的估计.原假设H0下,BCI仅由协方差矩阵的最大特征值和所有特征值的总和决定.在备择假设H1下,满足一定条件时,检验功效趋于1.之后还将新方法NewSig推广至部分标记数据集的检验中.与SigClust检验相比,新统计量的变异系数(CV)显著降低,使得整个模拟过程更加稳定.在模拟实验和两例癌症数据分析中,NewSig检验在控制第一类错误的同时,也获得更大的检验功效. 第三章:研究高维数据的双样本均值检验问题.在第二章曾提到过t检验,这是一元均值检验的经典方法.对于多元变量,检验均值向量一般使用Hotelling-T2检验方法.然而,在高维数据情况下,检验问题通常涉及到样本协方差矩阵的估计,并且高维数据本身会受累计误差的影响.因此,Hotelling-T2统计量不适合检验高维数据.从Dempster的非精确检验到Chen-Qin检验及Cai-Liu检验,高维数据的均值检验方法日趋成熟.目前存在的均值向量检验方法主要分“Sum-of-Squares”和“Max”两种类型.但是这两种方法都有局限性,“Sum-of-Squares”类型的检验方法更适用于高维稠密数据,而不适用于高维稀疏数据;“Max”类型的检验方法虽然可以检验高维稀疏数据,但对于既不稠密也不稀疏的数据检验功效明显降低. 受Fan(1996)[21]的启发,在这一章节提出一种“Max-Partial-Sum”类型的检验方法——Neyman截断检验,即由边际统计量最大的部分和构造而成.“Sum-of-Squares”类型和“Max”类型统计量可视为“Max-Partial-Sum”类型统计量的两种极端情况.Neyman截断统计量的构造方式不仅使Neyman检验继承了“Sum-of-Squares”类型和“Max”类型统计量分别在检验稠密和稀疏数据时的较高功效,而且使它在检验既不稀疏也不稠密的信号时同样表现良好.为使检验方法对高维微弱信号更加敏感,通过样本变换的方式对其进行修正,在削弱样本每个分量之间依赖性的同时,也增强两个样本间信号差异的强度.在理论上给出Neyman截断统计量在原假设H0下的渐近分布——双指数分布,在备择假设H1下,数据满足一定条件时检验功效趋于1.因为双指数分布收敛速度较慢,实际应用中采用Boostrap方法模拟统计量的分布.在模拟实验和白血病基因实例分析中,Neyman截断检验表现优异. 第四章:研究分布随机性数据的上期望回归问题.回归问题在多元数据分析时应用广泛,主要来源于其概念性的逻辑过程,即用模型方程的形式表达响应变量与预测变量之间的关系.本章节开始部分对斯普林菲尔德第五国家银行1995年的数据集进行简要分析,以年薪作为响应变量,工作水平、教育水平、性别和一个虚拟变量作为与之相关的预测变量.经典线性回归拟合结果的残差十分分散,甚至出现明显的集群现象.之后尝试了非线性模型,但结果并未有太大改善.这引发了我们的思考:是否存在未被观测到或被忽略的预测变量. 事实表明,在回归分析中,的确可能存在一些不可观测的、未被观测到或被忽略的预测变量,而这些因子会随机地影响响应变量.当给定这些因子时,观测值服从相应的条件分布,定义这类现象为分布的随机性.针对这类数据,将Huber(1981)[39]提出的上期望融入到传统的参数回归中,构造出上期望回归模型.之后,还给出两步惩罚的最大最小二乘方法,用以估计均值函数和误差项的上期望.需要一提的是,在估计过程中需要选择可用的观测值来估计误差上期望,这与在第三章中选取部分边际统计量的思想有异曲同工之妙.在一定条件下,通过理论可证明所得的估计量是一致渐近正态的.模拟实验和实际数据分析也同样展示了上期望回归模型和相应参数估计方法的良好表现.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号