首页> 中文学位 >超高维线性回归模型中基于3×2交叉验证的方差估计
【6h】

超高维线性回归模型中基于3×2交叉验证的方差估计

代理获取

目录

第一章 引言

§1.2 本文的主要工作

§1.3 本文的结构安排

第二章 超高维线性回归模型及方差估计方法介绍

§2.2.1 方差σ2的LSE估计

§2.2.2 方差σ2的RCV估计

第三章 方差σ2的B3×2CV估计

§3.2 模拟实验

§3.2.1 实验一

§3.2.2 实验二

§3.3 总结

第四章 方差σ2的V-B3×2CV估计

§4.2 模拟实验

§4.2.2 实验二

§4.2.3 实验三

§4.2.4 实验四

§4.2.5 真实数据实验

§4.3 总结

第五章 V-B3×2CV估计的渐近正态性

第六章 总结与展望

§6.2 总结

§6.3 展望

参考文献

攻读学位期间取得的研究成果

致谢

个人简况及联系方式

声明

展开▼

摘要

回归模型中的方差估计是回归分析中的基本统计推断问题之一。良好的方差估计是回归系数的置信区间、假设检验以及变量选择中的调节参数的选择的基础。
  对于一般的线性模型,方差估计的传统估计方法分为两步:首先用AIC,BIC等准则进行模型的变量选择,而后用最小二乘法对所选变量的回归系数进行估计,用残差平方和除以剩余自由度得到方差的估计,一般称该种估计为最小二乘估计(以下简称LSE)。在典型的线性回归模型下,方差的最小二乘估计是一致最小方差无偏估计。
  但是,在超高维线性回归中,即协变量的个数远大于样本量的情况下,Fan et al.(2012)发现LSE将会产生很大的偏差,回归变量的维数越高偏差越大。为此,Fan et al.提出了一种基于2折交叉验证的方差的RCV(refitted cross validation)估计方法,即将数据的一半用于模型的变量选择,另一半用于回归系数和方差的估计,大量的模拟实验验证了RCV能有效纠正LSE方法的偏差。
  然而,我们发现RCV的方差估计主要依赖于变量选择的好坏,若开始用一半的数据选到的变量集不包含全部真实变量,则用另一半估计方差时效果就会差。虽然Fan et al.也提出可以采用多组2折交叉验证,以多组RCV的平均来提高方差估计的精度,但只要有一组变量选择的结果不好,多组RCV估计也不会好。因此,变量选择的好坏是方差估计的关键。
  事实上,在超高维线性回归中,变量是稀疏的,通常先用SIS方法选择变量个数到适当维度,再去参数估计。但RCV方法在使用SIS选变量时,往往丢掉一些真实变量,即使用多组RCV也没能改善变量选择的结果,导致多组RCV估计的结果也不能得到较大的改进。
  本文提出了用组块3×2交叉验证方法估计超高维线性回归模型的方差。组块3×2交叉验证是将数据等分为4分,任选两份作为训练集,其余两份为测试集,这样构成3组2折交叉验证。Wang et al.(2014)证明组块3×2交叉验证有良好的性质.具体的估计方法是,以组块3×2交叉验证的6次单独选变量的结果,按变量被选中的次数从大到小来选择最终的变量,确定变量集后再去估计方差。我们将该方法称为方差的投票-组块3×2交叉验证估计(简记为V-B3×2 CV估计)。
  本论文通过大量的模拟实验对比了V-B3×2CV方法和RCV方法,实验结果表明,V-B3×2CV估计的偏度小于RCV估计,且V-B3×2 CV具有更小的方差,同时V-B3×2 CV方法对真实模型的大小不敏感。另外,对真实数据(取自于UCI数据库的白酒数据)也使用V-B3×2 CV方法进行了分析,进一步证明了V-B3×2CV方法的优良性。最后,本文从理论上证明了V-B3×2CV估计的渐近正态性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号