首页> 中文学位 >几类高维复杂数据半参数模型的结构识别、变量选择及稳健估计
【6h】

几类高维复杂数据半参数模型的结构识别、变量选择及稳健估计

代理获取

目录

声明

摘要

第一章 绪论

§1.1 半参数统计模型

§1.2 纵向数据以及缺失数据

§1.2.1 纵向数据

§1.2.2 缺失数据

§1.3 变量选择以及稳健估计

§1.3.1 变量选择

§1.3.2 稳健估计

第二章 基于惩罚M型回归的部分线性变系数模型的结构识别和变量选择

§2.1 引言

§2.2 模型结构识别和变量选择

§2.2.1 惩罚的M型回归

§2.2.2 算法

§2.2.3 压缩参数选择

§2.2.4 渐近性质

§2.3 模拟研究

§2.4 纵向AIDS数据分析

§2.5 小结

§2.6 附录:定理的证明

第三章 分组加法多指标模型的稳健方向识别及其应用

§3.1 引言

§3.2 稳健方向识别和估计

§3.3 应用

§3.3.1 部分线性单指标模型的免迭代复合分位数估计

§3.3.2 P>>n情况下的变量选择

§3.4 模拟研究

§3.5 实际数据分析

§3.6 附录:引理和定理的证明

第四章 带有缺失数据的非线性条件估计方程的最小光滑距离估计

§4.1 引言

§4.2 方法

§4.3 理论性质

§4.4 模拟研究

§4.5 小结

§4.6 附录

第五章 纵向数据广义部分线性变系数模型的稳健和有效估计

§5.1 引言

§5.2 方法和主要结果

§5.2.1 方法

§5.2.2 渐近性质

§5.2.3 讨厌参数

§5.2.4 算法

§5.3 数值结果

§5.4 附录

参考文献

致谢

攻读博士学位期间完成论文情况

展开▼

摘要

在现代科学研究的很多领域,比如医学研究、农业研究、社会调查、经济学、生物学以及流行病学等领域,常常会遇到纵向数据以及缺失数据等复杂数据。而且,随着数据收集能力的提高和成本的降低,以及数据存储技术的快速发展,数据的维数越来越大。另外,由于半参数模型能够避免完全非参数模型的“维数灾难”以及参数模型的模型假定错误风险,其应用范围十分的广泛。所以,研究高维复杂数据半参数模型的统计推断问题有重要的理论意义和实用价值,这也成为了当今统计界的热点问题。
  本文的第二章研究了纵向数据部分线性变系数模型的部分线性结构识别和变量选择问题。部分线性变系数模型因为其灵活性和简洁性被广泛地应用在纵向数据的分析中。然而,关于这个模型的推断方法都是基于如下假定:哪些变量对响应变量具有常数效应和哪些变量对响应变量具有变化效应是已知的,即假定协变量xij=(x1ij,…,xpij)T可以分为互不相交的两部分x(1)ij=(1xij,…,xp1ij)T与x(2)ij=(xp1+1ij,…,xpij)T,其中x(1)ij具有变化效应,x(2)ij具有常数效应,然后所有的推断问题都是基于模型yij=α(T)Tx(1)ij+βTx(2)ij+εij进行的。这个部分线性模型结构假定在实际建模中具有基础性的地位,因为模型拟合的有效性以及后续的理论推断都很大程度上取决于模型结构指定是否准确。然而,在实际应用中这种假定是不合理的,因为我们很难凭经验准确的确定某个变量具有变化效应还是常数效应,这就导致了现有方法的局限性。而且,在实际中,模型相关变量集合以及每个相关协变量xkij对响应变量yij的作用形式在响应变量的均值以及不同的百分位点处往往是不同的。例如,在第2.4节,分析纵向的AIDS数据时,我们发现协变量PreCD4对响应变量的低分位数具有变化效应,而对均值以及高分位数具有常数效应。另外,观测数据往往是存在异常点的,这就需要方法稳健。注意到,半参数部分线性变系数模型一定具有如下潜在的结构,yij=∑ k∈AVxijαk(tij)+∑ k∈ACxkijβk+∑k∈AZxkij0(tij)+(ε)ij,其中,0(·)表示取值恒为零的函数,集合AV,AC以及AZ是未知的,分别代表变化效应、非零常数效应以及零效应变量(即不相关变量)的指标集合,他们是互不相交的,且满足AV∪AC∪AZ={1,…,p}。基于一个可以将均值回归、中位数回归、分位数回归及稳健的均值回归纳入同一个框架下的一般的M型损失函数以及惩罚型变量选择方法的思想,第二章提出了一个惩罚的M型回归,其能够一步实现非零系数αk(·),k∈AV与βk,k∈AC的估计和三种类型的选择:变化效应和非零常数效应选择,以及模型相关变量选择(即,识别未知的指标集合AV,AC以及AZ)。该方法计算简便,而且通过选择不同的损失函数,可以更加清楚地刻画响应变量和协变量之间的关系以及做到对异常点稳健。理论方面,在一些正则条件下,建立了三种类型的选择的选择相合性以及系数估计的Oracle性质。选择相合表明新方法能够正确地识别变化效应、非零常数效应以及相关变量的概率趋近于1,即limn→∞ Pr{(A)V=AV,(A)C=AC,(A)Z=AZ}=1,其中,(A)V,(A)C以及(A)Z分别是AV,AC以及AZ的估计。这里的Oracle性质意味着变系数函数αk(·),k∈AV的估计达到了最优的收敛速度,而非零的常数系数βk,k∈AC的估计具有与在部分线性结构及相关变量已知的情况下得到的估计相同的渐近分布。数值模拟结果和实际数据分析也都进一步证实了方法的有效性。
  本文的第三章考虑如下的分组加法多指标模型Y=K∑k=1gk(βTkXk)+ε的稳健估计问题。其中,gk(·)是未知的联系函数,Y∈R为响应变量,X∈Rp是p维的预测向量,假定X可以被划分为K个互不相交的分组,即,X=(XT1,…,XTK)T,Xk=(Xk1,…,Xkpk)T∈Rpk,k=1,…,K,p=∑Kk=1 pk,βk=(βk1,…,βkpk)T是与Xk相对应的我们感兴趣的指标向量,随机误差ε与X相互独立。Wang et al.(2015)也考虑了相同的模型。很明显,当K=1时,其变为传统的单指标模型。如果K=2而且g1(u)=u,其变为部分线性单指标模型。而且,在函数gk(·),k=1,…,K没有给定的情况下,指标参数βk,k=1,…,K是不可识别的。因此,我们对βk,k=1,…,K的方向更加感兴趣,而不是其真实值。定义p×K矩阵P=[β10p1×1…0p1×10p2×1β2…0p2×1…………0pK×10pK×1…βK],其中,0pk×1是pk×1的零矩阵,k=1,…,K。很明显,针对上面的分组加法多指标模型,在PTX的条件下,Y与X是独立的。P的列空间被称为中心降维子空间(Li1991,Wanget al.2015)。在假定如下的线性条件:E(X|PTX)=Cov(X)P{PTCov(X)P}-1 PTX成立时,Wang et al.(2015)证明了线性最小二乘解与(βT1,…,βTK)T同方向,即,存在φk∈R,k=1,…,K,使得βLS=[Cov(X)]-1Cov(X,Y)=(φ1βT1,…,φKβTK)T成立。然而,众所周知,最小二乘方法极易受到异常值以及重尾分布的影响。因此,探究如何利用稳健高效的复合分位数方法(Zou and Yuan2008,Kai et al.2011)来改进最小二乘方法的缺陷是很有意义的。有趣的是,与最小二乘解βLS相似,我们发现,不需要借助任何的非参数方法,Y关于X的简单线性复合分位数回归系数可以提供βk,k=1,…,K的方向的相合以及渐近正态估计。具体地讲,假定,0<(τ)1<(τ)2<…<(τ)q<1,b=(b1,…,bq)T,η=(ηT1…,ηTK)T,ηk=(ηk1,…,ηkpk)T,k=1,…,K,首先定义如下的总体形式的线性复合分位数损失函数L(b,η):=q∑j=1E[ρ(τ)j(Y-bj-(K∑k=1ηTkXk))],其中,ρ(τ)j(u)=(τ)ju-u1(u<0),(τ)j=j/1+q,j=1,…,q,1(·)是示性函数。令,((b),(η))=arg minb,ηL(b,η),在相同的线性条件下,我们证明了(η)=(ηT1,…,ηTK)T属于P的列空间,即,存在κ=(κ1,…,κK)T∈RK,使得下式成立(η)=(κ1βT1…,κKβTK)T=Pκ.这就意味着,K个指标向量βk,k=1,…,K的方向可以通过线性复合分位数回归的方法进行识别。接下来,基于样本{Xi,Yi}ni=1,L(b,η)的样本形式定义为Ln(b,η):=1/nn∑i=1q∑j=1ρ(τ)j(Yi-bj-(K∑k=1ηTkXik)).然后,令((b),(η))=arg minb,ηLn(b,η)。那么,(η)=((η)T1,…,(η)TK)T即是(η)的线性复合分位数估计,而且,我们证明了(η)的渐近正态性。另外,我们也通过bootstrap方法得到了估计量的近似分布。作为具体的应用,针对部分线性单指标模型的稳健估计问题,我们提出了一个不需要迭代的复合分位数估计方法,并且证明了渐近性质。另外,针对稀疏的高维模型的变量选择问题,我们提出了如下惩罚的复合分位数回归变量选择方法(Q)λ(b,η)=1/nn∑i=1q∑j=1ρ(τ)j(Yi-bj-(k∑k=1ηTkXik))+K∑k=1pk∑l=1pλ|ηkl|),其中,pλ(·)是惩罚函数,本章主要考虑两个非凸的惩罚函数:SCAD(Fan and Li2001)以及MCP(Zhang2010),λ是非负的压缩参数。在p(》)n的情况下,我们建立了变量选择的Oracle性质,即limn→∞ Pr{(η)°∈Bn(λ)}=1,其中,Bn(λ)表示压缩参数为λ时,上面惩罚的复合分位数目标函数的局部最小值集合,(η)°为oracle估计,即在真实模型下得到的估计。
  第四章考虑如下的d维的估计函数:Q(θ,y,x)=(Q1(θ,y,x),…,Qd(θ,y,x))τ,其中,θ=(θ1,…,θp)(τ)是p维的待估参数,Qk(θ,y,x),k=1,…,d是给定的函数,其关于θ可能是非线性的,(τ)表示向量的转置。而且假定估计函数是条件无偏的,即,存在唯一的解θ0满足E[Q(θ,Y,X)|X]=0(a.s.).当条件估计函数是非线性的以及数据带有缺失时,统计分析会面临两方面的困难:完整数据分析的模型不可识别性以及非参数插补方法会失效。为了解决这些问题,针对上面的带有缺失数据的非线性条件估计方程,本章提出一个完全插补光滑距离。基于此,针对估计方程中的未知参数,我们进一步提出一个最小光滑距离估计方法。这个方法可以唯一的识别非线性模型中的参数,而且,尽管中间过程使用了多元核函数,但对于一个固定的、不趋向于零的窗宽,最终的估计依然具有√n相合性以及渐近正态性。即,对任意的h0>0,当窗宽为h样本量为n时,在一些正则条件下,估计量θ*n,h满足下式sup h0≥h>0,nh2p≥log(n+1)‖θ*n,h-θ0‖=op(1),而且,√n(θ*n,h-θ0)依分布收敛到一个以h为指标而且以零为均值的正态分布为边际分布的紧的随机过程,对于h∈(H)n={h0≥h>0:nh4p/α≥C}一致成立,其中,C>0,0<α<1。当然,对于趋向于零的窗宽,相合性以及渐近正态性也自然成立。因此,在模型是非线性的以及变量是多元的情况下,这个新方法具有很强的灵活性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号