首页> 中文学位 >一类成分数据的边际两部分Beta回归模型及相关问题
【6h】

一类成分数据的边际两部分Beta回归模型及相关问题

代理获取

目录

声明

摘要

第一章绪论

§1.1零膨胀离散数据

§1.1.1 Hurdle模型

§1.1.2零膨胀模型

§1.1.3 零膨胀数据的回归分析

§1.2零膨胀半连续数据

§1.2.1 Tobit模型

§1.2.2 半连续数据的两部分模型

§1.2.3 半连续数据的回归分析

§1.2.4边际两部分模型

§1.2.5 有相关性的数据的两部分模型

§1.3模型拟合与推断

第二章一类成分数据的边际两部分模型

§2.1 引言

§2.2模型

§2.2.1 条件两部分Beta回归模型

§2.2.2 边际两部分Beta回归模型

§2.3 自变量对总体均值的影响

§2.3.1 条件模型

§2.3.2 边际模型

§2.4模拟研究

§2.5 实证分析

§2.6 小结

第三章异方差边际两部分模型

§3.1 引言

§3.2模型

§3.2.1 等方差两部分模型

§3.2.2 异方差两部分模型

§3.3 模拟研究

§3.4 实证分析

§3.5 小结

第四章随机效应边际两部分模型

§4.1 引言

§4.2模型

§4.3 自变量对总体均值的影响

§4.3.1 边际模型

§4.3.2 条件模型

§4.4模拟研究

§4.5实证分析

§4.6小结

第五章结语

附录

参考文献

致谢

攻读博士学位期间发表及完成的论文

展开▼

摘要

本论文研究两部分模型(two-part model)对零膨胀(zero inflated)数据统计推断问题.零膨胀数据是指响应变量中含有大量的零值,这导致该响应变量的分布已不适合用标准的概率分布来描述.例如,在某项研究中,响应变量Y是某地区就诊的病人们看急诊的次数,次数为0表示病人没有看急诊,而是普通的就诊.实际上,这些病人中的大部分只是普通的就诊,而并非看急诊.因此,响应变量Y在大部分样本上的取值为0.如果用泊松分布来刻画Y的分布,且泊松分布的均值用样本的平均数来估计,则用该泊松分布算出来的零值的比例将远小于数据中零值的真实比例.这样的数据就是零膨胀数据.零膨胀数据经常出现于生物医学、医疗卫生、经济学、生态学等领域.零膨胀数据及其研究越来越受到科研人员的重视.这方面的研究成果经常发表于各学科的顶级期刊,如Journal of the American Statistical Association,Nature,Nature Communications,Cell Host Microbe,Bioinformatics,Statistical Methods in Medical Researchs等, 综上所述,零膨胀数据Y的分布规律可如下表示:Y~0,依概率1-p,~f(y;θ),依概率p;(1)其中f(y;θ)是非零值的分布,θ是其参数.为了研究零膨胀数据Y与某些自变量x之间的关系,学者们提出了两部分回归模型.顾名思义,两部分模型包含两个子模型.第一部分子模型用来描述Y是否为零,通常用logistic回归模型刻画p与自变量的关系;第二部分子模型刻画非零的响应变量与自变量的关系,一般用(广义)线性回归模型来描述. 令μ=E(Y|Y>0)表示非零部分的均值,两部分模型的一般形式可如下表示:logit(pi)=xTiα=α0+α1xi1+…+αpxip,g(μi)=xTiβ=β0+β1xi1+…+βpxip,i=1,…,n;(2)其中g是连接函数.模型(2)被称为条件两部分模型,因为第二个子模型中的μ表示条件均值. 需要注意的是,条件两部分模型(2)中的系数β描述自变量对响应变量的条件均值μ的影响.然而在实际问题中,人们更关注自变量对总体均值v=E(Y)的影响.基于此,提出边际两部分模型以刻画自变量对总体均值的影响.简单地说,边际两部分模型直接对总体均值v与自变量之间的关系做回归分析:logit(pi)=xTiα=α0+α1xi1+…+αpxip,g(vi)=xTiγ=γ0+γ1xi1+…+γpxip,i=1,…,n.(3)边际两部分模型(3)能更准确地刻画自变量对总体均值的影响,将在论文的主体部分具体介绍. 本论文包含五章主要内容以及附录等.下面,介绍前四章的主要内容,论文的第五章是对全文的总结. 第一章:本章介绍两部分模型的基本知识.从实际问题中面临的数据出发,分别介绍零膨胀的离散数据和零膨胀的半连续数据;然后,针对这两种不同类型的数据,分别介绍刻画其分布的两部分模型,以及研究响应变量与自变量之间关系的两部分回归模型.例如,对于零膨胀的离散数据,Hurdle模型、零膨胀泊松模型、零膨胀负二项模型等可以描述其分布.对于零膨胀的半连续型数据,可以用对数正态等分布描述其非零值的部分.之后,介绍了两部分回归模型的某些推广形式,如将条件模型推广为边际模型,以刻画自变量对总体均值的影响;或者在模型中明确地对方差做回归,以刻画数据的异方差性;还可以在模型中引入随机效应,以刻画数据间的相关性等.这三个方面的推广也是本论文的主体部分,分别在第二章、第三章和第四章中介绍.最后,介绍两部分模型中参数的估计方法. 第二章:本章研究一类特殊的半连续型数据,即取值范围是[0,1)的成分数据.在生物医学研究中,学者们发现许多疾病与人体内某些微生物的数量息息相关.为了探究疾病的发病原因,研究人员有时需要研究两组不同的样本,如实验组和对照组,中微生物的数量.首先,每个样本中多种微生物的绝对数量会被测量出来.然而,由于不同样本中微生物的总数经常存在巨大的差异,因此绝对数量不适合在样本间进行直接的比较.所以,绝对数量会被转化成相对数量,即样本中每种微生物所占的比例.这就是成分数据. 记Yi为第i个样本中某种微生物的比例,i=1,2….,n,则0≤Yi<1.如下的两部分模型可用来描述Yi的分布规律:Yi~0,以概率1-pi,~Beta(μiφ,(1-μi)φ),以概率pi;(4)其中pi是Yi取非零值的概率,Beta(μiφ,(1-μi)φ)是以μi(0<μi<1)为均值参数、φ(φ>0)为离散参数的Beta分布.μi即是在其非零的条件下,响应变量Yi的条件均值E(Yi|Yi>0). 为了刻画Yi与自变量Xi之间的关系,传统的条件两部分Beta回归模型分别使用广义线性模型对概率pi和条件均值μi进行回归分析:logit(pi)=log(pi/1-pi)=XTiα,logit(μi)=log(μi/1-μi)=XTiβ.(5) 然而,在许多应用中,人们更关心自变量与无条件均值E(Yi)之间的关系.为此,提出了如下的边际两部分Beta回归模型:logit(pi)=log(pi/1-pi)=XTiα,logit(vi)=log(vi/1-vi)=XTiγ.(6) 在条件两部分模型(5)的框架下,总体均值E(Yi)与连续型自变量xij之间的关系是通过检验αj=0,βj=0这一假设来研究的.然而,发现,αj=0,βj=0并不等价于总体均值E(Yi)与自变量xij是独立的,因为:(θ)/(θ)xij(logit[E(Yi)])=c1(αj,βj)αj+c2(αj,βj)βj.(7)上式表明,当αj=0,βj=0时,总体均值E(Yi)与自变量xij无关,但反之并不成立.而在边际模型(6)的框架下,总体均值E(Yi)与自变量xij是否独立完全由系数γj决定:(θ)/(θ)xij(logit[E(Yi)])=γj.(8) 对于离散型自变量,有与公式(7)和公式(8)类似的结论.从公式(7)可以看出,条件模型在某些条件下不能控制住第一类错误,这由模拟研究证实. 第三章:在条件模型(5)和边际模型(6)中,都隐含地假设了离散参数φ为常数.然而,在实际数据分析中发现,真实情况并非如此.例如,对于第二章中的真实数据,其中所涉及的131个响应变量的离散参数的值从0.67到1219.35不等.这启发在建模的过程中加入异方差性. 刻画异方差的方法有多种,采用的方法是在模型的第二部分中直接将离散参数φ表达为自变量的函数,这是比较常用的一种方法.由此得到异方差条件模型:logit(pi)=log(pi/1-pi)=XTiα,logit(μi)=log(μi/1-μi)=XTiβ,φi=exp{XTiη};(9)以及异方差边际模型:logit(pi)=log(pi/1-pi)=XTiα,logit(vi)=log(vi/1-vi)=XTiγ,φi=exp{XTiη}.(10) 然后,通过数值模拟研究异方差模型的效果.结果发现,即使数据中不存在异方差性,使用异方差模型也能达到和等方差模型同样的效果;但是对于确实存在异方差性的数据,等方差模型就完全不能控制第一类错误.就条件模型与边际模型而言,仍然是边际模型能准确地刻画自变量与总体均值之间的关系.最后,将新提出的模型应用于第二章中的实际数据,得到更为准确的识别结果. 本章结果表明,当不确定真实数据是否具有异方差结构时,异方差边际两部分模型是最合适的选择,它能准确地刻画总体均值与自变量之间的关系. 第四章:本章研究纵向零膨胀数据,这类数据之间具有相关性.在模型中引入随机效应,以刻画其相关性,由此得到随机效应两部分模型. 对于传统的条件模型,引入随机效应后,可得到随机效应条件两部分模型:logit(pij)=log(pij/1-pij)=xTijα+αi,logit(μij)=log(μij/1-μij)=xTijβ+bi;(11)其中ai和bi是随机效应,满足:ai~N(0,σ2a),bi~N(0,σ2b).类似地,对于边际模型,有如下的随机效应边际两部分模型:logit(pij)=log(pij/1-pij)=xTijα+ci,logit(vij)=log(vij/1-vij)=xTijγ+di;(12)其中,ci和di是随机效应,满足:ci~N(0,σ2c),di~N(0,σ2d). 在随机效应条件模型的框架下,连续型自变量xijl对总体均值E(Yij)的影响可如下表示:(θ)E(Yij)/(θ)xijl=αl·△1(α,β)+βl·△2(α,β).(13)因此,E(Yij)与xijl之间的独立性并不等价于αl=0,βl=0.在随机效应边际模型的框架下,有:(θ)E(Yij)/(θ)xijl=γl·△1(γ).(14)公式(14)表明,在随机效应边际模型的框架下,总体均值E(Yij)与自变量xijl是否独立完全由系数γl决定.对于离散型自变量,有类似的结论.理论分析和模拟研究都表明随机效应边际模型能准确地刻画总体均值与自变量之间的关系.最后,将新模型应用于实际数据的分析中,得到了更为精确的结论.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号