首页> 中国专利> 零膨胀泊松分布参数的一种稳健估计方法

零膨胀泊松分布参数的一种稳健估计方法

摘要

本发明零膨胀泊松分布的一种稳健参数估计方法,其具体步骤是:1.把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布;2.提取零膨胀数据中的非零数据,并按从小到大的顺序排序;3.用非零数据的中位数、加宽中位数、中均值以及三均值对非零泊松分布均值进行稳健估计;4.利用非零泊松分布均值与零膨胀泊松分布参数λ的关系得到参数λ的稳健估计;5.在参数λ的稳健估计基础上,运用极大似然估计得到零膨胀泊松分布参数p的稳健估计。本发明为零膨胀泊松分布提供了一种稳健参数估计方法,进而得到零膨胀泊松分布参数的稳健估计,可以有效解决零膨胀泊松分布容易受异常值影响的问题,同时避免了零膨胀数据中离群值识别的困难。

著录项

  • 公开/公告号CN102243695A

    专利类型发明专利

  • 公开/公告日2011-11-16

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN201110223254.6

  • 发明设计人 杨军;李大宇;赵宇;

    申请日2011-08-05

  • 分类号G06F19/00(20060101);

  • 代理机构11232 北京慧泉知识产权代理有限公司;

  • 代理人王顺荣;唐爱华

  • 地址 100191 北京市海淀区学院路37号北航可靠性与系统工程学院

  • 入库时间 2023-12-18 03:38:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-23

    未缴年费专利权终止 IPC(主分类):G06F19/00 授权公告日:20160427 终止日期:20180805 申请日:20110805

    专利权的终止

  • 2016-04-27

    授权

    授权

  • 2012-07-11

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20110805

    实质审查的生效

  • 2011-11-16

    公开

    公开

说明书

技术领域

本发明对零膨胀泊松模型(ZIP)参数提供一种的稳健估计方法,适用于生产制造、质量控制、疾病监控以及社会科学等相关领域。

背景技术

带有大量“零”值的计数型数据广泛存在于诸多领域,如工业生产、质量控制、服务业、疾病监控、物种研究等。在稳定的生产过程中,由于工序能力良好,致使观测的缺陷数大部分情况下都为“零”,此时观测数据表现为零膨胀数据;在职业健康领域,评价工作环境风险指数时所用到的工伤数据也经常是零膨胀数据,因为生产技术和保障条件的提高,大部分情况下工人不会受伤,这样,工人受伤的次数经常是“零”;在医学领域,哮喘是一种临床常见的疾病,对受试者来说,可能是健康人,也有可能是哮喘患者,如果在一个试验期内没有哮喘病发作,则用“零”记录,如果发作k次,用k作记录,得到观测的数据也是零膨胀数据。

对于零膨胀数据,当“零”值的比例超过正常泊松分布时,一般用零膨胀泊松模型对计数型数据进行建模。正是由于过多“零”值的存在,对于零膨胀泊松模型而言,分布参数的稳健估计尤其重要。通常情况下用均值对其参数λ进行估计,但均值很容易受到异常值(也称离群值)的影响,因此,需要寻求分布参数的稳健估计,有效避免异常值的影响。一般用中位数等L统计量进行参数估计,然而零膨胀数据中“零”值的比例过大,使得中位数、加宽中位数、中均值、三均值等L统计量经常等于零,因此,无法直接利用它们进行稳健参数估计。

为此,本发明给出了零膨胀泊松模型(ZIP)分布参数的一种稳健估计方法。

发明内容

(1)本发明的目的:针对零膨胀泊松分布容易受到异常值影响的问题,提出一种分布参数稳健估计方法。该发明首先把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布;然后,利用中位数、加宽中位数、中均值、三均值等L统计量对非零泊松分布的均值进行稳健估计,从而得到零膨胀泊松分布参数的稳健估计。

(2)技术方案:

零膨胀泊松分布是一种广义的泊松分布(GZIP),其概率密度函数通常定义为

>f(y;p,λ)=1-p+pe-λy=0,p(λxx!)e-μ,y>0.---(1)>

由于均值容易受到异常值的影响,所以用均值对零膨胀泊松分布参数进行估计鲁棒性差、不稳健。同时,零膨胀数据中过多“零”值的存在,致使中位数和四分位数经常为零,从而无法应用中位数、加宽中位数、中均值和三均值等进行参数估计。为此,必须从一个新的角度来看待零膨胀泊松分布和寻找稳健参数估计。

如果随机变量Y□ZIP(p,λ),其值域A={Y≥0},而A可以分为两部分B={Y=0}和C={Y>0},即A=B+C。根据贝叶斯定理,可以把零膨胀泊松分布看作由退化分布{X=0}和参数为λ的非零泊松分布Z所组成的混合分布,其中,退化分布和非零泊松分布所占的比重分别为1-p+pe和p(1-e)。非零泊松分布Z的概率密度函数定义如下

>fNZP(z)=11-e-λλzz!e-λ,>z=1,2,…                                (2)

其均值为E(Z)=λ/(1-e)。

显然,零膨胀数据中的非“零”值一定来自非零泊松分布,换句话说,零膨胀数据中的非“零”值构成非零泊松分布一个简单随机样本。根据探索性数据分析的经验,可以利用中位数、加宽中位数、中均值和三均值等对非零泊松分布的均值E(Z)进行稳健估计,从而得到零膨胀泊松分布参数λ和p的稳健估计。

现在考虑一组来自零膨胀泊松分布的观测值{x1,x2,…,xn},样本量为n。简单起见,假设有n0个“零”值和n1个非“零”值,并用来记录这些非“零”值。根据前述对零膨胀泊松分布的认识,可以看作来自参数为λ的非零泊松分布的样本。由于样本均值对离群值非常敏感,因此,用中位数、加宽中位数、中均值和三均值来对E(Z)进行稳健估计,进而得到零膨胀泊松分布的参数λ和p的稳健估计。

i.使用中位数

中位数是最简单的L估计量,作为一种稳健位置估计量,其已广泛应用于多种领域。将按升序排序,即>z(1)z(2)...z(n1),>则中位数为

把该中位数作为E(Z)的估计,由公式(4)即可得参数λ的估计

>λ1-e-λ=MED---(4)>

而参数p的最大似然估计则为

>p^MED=n-n0n(1-e-λ^MED)=n1n(1-e-λ^MED)---(5)>

ii  使用加宽中位数

加宽中位数对离群值具有稳健性,而且对观测值的舍入和分组不敏感,因此,可以使用加宽中位数作为E(Z)的稳健估计。的加宽中位数的定义为

把加宽中位数代入到公式(4)和(5),得到参数λ和p的稳健估计

iii.使用中均值

通常切尾均值需要知道离群值比例,使用中均值可以有效避免确定离群值比例的困难。中均值是样本中间部分的均值,定义如下

>MDM=1[3n1/4]-[n1/4]Σ[n1/4][3n1/4]z(i)---(7)>

其中,[x]表示不超过x的最大整数。将中均值代入到公式(4)和(5),得到参数λ和p的稳健估计

iv.使用三均值

尽管中位数对离群值具有稳健性,但其不能反映样本两端的信息。三均值作为分布中心的一种度量,其不仅强调中位数对中心值的反映,而且兼顾了端点值,由容易得到的四分位数Q1,Q2,Q3,则三均值的定义为

>TM=Q1+2Q2+Q34---(8)>

将三均值代入公式(4)和(5),可以得到参数λ和p相应的稳健估计

根据以上分析,本发明的具体实施方案如下文所示。

(3)实施方案:

本发明一种零膨胀泊松分布参数的稳健估计方法,其实施步骤如下:

步骤一:把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布;

步骤二:提取零膨胀数据中的非零数据,按从小到大的顺序排序并统计其数量n1;

步骤三:用非零数据的中位数、加宽中位数、中均值以及三均值对非零泊松分布均值进行稳健估计;

步骤四:利用非零泊松分布均值与零膨胀泊松分布参数λ的关系得到参数λ的稳健估计;

步骤五:在参数λ的稳健估计基础上,运用极大似然估计得到零膨胀泊松分布参数P的稳健估计。

其中,在步骤三中所述的稳健估计是指在粗差不可避免的情况下,选择适当的估计方法,使所估计的参数尽可能的减免粗差的影响,得出正常模式下最佳或接近最佳的估计值。其目标为:①在采用假定模型下,所估计的参数应具有最优或接近最有型;②如果实际模型与假定模型存在较小的偏差,则对应的估计参数所受影响也较小;③即使实际模型与假定模型有较大的偏差,其参数估计的性能也不应太差,亦即不至于对估计值产生灾难性的后果。

其中,在步骤四中所述的利用非零泊松分布均值与零膨胀泊松分布参数λ的关系,该非零泊松分布均值(用E(Z)表示)与零膨胀泊松分布参数λ有如下关系:

>E(Z)=λ1-e-λ---(9)>

在得到非零泊松分布均值E(Z)后,通过上述公式(9)即可得到零膨胀泊松分布λ的参数估计。

其中,在步骤五中所述的极大似然估计方法是求估计的另一种方法,它是建立在极大似然原理的基础上的一个统计方法,极大似然原理是:

给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为fD,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn,通过利用fD,我们就能计算出其概率:

P(x1,x2,…,xn)=fD(x1,x2,…,xn|θ)

但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn,然后用这些采样数据来估计θ。

一旦我们获得X1,X2,…,Xn,我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。

要在数学上实现最大似然估计法,我们首先要定义似然函数:

lik(θ)=fD(x1,x2,…,xn|θ)

并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。

零膨胀泊松分布的参数p的最大似然估计为:

>p^=n-n0n(1-e-λ^)=n1n(1-e-λ^)---(10)>

其中,参数λ可以通过公式(9)得到。

(4)优点和功效:

I.本发明是对零膨胀泊松分布参数进行稳健估计的一种方法,其优点如下所示:

①本发明针对零膨胀泊松模型容易受到异常值影响的问题,首先把零膨胀泊松分布看作是退化分布{X=0}和非零泊松分布的混合分布,然后给出非零泊松分布均值的稳健估计,进而得到零膨胀泊松分布参数的稳健估计,这一新的观念和方法有助于寻找其他混合分布的稳健参数估计。

②本发明最终建议利用中均值对零膨胀泊松分布参数进行稳健估计,不仅不需要知道离群值的比重,有效避免了离群值识别的困难,而且其估计精度在四种稳健估计中最高。

II.使用中位数、加宽中位数、中均值、三均值进行稳健估计的功效可以通过以

下模拟显示:

假设真实模型是参数为(p,λ)的零膨胀泊松分布,但观测数据被来自P(Λ)的泊松分布污染,污染率为α,称P(Λ)为污染源泊松分布。因此,可以认为被污染的数据服从如下的广义零膨胀泊松分布(GZIP):

P(Y=0)=1-p1+p2+p1e+p2e

>P(Y=y)=p1λxy!ye-λ+p2Λyy!e-Λ,>y>0,                        (11)

其中p2=α,p1=1-α。

假设真实的分布为参数p=0.8和λ=5的零膨胀泊松分布,分两种情况进行模拟。第一种情况,假设被污染的数据来自GZIP(0.8-α,α,5,100),污染率α=0.03、0.04、0.05、0.06、0.07、0.08。第二种情况,设定被污染数据来自GZIP(0.8-0.05,0.05,5,Λ),污染源泊松分布的参数Λ=20,40,60,80,100。

对于以上两种情况,分别随机生成2000组样本,每组样本的样本量均为100,分别用极大似然估计、切尾均值、Winsorized均值和本发明提出的根据中位数、加宽中位数、中均值和三均值构造的四种估计量对分布参数进行估计。不同的污染率和不同的污染源泊松分布情况下,七种参数估计的均值和均方误差在表1和表2中列出。简便起见,由切尾均值和Winsorized均值改进的极大似然估计分别记为Trim-MLE和Wins-MLE,而由中位数、加宽中位数、中均值和三均值构造的四种估计量分别记为Median,Broadened median,Midmean和Trimean。

在表1和表2中,参数λ的极大似然估计的均方误差远大于其他六种估计的均方误差,而且参数λ的七种估计中,切尾均值和中均值的均方误差最小。另一方面,参数p的所有估计都相对稳定,除极大似然估计外,参数p的均方误差基本上从0.00005到0.00006之间。从表1可以看出,除切尾均值情况外,参数λ的估计的均方误差随污染率α的增大而增大。因此,从稳健性和精度方面综合考虑,可以选择切尾均值和中均值。另一方面,由于中位数、加宽中位数、中均值、三均值无需知道离群值的比例,从而避免了离群点识别的困难,因此,它们在实际应用会更加方便,更具有可操作性。

表1不同污染率时七种估计量的比较

表2不同污染源分布时七种估计量的比较

注:表1、表2的真实数据服从零膨胀泊松分布ZIP(0.8,5)。

最后,综合考虑稳健性(鲁棒性)、精度和可操作性,本发明建议使用中均值对非零泊松分布均值进行估计,从而得到零膨胀泊松分布的稳健参数估计。

附图说明

图1是本发明方法流程图。

图2是使用中位数的读写错误控制图。

图3是使用加宽中位数的读写错误控制图。

图4是使用中均值的读写错误控制图。

图5是使用三均值的读写错误控制图。

具体实施方式

以某生产过程中计算机硬盘的读写错误(表3)为例,结合附图,对本发明做进一步详细说明。

表3某计算机硬盘读写错误实际数据

见图1所示,本发明一种零膨胀泊松分布参数的稳健估计方法,其具体步骤如下:

步骤一:把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布。

步骤二:提取零膨胀数据中的非零数据,按从小到大的顺序排序并统计其数量n1

在本实施例中得到n1=28个非零值,从小到大依次为:1 1 1 1 1 11 1 1 1 1 2 2 2 2 2 3 3 4 5 6 6 9 9 11 1575 75

步骤三:用非零数据的中位数、加宽中位数、中均值以及三均值对非零泊松分布均值进行稳健估计。

对于本实施例,记中位数、加宽中位数、中均值、三均值分别为:MED、BMED、MDM、TM,经计算的中位数、加宽中位数、中均值以及三均值依次为:MED=2;BMED=2.1;MDM=2.5;TM=2.75。

步骤四:利用非零泊松分布均值与零膨胀泊松分布参数λ的关系得到参数λ的稳健估计。

经过变化得到零膨胀泊松分布参数λ与非零泊松分布均值E(Z)有如下关系:

>E(Z)=λ1-e-λ---(1)>

用MED、BMED、MDM、TM代替E(Z)可以得到零膨胀泊松分布参数λ的四种不同估计:>λ^MED=1.5938,λ^BMED=1.7262,λ^MDM=2.2316,λ^M=2.5311.>

步骤五:在参数λ的稳健估计基础上,运用极大似然估计得到零膨胀泊松分布参数p的稳健估计。

参数λ和参数p有如下关系:

>p^=n1n(1-e-λ^)---(2)>

其中n为总的样本量,n1为样本中非零数据的数量。

在本实施例中,n=208,n1=28。因此可以得到P的稳健估计:当时,>p^MED=0.1689;>当>λ^BMED=1.7262>时,>p^BMED=0.1638;>当>λ^MDM=2.2316>时,>p^MDM=0.1508;>当时,如此便得到零膨胀泊松分布参数λ、p的稳健估计。

对于参数为λ的泊松分布,C图可以用来监控生产过程,其控制限如下所示:

>UCL=λ+3λ>

CL=λ

>LCL=λ+3λ---(3)>

其中,CL、UCL、LCL分别代表中心线、上控制限、下控制限。利用中位数、加宽中位数、中均值和三均值构造的稳健估计依次对参数λ进行了估计,得到的关于读写错误的控制图如附图2~5所示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号