法律状态公告日
法律状态信息
法律状态
2019-07-23
未缴年费专利权终止 IPC(主分类):G06F19/00 授权公告日:20160427 终止日期:20180805 申请日:20110805
专利权的终止
2016-04-27
授权
授权
2012-07-11
实质审查的生效 IPC(主分类):G06F19/00 申请日:20110805
实质审查的生效
2011-11-16
公开
公开
技术领域
本发明对零膨胀泊松模型(ZIP)参数提供一种的稳健估计方法,适用于生产制造、质量控制、疾病监控以及社会科学等相关领域。
背景技术
带有大量“零”值的计数型数据广泛存在于诸多领域,如工业生产、质量控制、服务业、疾病监控、物种研究等。在稳定的生产过程中,由于工序能力良好,致使观测的缺陷数大部分情况下都为“零”,此时观测数据表现为零膨胀数据;在职业健康领域,评价工作环境风险指数时所用到的工伤数据也经常是零膨胀数据,因为生产技术和保障条件的提高,大部分情况下工人不会受伤,这样,工人受伤的次数经常是“零”;在医学领域,哮喘是一种临床常见的疾病,对受试者来说,可能是健康人,也有可能是哮喘患者,如果在一个试验期内没有哮喘病发作,则用“零”记录,如果发作k次,用k作记录,得到观测的数据也是零膨胀数据。
对于零膨胀数据,当“零”值的比例超过正常泊松分布时,一般用零膨胀泊松模型对计数型数据进行建模。正是由于过多“零”值的存在,对于零膨胀泊松模型而言,分布参数的稳健估计尤其重要。通常情况下用均值对其参数λ进行估计,但均值很容易受到异常值(也称离群值)的影响,因此,需要寻求分布参数的稳健估计,有效避免异常值的影响。一般用中位数等L统计量进行参数估计,然而零膨胀数据中“零”值的比例过大,使得中位数、加宽中位数、中均值、三均值等L统计量经常等于零,因此,无法直接利用它们进行稳健参数估计。
为此,本发明给出了零膨胀泊松模型(ZIP)分布参数的一种稳健估计方法。
发明内容
(1)本发明的目的:针对零膨胀泊松分布容易受到异常值影响的问题,提出一种分布参数稳健估计方法。该发明首先把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布;然后,利用中位数、加宽中位数、中均值、三均值等L统计量对非零泊松分布的均值进行稳健估计,从而得到零膨胀泊松分布参数的稳健估计。
(2)技术方案:
零膨胀泊松分布是一种广义的泊松分布(GZIP),其概率密度函数通常定义为
>
由于均值容易受到异常值的影响,所以用均值对零膨胀泊松分布参数进行估计鲁棒性差、不稳健。同时,零膨胀数据中过多“零”值的存在,致使中位数和四分位数经常为零,从而无法应用中位数、加宽中位数、中均值和三均值等进行参数估计。为此,必须从一个新的角度来看待零膨胀泊松分布和寻找稳健参数估计。
如果随机变量Y□ZIP(p,λ),其值域A={Y≥0},而A可以分为两部分B={Y=0}和C={Y>0},即A=B+C。根据贝叶斯定理,可以把零膨胀泊松分布看作由退化分布{X=0}和参数为λ的非零泊松分布Z所组成的混合分布,其中,退化分布和非零泊松分布所占的比重分别为1-p+pe-λ和p(1-e-λ)。非零泊松分布Z的概率密度函数定义如下
>z=1,2,… (2)
其均值为E(Z)=λ/(1-e-λ)。
显然,零膨胀数据中的非“零”值一定来自非零泊松分布,换句话说,零膨胀数据中的非“零”值构成非零泊松分布一个简单随机样本。根据探索性数据分析的经验,可以利用中位数、加宽中位数、中均值和三均值等对非零泊松分布的均值E(Z)进行稳健估计,从而得到零膨胀泊松分布参数λ和p的稳健估计。
现在考虑一组来自零膨胀泊松分布的观测值{x1,x2,…,xn},样本量为n。简单起见,假设有n0个“零”值和n1个非“零”值,并用
i.使用中位数
中位数是最简单的L估计量,作为一种稳健位置估计量,其已广泛应用于多种领域。将
把该中位数作为E(Z)的估计,由公式(4)即可得参数λ的估计
>
而参数p的最大似然估计则为
>
ii 使用加宽中位数
加宽中位数对离群值具有稳健性,而且对观测值的舍入和分组不敏感,因此,可以使用加宽中位数作为E(Z)的稳健估计。
把加宽中位数代入到公式(4)和(5),得到参数λ和p的稳健估计
iii.使用中均值
通常切尾均值需要知道离群值比例,使用中均值可以有效避免确定离群值比例的困难。中均值是样本中间部分的均值,定义如下
>
其中,[x]表示不超过x的最大整数。将中均值代入到公式(4)和(5),得到参数λ和p的稳健估计
iv.使用三均值
尽管中位数对离群值具有稳健性,但其不能反映样本两端的信息。三均值作为分布中心的一种度量,其不仅强调中位数对中心值的反映,而且兼顾了端点值,由
>
将三均值代入公式(4)和(5),可以得到参数λ和p相应的稳健估计
根据以上分析,本发明的具体实施方案如下文所示。
(3)实施方案:
本发明一种零膨胀泊松分布参数的稳健估计方法,其实施步骤如下:
步骤一:把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布;
步骤二:提取零膨胀数据中的非零数据,按从小到大的顺序排序并统计其数量n1;
步骤三:用非零数据的中位数、加宽中位数、中均值以及三均值对非零泊松分布均值进行稳健估计;
步骤四:利用非零泊松分布均值与零膨胀泊松分布参数λ的关系得到参数λ的稳健估计;
步骤五:在参数λ的稳健估计基础上,运用极大似然估计得到零膨胀泊松分布参数P的稳健估计。
其中,在步骤三中所述的稳健估计是指在粗差不可避免的情况下,选择适当的估计方法,使所估计的参数尽可能的减免粗差的影响,得出正常模式下最佳或接近最佳的估计值。其目标为:①在采用假定模型下,所估计的参数应具有最优或接近最有型;②如果实际模型与假定模型存在较小的偏差,则对应的估计参数所受影响也较小;③即使实际模型与假定模型有较大的偏差,其参数估计的性能也不应太差,亦即不至于对估计值产生灾难性的后果。
其中,在步骤四中所述的利用非零泊松分布均值与零膨胀泊松分布参数λ的关系,该非零泊松分布均值(用E(Z)表示)与零膨胀泊松分布参数λ有如下关系:
>
在得到非零泊松分布均值E(Z)后,通过上述公式(9)即可得到零膨胀泊松分布λ的参数估计。
其中,在步骤五中所述的极大似然估计方法是求估计的另一种方法,它是建立在极大似然原理的基础上的一个统计方法,极大似然原理是:
给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为fD,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn,通过利用fD,我们就能计算出其概率:
P(x1,x2,…,xn)=fD(x1,x2,…,xn|θ)
但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn,然后用这些采样数据来估计θ。
一旦我们获得X1,X2,…,Xn,我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。
要在数学上实现最大似然估计法,我们首先要定义似然函数:
lik(θ)=fD(x1,x2,…,xn|θ)
并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的
零膨胀泊松分布的参数p的最大似然估计为:
>
其中,参数λ可以通过公式(9)得到。
(4)优点和功效:
I.本发明是对零膨胀泊松分布参数进行稳健估计的一种方法,其优点如下所示:
①本发明针对零膨胀泊松模型容易受到异常值影响的问题,首先把零膨胀泊松分布看作是退化分布{X=0}和非零泊松分布的混合分布,然后给出非零泊松分布均值的稳健估计,进而得到零膨胀泊松分布参数的稳健估计,这一新的观念和方法有助于寻找其他混合分布的稳健参数估计。
②本发明最终建议利用中均值对零膨胀泊松分布参数进行稳健估计,不仅不需要知道离群值的比重,有效避免了离群值识别的困难,而且其估计精度在四种稳健估计中最高。
II.使用中位数、加宽中位数、中均值、三均值进行稳健估计的功效可以通过以
下模拟显示:
假设真实模型是参数为(p,λ)的零膨胀泊松分布,但观测数据被来自P(Λ)的泊松分布污染,污染率为α,称P(Λ)为污染源泊松分布。因此,可以认为被污染的数据服从如下的广义零膨胀泊松分布(GZIP):
P(Y=0)=1-p1+p2+p1e-λ+p2e-Λ,
>y>0, (11)
其中p2=α,p1=1-α。
假设真实的分布为参数p=0.8和λ=5的零膨胀泊松分布,分两种情况进行模拟。第一种情况,假设被污染的数据来自GZIP(0.8-α,α,5,100),污染率α=0.03、0.04、0.05、0.06、0.07、0.08。第二种情况,设定被污染数据来自GZIP(0.8-0.05,0.05,5,Λ),污染源泊松分布的参数Λ=20,40,60,80,100。
对于以上两种情况,分别随机生成2000组样本,每组样本的样本量均为100,分别用极大似然估计、切尾均值、Winsorized均值和本发明提出的根据中位数、加宽中位数、中均值和三均值构造的四种估计量对分布参数进行估计。不同的污染率和不同的污染源泊松分布情况下,七种参数估计的均值和均方误差在表1和表2中列出。简便起见,由切尾均值和Winsorized均值改进的极大似然估计分别记为Trim-MLE和Wins-MLE,而由中位数、加宽中位数、中均值和三均值构造的四种估计量分别记为Median,Broadened median,Midmean和Trimean。
在表1和表2中,参数λ的极大似然估计的均方误差远大于其他六种估计的均方误差,而且参数λ的七种估计中,切尾均值和中均值的均方误差最小。另一方面,参数p的所有估计都相对稳定,除极大似然估计外,参数p的均方误差基本上从0.00005到0.00006之间。从表1可以看出,除切尾均值情况外,参数λ的估计的均方误差随污染率α的增大而增大。因此,从稳健性和精度方面综合考虑,可以选择切尾均值和中均值。另一方面,由于中位数、加宽中位数、中均值、三均值无需知道离群值的比例,从而避免了离群点识别的困难,因此,它们在实际应用会更加方便,更具有可操作性。
表1不同污染率时七种估计量的比较
表2不同污染源分布时七种估计量的比较
注:表1、表2的真实数据服从零膨胀泊松分布ZIP(0.8,5)。
最后,综合考虑稳健性(鲁棒性)、精度和可操作性,本发明建议使用中均值对非零泊松分布均值进行估计,从而得到零膨胀泊松分布的稳健参数估计。
附图说明
图1是本发明方法流程图。
图2是使用中位数的读写错误控制图。
图3是使用加宽中位数的读写错误控制图。
图4是使用中均值的读写错误控制图。
图5是使用三均值的读写错误控制图。
具体实施方式
以某生产过程中计算机硬盘的读写错误(表3)为例,结合附图,对本发明做进一步详细说明。
表3某计算机硬盘读写错误实际数据
见图1所示,本发明一种零膨胀泊松分布参数的稳健估计方法,其具体步骤如下:
步骤一:把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布。
步骤二:提取零膨胀数据中的非零数据,按从小到大的顺序排序并统计其数量n1。
在本实施例中得到n1=28个非零值,从小到大依次为:1 1 1 1 1 11 1 1 1 1 2 2 2 2 2 3 3 4 5 6 6 9 9 11 1575 75
步骤三:用非零数据的中位数、加宽中位数、中均值以及三均值对非零泊松分布均值进行稳健估计。
对于本实施例,记中位数、加宽中位数、中均值、三均值分别为:MED、BMED、MDM、TM,经计算的中位数、加宽中位数、中均值以及三均值依次为:MED=2;BMED=2.1;MDM=2.5;TM=2.75。
步骤四:利用非零泊松分布均值与零膨胀泊松分布参数λ的关系得到参数λ的稳健估计。
经过变化得到零膨胀泊松分布参数λ与非零泊松分布均值E(Z)有如下关系:
>
用MED、BMED、MDM、TM代替E(Z)可以得到零膨胀泊松分布参数λ的四种不同估计:>
步骤五:在参数λ的稳健估计基础上,运用极大似然估计得到零膨胀泊松分布参数p的稳健估计。
参数λ和参数p有如下关系:
>
其中n为总的样本量,n1为样本中非零数据的数量。
在本实施例中,n=208,n1=28。因此可以得到P的稳健估计:当
对于参数为λ的泊松分布,C图可以用来监控生产过程,其控制限如下所示:
>
CL=λ
>
其中,CL、UCL、LCL分别代表中心线、上控制限、下控制限。利用中位数、加宽中位数、中均值和三均值构造的稳健估计依次对参数λ进行了估计,得到的关于读写错误的控制图如附图2~5所示。
机译: 一种用膨胀零件加固接缝管的方法和用该方法加固的膨胀零件接缝管的方法
机译: 参数值的稳健估计的简化方法
机译: 参数值的稳健估计的简化方法