Logistic回归样本量确定所需自变量事件数的模拟研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

有关logistic回归的样本量估计目前尚无实用的理论方法，实践中更多的是基于经验方法，即所谓应变量（结局变量）事件数(EPV，events per variable)方法，即应变量发生的事件数（阳性事件数和阴性事件数的最小值）需不少于模型中纳入的自变量个数乘以的倍数。目前已经开展的EPV方法的研究较多，如Harrell(1984)，Concato(1995)，Peduzzi(1995)，Vittinghoff等(2006)，通过模拟研究得出，采用基于最大似然估计(MLE，maximum likelihood estimate)的Wald方法时，EPV不小于5，10，甚至20等，才可保证回归分析结果稳健;杨晓妍(2005)的研究认为EPV应不小于10。
　　然而，有关自变量的事件数(EIV，events of independent variable)，即纳入模型的某一二分类自变量发生事件的个数（二分类中个数较小的那类），对模型的影响却鲜有研究，而此问题恰恰也是实际数据中经常会遇到的问题。如果EIV太小会导致logistic回归模型的估计失准或不稳定，可认为仅仅依靠EPV方法确定样本量是不够的，还需要结合EIV一起来确定样本量。为此，本研究将通过模拟研究探讨EIV对模型的影响，进而得到EIV界值的确定策略，为logistic回归的样本量估计提供更完善的经验方法。
　　目的：
　　本研究采用Monte Carlo技术从EIV的角度探讨logistic回归模型的稳定性，并建立确定EIV界值的方法。
　　方法：
　　Logistic回归分析最常用的参数估计方法是MLE，还有罚分似然估计(PLE，penalized likelihood estimate)、精确logistic回归、稀有事件logistic回归等。PLE最早被提出用于解决最大似然估计收敛但至少有一个参数估计发散至正/负无穷的问题，主要发生在EIV与非事件数不平衡和高风险因素情况下，该方法校正了MLE的偏倚，具有较好的性能，效果优于精确logistic回归和最大似然估计，但在实际应用中较少。稀有事件logistic回归原理是校正应变量发生事件的概率，从而保证回归结果的稳健性，且从杨晓妍模拟结果来看，该方法对模型结果改善较小。最常用的估计logistic回归系数的置信区间和假设检验方法是Wald方法，但轮廓似然方法(profile likelihood method)较Wald方法和Bootstrap方法更为稳健，能严格控制一类错误率，且检验效能优于Wald方法。因此，本研究分别选取MLE和PLE进行参数估计，选取Wald方法和轮廓似然方法估计回归系数的置信区间及假设检验。
　　本研究采用Monte Carlo技术进行模拟研究，后经实例验证，所有模拟及计算均通过R3.1.2软件实现。
　　首先，模拟产生logistic回归的自变量(IV，independent variable)与应变量，6类模拟参数的设置为:自变量个数(1，4，8)、回归系数绝对值(0，1，2)、样本量(50,70,80,90,100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200，250)、自变量间的相关性(0，0.5，0.8)、自变量事件发生率(5％，10％，15％，30％，50％)。参数设置非完全组合，其中，EIV最多为样本量的一半，且MLE下EIV最小为5;1个自变量模型不涉及相关性;仅在8个自变量模型中，设置自变量事件发生率。应变量则通过概率抽样获得，概率由人为设定的β和模拟自变量计算得到。每种参数组合下模拟10000次。
　　其次，分别采用MLE和PLE对模拟数据进行参数估计，采用Wald方法和轮廓似然方法进行假设检验及置信区间估计。
　　最后，以一类错误(TypeⅠ Error)、均方根误差(MSE，mean square error)、准确性(Accuracy)、精确性(Precision)和置信区间覆盖率(CI Coverage)等五个指标评价统计性能，由参数收敛的回归结果与开始设定值比较获得，从而探究EIV对模型结果的影响。当指标值达到期望值或达到相对稳定状态时对应的EIV即为EIV界值。
　　结果：
　　EIV对logistic回归结果具有规律性影响，而自变量事件率的影响需结合样本量共同发挥作用。表1，给出不同方法和五个评价指标下，EIV的具体选择策略。
　　基于MLE的Wald方法和基于PLE的轮廓似然方法，均可以较好地控制一类错误率，但是后者明显优于前者。基于MLE的Wald方法需要EIV达到20以上，一类错误率可以稳定保持在4％到6％之间;而基于PLE的轮廓似然方法需要EIV达到12以上，一类错误率可以稳定保持在5％附近。而基于MLE的轮廓似然方法需EIV达到12以上，但样本量要达到200以上，一类错误率可以稳定保持在5％附近;基于PLE的Wald方法需EIV达到45以上，且样本量也需达到200以上，一类错误率可稳定保持在5％附近。
　　第二步为量化危险因素的强度，即参数估计的精准性方面。采用MLE方法时，EIV需分别达到18、12、16以获得稳定的均方根误差、准确性和精确性;而采用PLE方法时，EIV需分别达到12、12、7。
　　最后为置信区间覆盖率方面，基于MLE的Wald方法和基于PLE的轮廓方法，可以将覆盖率较好控制在预期范围内，稳定控制在95％附近，但后者明显优于前者。基于MLE的Wald方法需要EIV达到30以上;而基于PLE的轮廓方法需要EIV达到14以上。而另外两种情况，基于MLE的轮廓似然方法受其他因素影响较大，很多情况不能达到预期值;而基于PLE的Wald方法EIV达到45以上，且样本量也需达到200以上。此外，自变量个数、回归系数绝对值、样本量及相关性对EIV界值存在一定影响，但在影响方向和强度上略微不同。
　　结论：
　　在实际应用logistic回归模型时，应结合EPV和EIV一起确定样本量。就EIV而言，应不小于12。当EIV在12→20之间，可采用基于PLE的轮廓似然方法，以较好地控制一类错误并获得精准的参数估计;当EIV大于等于20时，基于PLE的轮廓似然方法和基于最大似然的Wald方法均可使用。进一步，当EIV在14→30之间，可采用基于PLE的轮廓似然方法，以较好地控制置信区间覆盖率;当EIV大于等于30时，基于PLE的轮廓似然方法和基于最大似然的Wald方法均可使用。以上两种方法在推荐的EIV情况下均可使用，优先推荐基于PLE的轮廓似然方法。在EIV较小又无法扩大样本量的情况下，logistic回归模型中可考虑剔除该自变量，以避免产生偏倚结果。

著录项

作者
孙亚清;
展开▼
作者单位

南方医科大学;

展开▼
授予单位南方医科大学;
学科流行病与卫生统计学
授予学位硕士
导师姓名陈平雁;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类卫生统计学;
关键词
卫生统计学; 逻辑回归模型; 自变量事件数; 罚分似然估计方法; 轮廓似然方法;

相似文献

中文文献
外文文献
专利

1. logistic回归中连续型自变量离散化为二分类变量时适宜分界点的确定 [J] . 何贤英 ,赵志 ,温兴煊 . 中国卫生统计 . 2015,第002期
2. Logistic回归分析的样本量确定 [J] . 高永祥 ,张晋昕 . 循证医学 . 2018,第002期
3. 样本量及抽样过程对线性模型中自变量重要性估计方法的影响研究 [J] . 伍立志 ,贾孝霞 ,沈其君 . 中国卫生统计 . 2017,第002期
4. 选择回归方程自变量的条件数法及其在RK手术中的应用 [J] . 刘宇红 ,曾衍钧 ,杨振海 . 生物数学学报 . 2000,第1期
5. 自变量连续型测定值及基于中位数的0～1转化值拟合logistic回归模型的效果比较 [J] . 何贤英 ,赵志 ,黄嘉玲 . 中国卫生统计 . 2017,第006期
6. AR模型与MA模型定阶所需样本量的模拟研究 [C] . . 2016年中国生物统计学术年会 . -1
7. 检验的样本量确定及模拟研究 [A] . 沈春林 . 2011

Logistic回归样本量确定所需自变量事件数的模拟研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅