首页> 中文学位 >几类常用非线性回归分析中最优模型的构建与SAS智能化实现
【6h】

几类常用非线性回归分析中最优模型的构建与SAS智能化实现

代理获取

目录

封面

声明

目录

缩略词表

中文摘要

英文摘要

第一章 前言

1.1 引言

1.2 研究现状

1.3 研究内容

1.4 课题意义

1.5 研究方法

1.6 论文结构

第二章 定量结果变量三类固定模式的单水平非线性回归分析

2.1 引言

2.2 模型拟合效果比较中的相关统计量简述

2.3 多项型指数曲线类模型

2.4 产量-密度曲线类模型

2.5 S型生长曲线类模型

2.6 本章小结

第三章 定性结果变量三类非固定模式的单水平非线性回归分析

3.1 引言

3.2 原因变量筛选与模型拟合效果比较简述

3.3 数据结构与变量设置

3.4 不含层级结构的二值结果变量定性资料的单水平非线性回归分析

3.5 不含层级结构的多值名义结果变量定性资料的单水平非线性回归分析

3.6 不含层级结构的多值有序结果变量定性资料的单水平非线性回归分析

3.7 本章小结

第四章 定性结果变量三类非固定模式的多水平非线性回归分析

4.1 引言

4.2 多水平非线性回归分析简述

4.3 数据结构与变量设置

4.4 含有层级结构的二值结果变量定性资料的多水平非线性回归分析

4.5 含有层级结构的多值有序结果变量定性资料的多水平非线性回归分析

4.6 多值名义结果变量分层定性资料的多水平非线性回归分析

4.7 本章小结

第五章 计数资料的非线性回归分析

5.1 引言

5.2 计数资料的非线性回归分析简述

5.3 数据结构与变量设置5.3.1 数据结构

5.4 不含层级结构的计数资料的非线性回归分析

5.6 本章小结

第六章 SASPAL的制作与使用

6.1 SASPAL的制作

6.2 SASPAL的使用

第七章 结果与讨论

7.1 研究结果

7.2 有关讨论

第八章 结论与展望

8.1 研究结论

8.2 课题展望

参考文献

文献综述

参考文献

代表论著

个人简历

致谢

展开▼

摘要

【目的】针对几类常用的一重和多重非线性回归分析在具体使用中存在的难以克服的障碍,探索相应的解决方法,以获得拟合实际资料效果最好的回归模型,从而促进几类非线性回归分析在理论和方法上的进一步完善,并提升使用时的可操作性和智能化水平,以利于其推广和应用。
  【内容】本研究涉及的非线性回归分析可分为固定模式和非固定模式的非线性回归分析两大类。固定模式是指原因变量和模型结构均已确定,非固定模式是指仅模型结构确定,而原因变量尚未确定。根据资料是否含有层级结构,非固定模式的非线性回归分析又可细分为两型:非固定模式的单水平与多水平非线性回归分析。
  本研究中涉及的固定模式的非线性回归分析,包括多项型指数曲线类模型、S型生长曲线类模型和产量-密度曲线类模型。这些模型在实际应用中使用频率较高,但模型结构较为复杂,待估计参数较多,现有的诸多分析方法虽然也能拟合出曲线模型,但模型对资料的拟合精度远不及非线性最小二乘法拟合的效果。然而,运用非线性最小二乘法实际求解时,多基于迭代算法,它要求使用者在迭代开始前提供较为接近真实参数的初估值,否则可能无法获得收敛的结果,或者所得模型为局部最优模型而非全局最优模型。所以,如何快速得到精确的、全局最优的曲线模型,是非常值得研究的一项内容。另外,每一类曲线模型,往往不止一种,以产量-密度曲线类模型为例,它包括Bleasdale-Nelder曲线、Halliday曲线、Farazdaghi-Harris曲线等。在处理实际问题时,如何从多种曲线模型中选出最适合实际资料的那一模型,也需要作深入研究。
  本研究中涉及的非固定模式的单水平非线性回归分析,包括二值结果变量、多值有序结果变量和多值名义结果变量定性资料的单水平非线性回归分析,以及计数资料的单水平非线性回归分析。这些分析方法都是在原因变量筛选的基础上,得到既精简度高又拟合度好的回归模型。然而,当前所能使用的主要变量筛选方法,包括前进法、后退法和逐步筛选法等,都在理论上存在一定程度的缺陷,无法保证所得回归模型即为最优模型。因此,提出或实现理论上最为完善的变量筛选方法是当前迫切需要解决的技术难题。另外,对于同一种资料,往往有多种回归分析方法可供使用,以二值结果变量的定性资料为例,可使用的非线性回归分析方法包括logistic回归分析、probit回归分析、互补双对数回归分析等。面对具体资料时,如何对这些回归分析方法进行比较研究,并为实际资料自动提供最好的、最适合的回归模型,也是需要重点研究的又一个技术难题。
  本研究中涉及的非固定模式的多水平非线性回归分析,包括二值结果变量、多值有序结果变量和多值名义结果变量定性资料的多水平非线性回归分析,以及计数资料的多水平非线性回归分析。这些分析模型不仅包含固定效应,还包含一些随机效应,此处暂将两类效应变量统称为效应项。在实际使用时,如何对这些效应项进行组合,构造一个最优的回归模型,当前并无较好的方法,多是基于人为确定,操作起来极为不便。所以,如何灵活构建效应项的最优组合,是此类回归分析亟待解决的一个技术难点。另外,与非固定模式的单水平非线性回归分析相似,同一资料有多种可用的回归分析方法时,如何确定哪种分析方法最适合给定的实际资料,也是一项重要的研究内容。再者,多水平模型分析的研究虽已如火如荼,但其模型求解的算法仍不够完善。实际使用时,应如何选择参数估计方法,并对其进行正确的假设检验,也需要作深入研究。
  本研究针对这些非线性回归分析在实际使用中存在的技术难点进行研究,并借助SAS软件的编程语言、高级编程技巧和相关过程,实现资料的智能化、自动化分析,为使用者直接提供最优的回归分析方法和分析结果。
  【方法】如何实现固定模式的非线性回归分析?本研究采用曲线直线化法加非线性最小二乘法的组合策略,即先以曲线直线化法为基础,计算得到模型中参数的初始值,再采用非线性最小二乘法得到拟合效果更好的曲线模型。在曲线直线化的过程中,有些较为简单的模型经过变量变换和数学推导,即可直接进行直线回归分析;有些复杂的模型不能直接进行曲线直线化,可以先选择一个或两个变化范围较小的参数,通过设置循环变量的方式使其按一定步长在较小的可能值域内变动,这样在每次循环中这些参数都将有具体的值,此时再对曲线模型进行数学推导和变量变换,即可进行直线回归分析。直线回归分析得到的参数估计值,经某些必要的计算后,就可以作为曲线模型中相应参数的初始值。当然,在曲线直线化的过程中,如果对某些参数设置了多个可能的取值,必然会得到较多的初始值组合,进而会得到多个局部最优模型,此时可从中选出拟合效果最好的那个模型作为全局最优模型,这样可以有效地破解局部最优解的难题。
  如何实现非固定模式的单水平非线性回归分析?本研究采用了完全意义上的“最优子集法”来解决常规变量筛选方法存在的理论缺陷。当前某些大型统计软件也提供了最优子集法,但仅仅能给出各种原因变量组合情形下模型对资料的拟合效果统计量的值,并未涉及模型中参数估计的结果和假设检验的结果,更未直接给出最优模型,只是提供了含各种数量原因变量的“最优子集”,而最优模型中原因变量的数目仍需由使用者确定。具体来说,本研究考虑在各种原因变量组合情形下,均进行相应模型的构建和统计分析,然后从模型精简程度和拟合优度两方面,选出一个最优模型。
  如何实现非固定模式的多水平非线性回归分析?一般统计软件都未提供效应项的筛选方法,只能依靠使用者采用手工法人为调整模型,操作起来非常不便。本研究同样采用完全意义上的“最优子集法”来选择最优模型,即先以固定效应项和随机效应项进行全面组合,然后在每种组合情形下,均进行多水平非线性回归分析,最后从众多模型中,选择拟合效果最好的那个模型作为全局最优模型。当然,对于某些类型的资料,分析时还需考虑分析方法的应用前提条件不满足时如何处理。
  对于同类中的多种非线性模型选择问题,可依据模型的类型和参数估计方法选择相应的拟合优度评价统计量,对各模型的拟合效果进行比较,选择拟合效果最好的那个回归模型作为最优模型。
  以上方法,具体实现时,可借助SAS软件的编程语言及相应过程,如进行最优子集法分析时,可借助REG、LOGISTIC等过程产生固定效应的全面组合情形,多水平模型分析时,还需借助FACTEX等过程产生随机效应的全面组合。
  【结果】本研究对各类非线性回归分析的现有分析策略、计算方法和实现途径在实际应用中存在的问题和不足进行改进,有针对性地提出了相应最优模型的选择策略,并通过编写大量的SAS程序,将这些策略付诸实施,最后以最直观、最简洁和最适用的形式呈现出来。详细来说,论文的研究结果和主要创新点包括以下四个方面。
  ⑴对三类固定模式的非线性回归分析进行了研究,摸索出了一套分析策略:即以变量变换和数学推导为基础,通过曲线直线化或分段曲线直线化的方式,得到曲线模型的参数初始值,然后借助相应的迭代算法完成非线性最小二乘法的精确拟合。这一策略可实现此类资料的快速、高效、精准拟合,且可行性、可操作性非常好。此外,本研究还解决了同类多种曲线模型拟合实际资料时的智能化选择问题,所编写的宏程序可以方便地调用以解决同类实际问题。
  ⑵对四类非固定模式(含计数资料)的单水平非线性回归分析进行研究,以当前变量筛选方法中存在的理论困境和应用难题为突破口,实现了完全意义上的“最优子集法”,确保了所得的最终模型即为全局最优模型;同时解决了多种相近功能分析方法处理同一资料时,分析方法的拟合效果比较与智能化选择问题,有效地避免了使用者处理实际资料时在分析方法选择上的盲目性和不确定性。
  ⑶对四类非固定模式(含计数资料)的多水平非线性回归分析进行研究,以完全意义上的“最优子集法”对效应项进行了全面组合,在拟合效果比较的基础上,自动化地给出了最优模型,破解了当前多水平模型分析时无法进行效应项筛选的难题。当然,也解决了多种相近功能分析方法处理同一资料时,分析方法的拟合效果比较与智能化选择问题,所编写的宏程序可以方便地被调用以解决同类实际问题。
  ⑷探索出了一条基于SAS9.2版(之前版本无效)软件进行多水平非线性回归分析时参数估计方法的选择与调整策略,即需要估计的效应项参数较少时,可直接调用操作较为方便的GLIMMIX过程,使用数值积分近似法进行参数估计,但须在假设检验时对自由度进行调整;若需要估计的效应项较多,尤其是随机效应项较多时,直接使用GLIMMIX过程中的数值积分近似法往往无法得到收敛的结果,可先使用GLIMMIX过程中的线性化法得到参数的近似精确估计值,然后以此为初始值,再使用NLMIXED过程中的数值积分近似法作精确估计。
  关于GLIMMIX过程,它是SAS软件近年来力推的新过程,与使用极其繁杂的NLMIXED过程相比,具有操作简便的特点,不过该过程虽经多年丰富和发展,但至今仍未能尽善尽美,其不足之处在于:一是未提供随机效应的假设检验结果,二是固定效应的假设检验结果也不准确。使用数值积分近似法时,两过程仅因计算精度不同导致GLIMMIX过程输出的参数值及标准误的估计结果与NLMIXED过程存在非常微小的差异,但GLIMMIX过程的重大缺陷在于其对随机效应未输出自由度,对固定效应虽输出了自由度但却是错误的,故GLIMMIX过程输出的假设检验结果不能直接被采用,须在假设检验时对效应项的自由度进行调整,从而得到准确的概率值。
  以上策略,以调用GLIMMIX过程并对假设检验结果稍作调整为主,特殊情形下辅用NLMIXED过程,外加相应的编程,可直接或近似直接地获得最优模型的精确估计,这极大地节省了人工调整模型时的工作量和因人而异的不确定性,相对于王济川等人提出的解决类似问题的策略不仅简化了很大的工作量,而且能够较为方便地实现以最优子集法筛选效应项并通过编程直接获得最终结果的目的。
  【结论】本论文以非线性回归分析为主要研究内容,对实际使用中存在的诸多瓶颈问题、不足和不便之处,进行了探索性的实践,并获得了令人满意的结果。
  在进行固定模式的非线性回归分析时,摸索出了一套高效的分析策略。这一

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号