首页> 中文学位 >非平衡数据模式分类中的若干问题研究及其在金融中的应用
【6h】

非平衡数据模式分类中的若干问题研究及其在金融中的应用

代理获取

目录

文摘

英文文摘

独创性声明及关于论文使用授权的说明

第一章绪论

1.1问题来源和国内外研究现状

1.1.1金融中的实际问题

1.1.2财务困境预测研究现状

1.2研究目标与主要工作

1.2.1模式识别的本质

1.2.2从模式识别角度看财务困境预测问题

1.2.3非平衡数据模式分类研究现状

1.2.4本文研究目标与主要工作

第二章非平衡数据线性判别

2.1引言

2.2线性判别

2.2.1距离判别

2.2.2贝叶斯判别

2.2.3 Fisher判别

2.2.4线性判别小结

2.3非平衡数据线性判别

2.3.1非平衡数据对线性判别的影响

2.3.2加权Fisher线性判别

2.4实验与分析

2.4.1实验1:在UCI数据集上的实验

2.4.2实验2:在中国上市公司数据上的实验

2.5本章小结

第三章判决阈值选取

3.1引言

3.2 ROC曲线

3.3基于ROC曲线的阈值选取

3.3.1基于ROC曲线的判决阈值选取

3.3.2基于ROC曲线的拒判阈值选取

3.4 BFLD算法

3.4.1 Bootstrap方法

3.4.2 BFLD算法

3.5类别概率估计

3.6实验与分析

3.6.1实验1:由BFLD算法生成ROC曲线

3.6.2实验2:判决阈值选取

3.6.3实验3:拒判阈值选取

3.6.4实验4:类别概率估计

3.7本章小结

第四章判别值概率校准

4.1引言

4.2基于正态分布的概率校准方法

4.3实验与分析

4.3.1实验设计

4.3.2概率校准评估标准([WF00])

4.3.3结果分析

4.4基于隐变量模型的贝叶斯分类器

4.4.1隐变量模型

4.4.2实验与分析

4.5本章小结

第五章实用财务分析系统

5.1引言

5.2系统设计

5.2.1系统开发平台和整体结构

5.2.2系统功能框图

5.3系统实现

5.3.1系统中的关键技术

5.3.2报表预测模块的功能

5.4本章小结

第六章结束语

6.1本文主要工作总结

6.2进一步研究和展望

附录

参考文献

作者在攻读博士学位期间发表的论文

致谢

展开▼

摘要

企业财务困境预测是金融界的一个长期研究热点,由于其复杂性,人们从不同角度进行了建模研究,主要包括以下两类方法:1)以企业财务比率为基础的模式识别方法,包括多元线性判别、Logistic回归、神经网络等;2)以资本市场理论为基础的非模式识别方法,包括期权定价模型,债券违约率模型,混沌模型等。其中,基于线性判别和Logistic回归的预测模型在实际中应用最有效,也是国际金融业和学术界公认的主流方法。 但是,当应用这些主流方法进行财务困境预测时,仍存在许多实际问题。例如,由于陷入财务困境的公司个数占公司总数的比例很小,建模时必然涉及抽样标准问题——如何从实际数据中抽取样本?也就是说,如何确定建模样本中的两类比例,以使所建模型最优。从模式识别角度讲,这是一个非平衡数据模式分类问题。非平衡数据模式分类也是目前机器学习领域的一个研究热点,本文即以此为研究对象,对其中的几个基本问题进行了重点研究,主要工作及结论如下: 1.分析了非平衡数据对Fisher判别的投影向量、及分类性能的影响,提出一种加权Fisher线性判别——WFLD。Fisher判别的核心是求解满足Fisher准则的最优投影向量,因此,分析非平衡数据对投影向量的影响十分必要。本文通过理论分析指出:当两类样本协方差阵相同时,非平衡数据对投影向量没有作用,从而也不会影响Fisher判别的分类性能;反之亦然。在此基础上,提出了一种加权Fisher线性判别——WFLD,它本质上是一种特殊的上抽样,即同时对两类样本进行不同倍数的简单复制,使变换后的两类样本个数之比为1∶1。实验证明了理论分析的正确性以及WFLD的有效性。 2.针对Fisher判别,提出了一种基于Bootstrap技术的BFLD算法,该算法可生成较为连续和稳定的ROC曲线,由此选取阈值可以减小总的判别风险。阈值的选取对判决结果影响甚大,而Fisher判别却未提供规定选取阈值的原则。ROC曲线非常适用于非平衡数据分类中的阈值选取,然而,样本数目有限会导致ROC曲线呈明显的台阶状,从而使基于ROC曲线选取的阈值偏离了理论最优值。针对Fisher判别,本文提出了一种基于Bootstrap技术的BFLD算法,该算法具有多个优点:首先,与一般的非参数方法相比,该算法生成的ROC曲线更加连续和稳定;其次,与预留法(Hold-out)生成的ROC曲线相比,基于由BFLD生成的ROC曲线选取出的判决阈值可以使总的判决风险更小;最后,与留一法(Leave-one-out)相比,利用BFLD算法可以更加准确地估计预测集的类别概率——预测集的类别概率是基于ROC曲线选取阈值的必要条件。 3.提出了一种基于正态分布的Fisher判别值概率校准方法。在模式分类中,如果知道样本属于各个类别的概率,会有许多益处,如可以实现最优判决、便于进一步的融合决策等。为此,本文进行了两方面的工作:1)首先假设样本的Fisher判别值在两类中均服从正态分布,然后利用判别值的经验分布估计出未知参数,从而可以求解出判别值的类条件概率密度,将其与先验概率一起代入贝叶斯公式可计算出后验概率,此概率即为判别值的校准概率。实验表明,Fisher判别值的校准概率比LR模型概率能更准确地逼近真实概率。2)混合隐变量模型是高维样本概率密度估计的新方法,本文分别采用因子分析与概率主成分分析来估计类条件概率密度,然后构造出相应的贝叶斯分类器。实验表明,对于上市公司财务困境的提前3年预测情况,该方法略优于线性判别和Logistic回归。 4.作为课题组成员,合作设计、开发了一个财务分析系统,并已将本论文财务困境预测研究成果嵌入其中,使系统不仅实现了基本的财务分析功能,而且具有了“智能化”预测的功能。此外,该系统采用了模块化设计,我们可以在此基础上测试和验证各种预测模型的准确性和稳定性,为将理论研究工作应用于实际奠定了坚实基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号