首页> 中文学位 >基于模糊C均值聚类的支持向量机集成研究及应用
【6h】

基于模糊C均值聚类的支持向量机集成研究及应用

代理获取

目录

声明

1 绪论

1.1 课题的背景与意义

1.2 研究现状

1.3 主要研究内容与创新点

1.4 论文结构安排

2 支持向量机算法

2.1 统计学习理论

2.2 支持向量机算法的基本方法

2.3 集成学习

2.4 模型性能度量

3 支持向量机模型性能的改进

3.1 SV M与其他分类器性能比较

3.2 模糊C均值聚类

3.3 基于FCM的支持向量机集成算法

4 基于F CM的支持向量机集成应用

4.1 在糖尿病患者住院数据中的应用

4.2 在信用卡违约风险评估中的应用

4.3 模型总结

5 论文总结与展望

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

随着大数据时代的到来,利用机器学习算法挖掘大数据的价值成为焦点。支持向量机作为机器学习界分类预测性能优良,推广能力好的算法,被应用于各行各业。这一技术在解决小样本量,线性不可分问题时表现的非常好,然而面对大批量的数据,要训练出高性能的分类器,会遇到诸如训练时间长,维数灾难,模型性能下降等问题,因此,本论文尝试将优化SVM(Support Vector Machine)的性能作为重点研究内容。
  本论文的核心即为SVM集成模型的研究。首先评述支持向量机、集成学习的国内外研究现状。依据之前方法存在的缺陷,本论文针对问题提出新的改进方法—基于模糊C均值聚类的支持向量机集成模型。文章研究主要选取了SVM算法作为基分类器,根据它的一些缺陷作进一步的改善,并运用到实际问题中。考虑到SVM的训练时间与样本集的大小成超线性关系及现实中问题的模糊不确定性,本论文引入模糊聚类思想,利用隶属度来处理数据。这样既能够有效保持原有样本数据信息的数据点,又能较好地实现正类和负类样本的平衡。在模型的应用当中,简单比较SVM与Logistic回归、BP神经网络在分类性能上的差异,同时对比不同集成方法性能的差异。
  在算法的应用部分,本论文选取医疗疗效数据和用户信用评分2个数据集,对前述算法性能进行验证。首先用随机森林的方法,对数据集进行特征选择,然后用网格搜索及交叉验证的方法对SVM惩罚参数C及?值进行选择;其次用模糊C均值聚类的思想对数据样本进行筛选,从而选择出具有代表性的样本作为最终的训练样本,同时达到平衡数据的目的;最后以SVM为基分类器,选用 Ba gging、Ada Boos t集成方法,进行模型的训练。最终通过编程实现模型的运行,将研究提出的方法与其他单一分类器模型的预测性能对比,得出 SVM的 Bagging集成使模型性能提高2-3个百分点。最终证实了通常Ba gging可以改善学习系统的性能,而 Ada Boost算法是不稳定算法,有时候可以起到改善模型性能的作用,有时却没有效果甚至会严重降低模型的预测性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号