首页> 中文学位 >数据归一化方法对提升SVM训练效率的研究
【6h】

数据归一化方法对提升SVM训练效率的研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3论文主要研究内容与创新点

1.3 论文组织结构

第2章 数据归一化方法与支持向量机的关键机制

2.1 引言

2.2 数据归一化

2.3 支持向量机及SMO算法

2.4 本章小结

第3章 基于高斯核函数的数据归一化研究

3.1 引言

3.2 高斯核函数技巧的运用

3.3 数据归一化与高斯核函数的融合

3.4 实验分析、结果与结论

3.5 本章小结

第4章 数据归一化对SVM训练效率的影响

4.1引言

4.2 k-CV交叉验证模型

4.3归一化对SVM目标函数值的影响

4.4 不同的归一化对SVM性能影响的实验

4.5实验结果分析

4.6 本章小结

第5章 总结与展望

5.1工作总结

5.2工作展望

参考文献

攻读硕士学位期间取得的科研成果

致谢

展开▼

摘要

支持向量机(Support Vector Machines, SVM)是基于统计学习理论,建立在结构风险最小化原理和VC维理论基础上的一种机器学习方法。近几十年来以其优秀的分类能力在很多领域得到广泛应用,至今仍然是机器学习领域最热门的研究之一,众多的国内外学者都致力于SVM训练效率的提升。数据归一化是训练支持向量机必须的数据预处理过程。常用的归一化策略有[-1,+1]、N(0,1)等方法,但现有文献尚未发现关于这些常用归一化方法科学依据方面的研究。本文通过对SVM中顺序最小优化算法运行机制的研究,发现高斯核函数会受到数据样本属性值的影响,数据属性值过大或过小都会使高斯核函数的参与度降低。数据归一化恰好能够将数据限定在某一范围内,使其能够更好地配合高斯核半径,从而避免最优分类超平面过于崎岖。论文以经验性的实验对数据归一化的内在机理、归一化与不归一化对训练效率和模型预测能力影响等方面开展了探索和研究。论文选择标准数据集,对原始未归一化、不同方法归一化、人工非归一化、任选数据属性列等情况下的数据分别进行了SVM训练,并记录目标函数值随迭代次数的变化、训练时间、模型测试及k-CV性能等信息。
  本研究主要内容包括:⑴在传统的顺序最小优化算法(SMO)的基础上,总结出了目标函数值及其变化量的表达式,并使用C++11技术进行了算法编程,实现了目标函数值及其变化值和训练时间及测试正确率的计算和输出。对使用高斯核函数的顺序最小优化算法的典型研究文献进行深入分析,确定了高斯核半径的最优值λ以及违反KKT条件的精度值κ。实验结果表明所确定的λ值和κ值能够达到最好的泛化能力,并通过对输出数据变化曲线的分析得出有根据的结论:可以通过数据的预处理来改进SVM训练效率。⑵对数据预处理的方式方法进行了深入研究,尤其是对最值归一化、中值归一化、标准分数归一化三种不同数据归一化方法进行了应用实现,使其与SVM分类机进行了有机融合。实验结果表明数据归一化方法可以弥补高斯核函数核半径认为选择上的不足,使高斯核函数更加理想地应用于SVM分类。⑶对标准实验数据集以三种不同的数据归一化方法进行了预处理,设计了多种实验方式,利用k-CV验证方法,对训练时间以及测试正确率进行了详细记录和比较。最终通过分析数据归一化后SVM训练效率的变化得出了数据归一化可以提升SVM训练效率的较为根本的内在机制。⑷通过数据归一化对SVM训练效率影响的分析以及对分类能力差异的比较,分析出了最能提升SVM训练效率的数据归一化的最优限定原则,即将各数据属性的值控制在常规的可比拟的数值范围内,如:[-0.5,+0.5]~[-5,+5]、N(0,1)~N(0,5)等。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号