数据归一化方法对提升SVM训练效率的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

支持向量机（Support Vector Machines, SVM）是基于统计学习理论，建立在结构风险最小化原理和VC维理论基础上的一种机器学习方法。近几十年来以其优秀的分类能力在很多领域得到广泛应用，至今仍然是机器学习领域最热门的研究之一，众多的国内外学者都致力于SVM训练效率的提升。数据归一化是训练支持向量机必须的数据预处理过程。常用的归一化策略有[-1,+1]、N(0,1)等方法，但现有文献尚未发现关于这些常用归一化方法科学依据方面的研究。本文通过对SVM中顺序最小优化算法运行机制的研究，发现高斯核函数会受到数据样本属性值的影响，数据属性值过大或过小都会使高斯核函数的参与度降低。数据归一化恰好能够将数据限定在某一范围内，使其能够更好地配合高斯核半径，从而避免最优分类超平面过于崎岖。论文以经验性的实验对数据归一化的内在机理、归一化与不归一化对训练效率和模型预测能力影响等方面开展了探索和研究。论文选择标准数据集，对原始未归一化、不同方法归一化、人工非归一化、任选数据属性列等情况下的数据分别进行了SVM训练，并记录目标函数值随迭代次数的变化、训练时间、模型测试及k-CV性能等信息。
　　本研究主要内容包括：⑴在传统的顺序最小优化算法（SMO）的基础上，总结出了目标函数值及其变化量的表达式，并使用C++11技术进行了算法编程，实现了目标函数值及其变化值和训练时间及测试正确率的计算和输出。对使用高斯核函数的顺序最小优化算法的典型研究文献进行深入分析，确定了高斯核半径的最优值λ以及违反KKT条件的精度值κ。实验结果表明所确定的λ值和κ值能够达到最好的泛化能力，并通过对输出数据变化曲线的分析得出有根据的结论：可以通过数据的预处理来改进SVM训练效率。⑵对数据预处理的方式方法进行了深入研究，尤其是对最值归一化、中值归一化、标准分数归一化三种不同数据归一化方法进行了应用实现，使其与SVM分类机进行了有机融合。实验结果表明数据归一化方法可以弥补高斯核函数核半径认为选择上的不足，使高斯核函数更加理想地应用于SVM分类。⑶对标准实验数据集以三种不同的数据归一化方法进行了预处理，设计了多种实验方式，利用k-CV验证方法，对训练时间以及测试正确率进行了详细记录和比较。最终通过分析数据归一化后SVM训练效率的变化得出了数据归一化可以提升SVM训练效率的较为根本的内在机制。⑷通过数据归一化对SVM训练效率影响的分析以及对分类能力差异的比较，分析出了最能提升SVM训练效率的数据归一化的最优限定原则，即将各数据属性的值控制在常规的可比拟的数值范围内，如：[-0.5,+0.5]～[-5,+5]、N(0,1)～N(0,5)等。

著录项

作者
汤荣志;
展开▼
作者单位

山东师范大学;

展开▼
授予单位山东师范大学;
学科计算机软件与理论
授予学位硕士
导师姓名段会川;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;算法理论;
关键词
人工智能; 机器学习; 支持向量机; 优化算法;

相似文献

中文文献
外文文献
专利

1. SVM训练数据归一化研究 [J] . 汤荣志 ,段会川 ,孙海涛 . 山东师范大学学报（自然科学版） . 2016,第004期
2. 基于混合重采样的非平衡数据SVM训练方法 [J] . 郭亚伟 ,白治江 . 微型机与应用 . 2016,第012期
3. 基于NSVM的核空间训练数据减少方法 [J] . 王晓 ,刘小芳 . 电子科技大学学报 . 2013,第004期
4. 一种大数据集上的非线性PSVM训练方法 [J] . 单莘 ,朱永宣 ,郭军 . 微电子学与计算机 . 2006,第7期
5. 提升高职学生短跑训练效率的有效方法研究 [J] . 郭炜烽 . 体育风尚 . 2020,第011期
6. 一种通过数据库底层能力优化提升地球物理学数据计算效率的方法 [C] . Xiao Ge ,肖舸 ,Liu Yibo . 第十六届国家安全地球物理专题研讨会 . 2017
7. 基于随机森林的SVM训练数据选择研究 [A] . 魏洒洒 . 2017

数据归一化方法对提升SVM训练效率的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅