基于SA--SVM的中文文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

信息技术的飞速发展使互联网的数据和资源逐步呈现海量化，但是海量化的信息杂乱无章，常常导致人们无从下手。为了有效地管理和利用这些庞大的信息，信息智能检索、信息过滤和数据挖掘等应运而生，其中，文本分类是它们最重要的支撑，它利用计算机相关技术将具有相同特征的文本根据其内容自动划分到预先设定好的文本类别体系中。文本分类能为信息管理和利用带来便利，具有很广阔的应用前景。分类算法是文本分类的核心，众多学者在研究中文文本分类的过程中，为我们提供了许多优秀的分类算法，传统的机器学习分类算法有贝叶斯算法、KNN算法、逻辑回归算法、决策树算法以及支持向量机算法(support vector machine，SVM)等。大量的实验研究表明，在中文文本分类上，SVM具有很强的学习能力和泛化能力。通过对SVM算法原理分析以及实验例证，可以得出基于SVM的文本分类性能与其惩罚因子C和核函数参数σ等紧密相关，惩罚因子C和核函数参数σ的参数选择直接影响着文本分类的精度。针对传统的优化SVM参数方法的不足，通过理论分析和实验验证，发现模拟退火(simulated annealing)算法在三维空间中具有较强的全局搜索能力。本文提出了一种利用SA优化SVM参数的方法，并利用几组标准的UCI数据集与几种优化算法的性能进行比较，证明SA-SVM模型在搜索SVM最优参数时利用其随机扰动的概率突跳特性能跳出局部最优，找到全局最优的参数，使模型具备很好的分类性能。为了体现SA-SVM的分类模型在实际应用的价值，将本文提出的SA-SVM分类模型应用于中文文本分类的实践中，并利用复旦大学中文文本语料库和搜狗中文文本语料库作为实验数据集，与几种常用的分类算法进行实验对比，验证SA-SVM分类模型的在中文文本分类中应用的分类性能。实验结果表明，本文提出的SA-SVM分类模型，相比其它中文文本分类算法，具有较强的泛化能力，取得了良好的分类效果，展现了较为显著的分类性能。

著录项

作者
郭超磊;
展开▼
作者单位

上海师范大学;

展开▼
授予单位上海师范大学;
学科软件工程
授予学位硕士
导师姓名陈军华;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化基础理论;
关键词
中文文本;

相似文献

中文文献
外文文献
专利

1. 基于TextRank和LDA的中文短文本分类研究 [J] . 张兵磊 . 信息与电脑 . 2021,第006期
2. 基于word2vec和logistic回归的中文专利文本分类研究 [J] . 程盼 ,徐弼军 . 浙江科技学院学报 . 2021,第006期
3. 基于ERNIE模型的中文文本分类研究 [J] . 毕云杉 ,钱亚冠 ,张超华 . 浙江科技学院学报 . 2021,第006期
4. 基于信息熵加权的Word2vec中文文本分类研究 [J] . 吴萍萍 . 长春师范大学学报 . 2020,第002期
5. 基于信息熵加权的Word2 vec中文文本分类研究 [J] . 吴萍萍 . 长春师范学院学报（自然科学版） . 2020,第001期
6. 基于字特征的中文文本分类技术研究 [C] . 张煜斌 ,陆建峰 ,杨静宇 . 2009年全国模式识别学术会议暨首届中日韩模式识别学术研讨会 . 2009
7. 中文文本分类中文本表示及分类算法研究 [A] . 蒋红 . 2007

基于SA--SVM的中文文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅