首页> 中文学位 >基于SA--SVM的中文文本分类研究
【6h】

基于SA--SVM的中文文本分类研究

代理获取

目录

摘要

1.1研究背景及意义

1.2国内外研究进展

1.3主要研究内容

1.4论文章节安排

1.5本章小结

第2章文本分类相关技术

2.1文本分类综述

2.1.1文本分类的定义

2.1.2文本分类的流程

2.2文本预处理

2.2.1文本分词

2.2.2去除停用词

2.3文本特征选择

2.3.1文档频率

2.3.2互信息

2.3.3卡方检验

2.3.4信息增益

2.3.5文本证据权

2.3.6期望交叉熵

2.4文本表示方式

2.4.1布尔模型

2.4.2概率模型

2.4.3向量空间模型

2.5分类算法

2.5.1朴素贝叶斯

2.5.2 K-最近邻

2.5.3逻辑回归

2.5.4决策树

2.5.5支持向量机

2.6文本分类评估

2.7本章小结

第3章模拟退火优化支持向量机

3.1模拟退火算法

3.1.1理论来源

3.1.2算法步骤

3.1.3寻优举例

3.2支持向量机

3.3支持向量机的参数问题

3.4 SA-SVM模型

3.5几种优化SVM参数算法的比较

3.6本章小结

第4章SA-SVM模型在中文文本分类中的应用

4.1实验环境与实验工具平台

4.2实验过程

4.2.1语料库选择

4.2.2文本预处理

4.2.3文本特征选择

4.2.4文本表示

4.3实验结果与分析

4.4本章小结

5.1工作总结

5.2展望

参考文献

攻读学位期间取得的研究成果

致谢

声明

展开▼

摘要

信息技术的飞速发展使互联网的数据和资源逐步呈现海量化,但是海量化的信息杂乱无章,常常导致人们无从下手。为了有效地管理和利用这些庞大的信息,信息智能检索、信息过滤和数据挖掘等应运而生,其中,文本分类是它们最重要的支撑,它利用计算机相关技术将具有相同特征的文本根据其内容自动划分到预先设定好的文本类别体系中。文本分类能为信息管理和利用带来便利,具有很广阔的应用前景。 分类算法是文本分类的核心,众多学者在研究中文文本分类的过程中,为我们提供了许多优秀的分类算法,传统的机器学习分类算法有贝叶斯算法、KNN算法、逻辑回归算法、决策树算法以及支持向量机算法(support vector machine,SVM)等。大量的实验研究表明,在中文文本分类上,SVM具有很强的学习能力和泛化能力。通过对SVM算法原理分析以及实验例证,可以得出基于SVM的文本分类性能与其惩罚因子C和核函数参数σ等紧密相关,惩罚因子C和核函数参数σ的参数选择直接影响着文本分类的精度。 针对传统的优化SVM参数方法的不足,通过理论分析和实验验证,发现模拟退火(simulated annealing)算法在三维空间中具有较强的全局搜索能力。本文提出了一种利用SA优化SVM参数的方法,并利用几组标准的UCI数据集与几种优化算法的性能进行比较,证明SA-SVM模型在搜索SVM最优参数时利用其随机扰动的概率突跳特性能跳出局部最优,找到全局最优的参数,使模型具备很好的分类性能。 为了体现SA-SVM的分类模型在实际应用的价值,将本文提出的SA-SVM分类模型应用于中文文本分类的实践中,并利用复旦大学中文文本语料库和搜狗中文文本语料库作为实验数据集,与几种常用的分类算法进行实验对比,验证SA-SVM分类模型的在中文文本分类中应用的分类性能。实验结果表明,本文提出的SA-SVM分类模型,相比其它中文文本分类算法,具有较强的泛化能力,取得了良好的分类效果,展现了较为显著的分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号