首页> 中文学位 >基于SVM和半监督学习的短文本分类算法研究
【6h】

基于SVM和半监督学习的短文本分类算法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 本文研究背景及意义

1.2 国内外研究现状

1.2.1 国外的研究现状

1.2.2 国内的研究现状

1.3 本文的组织结构

第二章 短文本分类的相关技术

2.1 短文本分类流程

2.2 预处理

2.3 特征表示

2.4 特征选择

2.4.1 互信息(MI)

2.4.2 期望交叉熵(ECE)

2.4.3 卡方检验(CHI)

2.4.4 信息增益(IG)

2.4.5 文本频数(DF)

2.5 特征权重计算

2.6 分类算法

2.6.1 KNN分类算法

2.6.2 朴素贝叶斯分类算法

2.7 本章小结

第三章 基于自监督的半监督学习短文本预处理

3.1 半监督学习的模型假设

3.2 基于图的半监督学习

3.2.1 图结构的定义

3.2.2 建立图结构

3.3 本文提出的基于自监督的半监督学习

3.3.1 自监督

3.3.2 改进的预处理算法步骤

3.4 实验与分析

3.4.1 实验数据

3.4.2 实验过程

3.4.3 评价指标

3.4.4 实验结果与分析

3.5 本章小结

第四章 基于半监督学习和搜索引擎的短文本特征扩展方法

4.1 基于关联规则的短文本特征扩展方法

4.1.1 关联规则集的获取

4.1.2 基于自选择机制的短文本特征扩展

4.2 改进的短文本特征扩展方法

4.2.1 短文本关键字提取

4.2.2 短文本的相似度计算

4.2.3 算法描述

4.3 实验与分析

4.3.1 实验数据

4.3.2 实验流程

4.3.3 实验结果与讨论

第五章 基于SVM和半监督学习的短文本分类算法

5.1 本文提出的基于SLAS的短文本分类算法

5.1.1 问题描述

5.1.2 支持向量机

5.1.3 本文使用的核函数

5.1.4 本文提出的基于SLAS的短文本分类算法步骤

5.2 本文在短文本分类步骤中的使用的方法

5.2.1 基于向量空间模型的特征表示

5.2.2 基于主成分分析法的特征选择算法

5.2.3 基于TF-IDF的特征权重计算

5.3 优化的基于SLAS-C的短文本分类算法

5.3.1 分类回归树算法(CART)

5.3.2 优化的SLAS-C算法

5.4 实验与分析

5.4.1 实验数据

5.4.2 实验流程

5.4.3 实验结果与分析

5.5 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

作者简介

展开▼

摘要

随着互联网时代的到来,网络上各种文本的数据量呈爆发式的增长。其中,短文本形式的文本也逐渐成为主流的文本形式。面对大量的短文本,如何高效的获取其中有效的信息,是如今数据挖掘中的新热点,而在短文本中挖掘出有效信息,就需要有效的短文本分类算法作基础。
  然而以往的一些文本分类算法主要是用来对长文本进行分类的,例如K近邻(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machines,SVM)、朴素贝叶斯(Naive Bayes,NB)等,由于短文本具有实时性、稀疏性、不规则性等特点,这些适用于长文本分类的分类算法并不能直接拿来对短文本进行分类,因此,需要一种适合短文本分类的分类算法来对如今网络上大量的短文本进行数据挖掘。本文针对短文本的特点重点做了以下工作:
  首先,本文提出了一种基于自监督的半监督学习短文本预处理方法。首先需要对收集的样本进行预处理,以去掉一些噪声干扰。通过对训练集的迭代训练,将未标注的样本分类并学习,直到样本完全被标注。这种方法有效的解决了预处理时噪声样本不足而导致预处理效果不理想的问题。
  其次,本文提出了一种基于半监督学习和搜索引擎的自选择短文本特征扩展方法,该方法针对基于自选择的特征扩展方法对短文本不规则性问题的忽略,引入了半监督学习和搜索引擎的方法,通过半监督学习的迭代训练和搜索引擎庞大的知识库,解决短文本的不规则性问题。
  最后,本文提出了一种基于SVM和半监督学习(Semi-supervised Learning and Support Vector Machines,SLAS)的短文本分类算法。普通的SVM对短文本的分类效果并不是很理想,而本文提出的基于SVM和半监督学习的短文本分类算法有效的解决了短文本的特征稀疏和不规则的问题,扩充了数据字典中的标注样本,接着在SLAS的基础上,本文提出了SLAS-C短文本分类算法。该方法结合了分类回归树,利用Gini指数改进分类模型,解决了SLAS在分类效率上提升不明显的问题。实验结果中本文提出的算法的综合指标F1提高了4%-10%,同时算法的效率也得到了提高,验证了算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号