首页> 中文学位 >基于特征选择和特征加权算法的文本分类研究
【6h】

基于特征选择和特征加权算法的文本分类研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第一章 绪论

1.1研究背景和研究意义

1.2国内外研究现状

1.3论文的研究内容

1.4组织结构

第二章 文本分类相关技术

2.1文本分类的定义

2.2文本分类流程

2.3文本分类预处理

2.4特征降维

2.5特征加权

2.6常用的文本分类算法

2.7文本分类系统性能评估

2.8本章小结

第三章 基于词频信息的改进信息增益文本特征选择算法

3.1常用的特征选择算法

3.2信息增益算法现状分析

3.3信息增益算法的改进

3.4本章小结

第四章 结合特征项类内和类间分布改进的TF-IDF算法

4.1特征项权重算法

4.2TF-IDF算法的不足

4.2结合类内和类间分布情况的改进TF-IDF算法

4.3 本章小结

第五章 实验与结果分析

5.1分类实验介绍

5.2实验结果分析

5.3 本章小结

第六章 总结与展望

6.1总结

6.2展望

参考文献

攻硕期间发表论文及科研成果

致谢

展开▼

摘要

随着互联网这一新型的信息传播方式的迅速普及,人们不仅可以轻而易举地获得全世界你想要的信息,还可以向全世界传递你所拥有的信息,人们在互联网上可获取的信息资源呈现爆炸式增长。同时,随着平板电脑、智能手机等网络终端的推出,以及各种社交网络的出现,如人人网、微博、微信、各种招聘网站和各种婚恋网站等等,更大大加快了互联网上数据信息增加的步伐。人们每天都会在这些应用上不断更新着各种各种的数据,文字、图片、视频信息等。有数据显示,互联网上每天都会有指数级的信息数据出现,人们已经处在一个信息极为膨胀的年代。面对这样如此庞大的信息资源,如何对其进行有效合理的管理,使人们获取目标信息更为方便快捷,已经成为研究的热点。而文本挖掘中的文本分类技术有效的解决了这一问题。
  文本分类是一项非常复杂的工程,本文在对其各个流程进行仔细了解分析之后,重点研究了特征降维和特征加权两方面的过程。
  经过文本预处理后的文本被表示为一个具有高维度和稀疏性的特征项向量空间,这不但增加了分类的时间复杂度和空间复杂度而且还大大影响到分类的精度。特征降维可以有效地解决这一难题,包括特征抽取和特征选择两种。相比较之下,特征选择算法因其过程比较简单,且可以取得比特征抽取算法更理想的降维效果,在文本分类系统中受到广泛应用。本文首先简要介绍了几种传统的特征选择算法,其中重点介绍被学者证明特征选择效果比较好的信息增益算法。分别从特征项频数在类内、类内位置和不同类间对算法的影响进行了分析,针对传统的信息增益算法对特征项频数考虑不足的弊端,提出一种改进信息增益特征选择算法IGimp。
  由于每个特征项对文本类别的分类能力都不一样,特征项的权重恰能体现其对文档表示能力的大小,而不同的特征权重算法对文本空间向量的构造会产生很大影响。本文首先简单介绍几种传统的特征项权重算法和它们的优缺点,随后详细分析传统特征加权算法TD-IDF的不足,首先针对IDF的不足进行改进,之后根据熵的概念提出类内和类间信息分布熵参数因子进一步对算法进行改进。
  为验证本文提出的改进信息增益特征选择算法和改进 TF-I DF特征加权算法的有效性,文章在中文文本分类实验平台上进行两项对比实验。第一项实验是将改进的IGimp算法同另外四种常见的特征选择算法作比较,而第二项实验是将改进的TD-NIDFimp算法同传统的TD-IDF算法作比较。实验利用评价指标查准率、查全率和F1评估值对各算法进行分析比较,对比结果表明本文提出的IGimp和TD-NIDFimp改进算法都优于传统的算法,具有一定的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号