基于特征选择和特征加权算法的文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网这一新型的信息传播方式的迅速普及，人们不仅可以轻而易举地获得全世界你想要的信息，还可以向全世界传递你所拥有的信息，人们在互联网上可获取的信息资源呈现爆炸式增长。同时，随着平板电脑、智能手机等网络终端的推出，以及各种社交网络的出现，如人人网、微博、微信、各种招聘网站和各种婚恋网站等等，更大大加快了互联网上数据信息增加的步伐。人们每天都会在这些应用上不断更新着各种各种的数据，文字、图片、视频信息等。有数据显示，互联网上每天都会有指数级的信息数据出现，人们已经处在一个信息极为膨胀的年代。面对这样如此庞大的信息资源，如何对其进行有效合理的管理，使人们获取目标信息更为方便快捷，已经成为研究的热点。而文本挖掘中的文本分类技术有效的解决了这一问题。
　　文本分类是一项非常复杂的工程，本文在对其各个流程进行仔细了解分析之后，重点研究了特征降维和特征加权两方面的过程。
　　经过文本预处理后的文本被表示为一个具有高维度和稀疏性的特征项向量空间，这不但增加了分类的时间复杂度和空间复杂度而且还大大影响到分类的精度。特征降维可以有效地解决这一难题，包括特征抽取和特征选择两种。相比较之下，特征选择算法因其过程比较简单，且可以取得比特征抽取算法更理想的降维效果，在文本分类系统中受到广泛应用。本文首先简要介绍了几种传统的特征选择算法，其中重点介绍被学者证明特征选择效果比较好的信息增益算法。分别从特征项频数在类内、类内位置和不同类间对算法的影响进行了分析，针对传统的信息增益算法对特征项频数考虑不足的弊端，提出一种改进信息增益特征选择算法IGimp。
　　由于每个特征项对文本类别的分类能力都不一样，特征项的权重恰能体现其对文档表示能力的大小，而不同的特征权重算法对文本空间向量的构造会产生很大影响。本文首先简单介绍几种传统的特征项权重算法和它们的优缺点，随后详细分析传统特征加权算法TD-IDF的不足，首先针对IDF的不足进行改进，之后根据熵的概念提出类内和类间信息分布熵参数因子进一步对算法进行改进。
　　为验证本文提出的改进信息增益特征选择算法和改进 TF-I DF特征加权算法的有效性，文章在中文文本分类实验平台上进行两项对比实验。第一项实验是将改进的IGimp算法同另外四种常见的特征选择算法作比较，而第二项实验是将改进的TD-NIDFimp算法同传统的TD-IDF算法作比较。实验利用评价指标查准率、查全率和F1评估值对各算法进行分析比较，对比结果表明本文提出的IGimp和TD-NIDFimp改进算法都优于传统的算法，具有一定的有效性。

著录项

作者
石慧;
展开▼
作者单位

山东师范大学;

展开▼
授予单位山东师范大学;
学科计算机应用技术
授予学位硕士
导师姓名贾代平,张永胜;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 特征选择; 特征加权; 信息增益; TD-NIDFimp算法;

相似文献

中文文献
外文文献
专利

1. 基于特征加权与特征选择的数据挖掘算法研究 [J] . 颜义人 . 电子技术与软件工程 . 2015,第015期
2. 基于类空间密度的文本分类特征加权算法 [J] . 贾隆嘉 ,孙铁利 ,杨凤芹 . 吉林大学学报（信息科学版） . 2017,第001期
3. 一种基于特征加权的KNN文本分类算法 [J] . 赵俊杰 ,盛剑锋 ,陶新民 . 智能计算机与应用 . 2010,第002期
4. 基于类心和特征加权的特征选择算法 [J] . 崔文玲 ,潘静 ,何改云 . 电子测量技术 . 2015,第3期
5. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017,第012期
6. 文本分类中一种基于词类间概率分布的特征选择算法 [C] . 邢昊 ,张凌 . 全国搜索引擎和网上信息挖掘学术讨论会 . 2003
7. 文本分类中特征选择和特征加权算法的研宄与应用 [A] . 髙聪 . 2017

基于特征选择和特征加权算法的文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅