首页> 中文学位 >基于分词频的特征选择算法在文本分类中的研究
【6h】

基于分词频的特征选择算法在文本分类中的研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着网络技术的快速发展和电子文件数量的急剧增加,文本分类技术愈发重要。文本分类中最棘手的问题就是如何有效降低特征空间的高维度,过高维度的特征空间不仅会增加分类时间复杂度,而且还会降低分类精度。特征选择技术作为文本分类过程中的重要环节,能够有效地剔除冗余特征,很好地降低特征空间维度。因此,对文本分类特征选择技术的研究有着重要的现实意义。 论文从提高分类准确性和稳定性的角度出发,对文本分类的基础理论及相关技术进行了介绍,其中包括文本预处理、降维、特征加权、分类器构造和性能评价。并在此基础上对特征选择进行了深入研究,提出了两个全新的特征选择算法。 (1)提出了一种基于分词频文档频率的特征选择算法(STF-DF)。通过对文档频率、信息增益、卡方检验等现有特征选择算法进行分析研究,不难发现,这些算法仅仅通过特征词是否在文档中出现来判定其文档频率,而不考虑特征词出现了多少次,这在复杂的文本分类问题中是远远不够的。因此,论文提出两个全新的概念——分词频和分词频文档频率,并依此设计了一种基于分词频文档频率的特征选择算法。该算法从分词频的角度计算文档频率,充分考虑了同一个特征词在不同词频下对分类带来的贡献。实验结果表明,STF-DF算法具有较好的分类性能,是一种有效的特征选择算法。 (2)提出了一种基于分词频逆类频率的特征选择算法(STF-ICF)。考虑到逆类频率ICF方法在衡量特征词重要程度时存在两点弊端,该方法会简单地认为那些在所有类中都出现的项对分类几乎没有贡献,同时对于具有相同类别频率的项没有区别能力。针对以上不足,论文提出了一种新的基于分词频逆类频率的特征选择算法,该算法在分词频的理论基础上,提出分词频类别频率以及加权平均类别频率两个新的概念。实验结果表明,STF-ICF算法在micro?F1及精确率两方面都取得了较好的实验效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号