首页> 中文学位 >基于差异性度量的文本数据特征选择方法研究
【6h】

基于差异性度量的文本数据特征选择方法研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 研究内容与主要工作

1.4 本文组织结构

第2章 文本数据特征选择的相关知识

2.1 文本分类

2.2 文本预处理技术

2.3 特征选择

2.4 经典的特征选择算法

2.5 小结

第3章 基于相关性、冗余性和差异性的特征选择算法

3.1 信息距离

3.2 特征之间的差异性分析

3.3 基于相关性、冗余性和差异性的特征选择算法

3.4 实验及结果分析

3.5 小结

第4章 基于信息距离聚类的特征选择算法

4.1 基于信息距离的特征聚类

4.2 基于特征信息距离聚类的特征选择算法

4.3 实验及结果分析

4.4 小结

结论

参考文献

附录A 攻读硕士学位期间发表论文目录

附录B 攻读学位期间参与的研究项目

致谢

展开▼

摘要

文本分类是一种能够有效的处理、管理和组织文本数据的关键技术,能够很好地帮助人们快速定位查找信息,有效的解决信息杂乱问题。文本分类具有极大的应用价值,是数据挖掘领域中研究的一个热点。由于文本数据具有高维性,导致文本分类的效率和分类准确度大打折扣,因此特征选择成为文本分类中至关重要的一环。特征选择可以删除那些包含信息量少或者与类别不相关的特征,从而得到区别能力强的特征子集,它能有效地剔除冗余特征和噪声,降低数据的维度,从而提高分类的准确度及速度。本文首先详细介绍了文本分类的流程以及各个过程中使用的相关技术,然后对特征选择的相关过程以及相关技术进行了深入研究。本文的主要研究工作如下。
  传统的特征选择算法一般只考虑了特征之间的相关性和冗余性,而对于特征之间的差异性考虑甚少,本文从特征的差异性出发,提出了一个综合考虑特征之间相关性、冗余性和差异性的特征选择算法。传统的特征选择算法对于特征之间的差异性考虑甚少,导致特征子集之间的冗余度不能完全消除,这大大降低了特征子集的类别区分能力。本文提出的特征算法综合考虑了特征之间的差异性和冗余度,使得特征之间的冗余度很小,同时保证特征与类别的相关性,这样得到的特征子集会有更强的类别区分能力。本文中使用了基于信息论的信息距离度量来评估特征之间的差异性,并引进了一个平衡系数来平衡特征之间的冗余度和差异性。本文将提出算法与JMI、IG、mRR算法做了对比性实验,并对实验结果进行了分析。
  本文提出了一个基于特征信息距离聚类的特征选择算法 IDMCFS,该算法结合了有监督和无监督学习。在IDMCFS算法中充分考虑了特征之间的差异性,首先在原始特征集合中使用 K中心点聚类算法进行聚类,冗余度高的特征被聚集在一起,不同类簇间的特征差异性较大。聚类算法中使用的距离度量是信息距离,这是一种基于信息论的差异性距离。聚类算法使用的是 K中心点聚类算法,而且在聚类迭代过程中特征之间信息距离的值是不变的,只需计算一次,这大大降低了算法的计算复杂度。在聚类后,从每个类簇中选择出一个与类别互信息最大的特征,组成一个特征子集,并用 mRMR法则在该特征子集中挑选出 m个特征,来保证最终选出的特征子集与类别之间的相关性。我们对提出的算法与 mRMR、CMIM和 ReliefF三种算法做了对比实验,并对结果进行了分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号