基于差异性度量的文本数据特征选择方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类是一种能够有效的处理、管理和组织文本数据的关键技术，能够很好地帮助人们快速定位查找信息，有效的解决信息杂乱问题。文本分类具有极大的应用价值，是数据挖掘领域中研究的一个热点。由于文本数据具有高维性，导致文本分类的效率和分类准确度大打折扣，因此特征选择成为文本分类中至关重要的一环。特征选择可以删除那些包含信息量少或者与类别不相关的特征，从而得到区别能力强的特征子集，它能有效地剔除冗余特征和噪声，降低数据的维度，从而提高分类的准确度及速度。本文首先详细介绍了文本分类的流程以及各个过程中使用的相关技术，然后对特征选择的相关过程以及相关技术进行了深入研究。本文的主要研究工作如下。
　　传统的特征选择算法一般只考虑了特征之间的相关性和冗余性，而对于特征之间的差异性考虑甚少，本文从特征的差异性出发，提出了一个综合考虑特征之间相关性、冗余性和差异性的特征选择算法。传统的特征选择算法对于特征之间的差异性考虑甚少，导致特征子集之间的冗余度不能完全消除，这大大降低了特征子集的类别区分能力。本文提出的特征算法综合考虑了特征之间的差异性和冗余度，使得特征之间的冗余度很小，同时保证特征与类别的相关性，这样得到的特征子集会有更强的类别区分能力。本文中使用了基于信息论的信息距离度量来评估特征之间的差异性，并引进了一个平衡系数来平衡特征之间的冗余度和差异性。本文将提出算法与JMI、IG、mRR算法做了对比性实验，并对实验结果进行了分析。
　　本文提出了一个基于特征信息距离聚类的特征选择算法 IDMCFS，该算法结合了有监督和无监督学习。在IDMCFS算法中充分考虑了特征之间的差异性，首先在原始特征集合中使用 K中心点聚类算法进行聚类，冗余度高的特征被聚集在一起，不同类簇间的特征差异性较大。聚类算法中使用的距离度量是信息距离，这是一种基于信息论的差异性距离。聚类算法使用的是 K中心点聚类算法，而且在聚类迭代过程中特征之间信息距离的值是不变的，只需计算一次，这大大降低了算法的计算复杂度。在聚类后，从每个类簇中选择出一个与类别互信息最大的特征，组成一个特征子集，并用 mRMR法则在该特征子集中挑选出 m个特征，来保证最终选出的特征子集与类别之间的相关性。我们对提出的算法与 mRMR、CMIM和 ReliefF三种算法做了对比实验，并对结果进行了分析。

著录项

作者
晁士龙;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名杨胜;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
差异性度量; 文本数据; 特征选择;

相似文献

中文文献
外文文献
专利

1. Web用户访问路径的差异性度量方法研究 [J] . 朱兴亮 ,游中胜 ,王勇 . 计算机科学 . 2006,第007期
2. 聚类分析中的差异性度量方法研究 [J] . 蒋盛益 ,李庆华 . 计算机工程与应用 . 2005,第011期
3. 基于图结构优化的自适应多度量非监督特征选择方法 [J] . 林筠超 ,万源 . 计算机应用 . 2021,第005期
4. 基于差异度量和互信息的文本特征选择算法 [J] . 潘晓英 ,陈柳 ,王昊 . 西安邮电大学学报 . 2019,第006期
5. 基于差异度量和互信息的文本特征选择算法 [J] . 潘晓英 ,陈柳 ,王昊 . 西安邮电学院学报 . 2019,第006期
6. 一种基于混淆矩阵的多分类器差异性新度量及其在多分类器系统构造中的应用 [C] . Yang Yi ,杨艺 ,Ding Jiankun . 第六届中国信息融合大会 . 2014
7. 文本数据挖掘中基于云模型的特征选择方法研究 [A] . 万剑 . 2012

基于差异性度量的文本数据特征选择方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅