首页> 中文学位 >基于互信息的特征选择方法研究
【6h】

基于互信息的特征选择方法研究

代理获取

目录

声明

1 前言

1.1 研究背景和意义

1.2 国内外现状

1.3 论文主要内容

1.4 论文组织结构

2 相关知识

2.1 特征选择过程

2.1.1 产生过程

2.1.2 评价函数

2.1.3 停止准则

2.1.4 验证过程

2.2 熵和互信息

2.2.1 熵,联合熵和条件熵

2.2.2 互信息

2.3 基于互信息的特征选择算法

2.4 本章小结

3 基于最小化条件互信息的特征选择方法

3.1 特征之间的关系

3.1.1 相关性

3.1.2 冗余性

3.1.3 条件相关性

3.1.4 条件冗余性

3.1.5 互补性

3.2 基于最小条件相关和最小条件冗余的特征选择算法

3.2.1 MCRMCR算法的实现

3.2.2 算法复杂度分析

3.3 实验方法

3.3.1 标准化方法

3.3.2 离散方法

3.3.3 分类器介绍

3.3.4 验证方法

3.3.5 分类性能度量

3.4 实验与结果分析

3.4.1 实验数据集

3.4.2 分类准确率比较

3.4.3 F1值比较

3.5 本章小结

4 基于加权条件互信息的特征选择方法

4.1 WCFR特征选择算法

4.1.1 CFR算法介绍

4.1.2 WCFR算法的实现

4.1.3 算法复杂度分析

4.2 实验与结果分析

4.2.1 分类准确率比较

4.2.2 F1值比较

4.3 本章小结

5 总结与展望

5.1 工作总结

5.2 工作展望

致谢

参考文献

在校期间学术成果及获奖情况

展开▼

摘要

特征选择一直是模式识别领域的研究热点之一。模式识别是对数据进行分类,分类的过程可以在原始数据空间中完成,也可以对原始数据进行变换,将数据映射到更能反映分类本质的特征空间中进行。在特征空间中得到的分类模型无论是模型的训练时间还是模型的可解释性都优于直接从原始数据得到的分类模型。所以特征选择的研究是模式识别的一项重要任务。 论文详细介绍了基于互信息的过滤式特征选择算法的基本概念,在分析了已有的特征选择算法的优缺点之后,提出了两种新的特征选择算法。 (1)提出了一种基于最小条件相关和最小条件冗余的特征选择算法-MCRMCR(Minimum Conditional Relevancy and Minimum Conditional Redundancy)算法。通过对RelaxFS(Feature Selection based on Relaxing Max-relevance and Min-redundancy)算法的分析发现,RelaxFS算法在特征选择过程中,使用所有的己选特征对新特征进行评价,这样会在计算特征与类的相关性和特征与已选特征集合的冗余性过程中耗费大量的时间。因此为了更精确地刻画特征之间的相关性和冗余牲,减少产生不必要的冗余信息,MCRMCR算法从已选特征集合中仅选择有限个特征对新的特征进行评价。实验表明,MCRMCR算法可以有效地提高分类器的分类准确率。 (2)提出了WCFR(Weight Composition of Feature Relevancy)算法。传统的基于互信息的特征选择算法大多是在冗余项引入一个合适的权重,以此调节相关度和冗余度。WCFR算法引入了标准差作为权重,同时作用于相关项和冗余项。其目的是尽可能地使选择的特征与已选特征集合冗余度低些,且在给定己选特征集条件下与类高度相关。使用相关值和冗余值的离散程度分别权衡相关值和冗余值的重要程度。理论和实验证明WCFR算法可以有效地提高分类器的分类准确率。

著录项

  • 作者

    张尧;

  • 作者单位

    西安理工大学;

  • 授予单位 西安理工大学;
  • 学科 计算机科学与技术;计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 周红芳;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    互信息; 特征选择;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号