首页> 中文学位 >一种数据挖掘中的特征子集选取模型研究和应用
【6h】

一种数据挖掘中的特征子集选取模型研究和应用

代理获取

目录

文摘

英文文摘

1 绪论

1.1 课题的研究背景

1.2 研究意义

1.3 国内外研究现状

1.4 本文的工作及组织结构

2 基础理论概述

2.1 数据挖掘

2.2 特征提取

2.3 统计学习理论

2.3.1 经验风险最小化

2.3.2 结构风险最小化

2.4 支持向量机理论

2.4.1 支持向量机基础

2.4.2 线性分类器

2.4.3 非线性分类器

2.4.4 核函数

2.5 本章小结

3 分位数及相对熵特征提取模型及应用

3.1 分位数特征提取模型

3.1.1 分位数的概念

3.1.2 分位数特征提取模型

3.2 相对熵特征提取模型

3.2.1 相对熵的概念

3.2.2 相对熵特征提取模型

3.3 特征提取模型的应用

3.3.1 数据采集

3.3.2 数据预处理

3.3.3 分位数及相对熵特征提取模型

3.3.4 模型求解

3.4 本章小结

4 支持向量机特征提取优化模型及应用

4.1 支持向量机特征提取优化模型

4.1.1 模型总体思路

4.1.2 确定判别函数

4.2 浮动序列前进算法

4.3 支持向量机优化

4.4 模型的应用

4.5 本章小结

5 总结和展望

5.1 本文的总结

5.2 下一步的研究工作

参考文献

参考文献

致谢

展开▼

摘要

特征提取是模式识别中的一个重要过程,如今,也在数据挖掘领域也有着广泛的应用。对于高维数据的数据挖掘,特征提取可以有效地对数据进行降维处理,从而降低算法的运算规模。相对于主成分分析,粗糙集等数据降维方法,特征提取更加系统化,也更加依赖与问题的具体应用领域,提出针对性的特征提取模型,得到的结果也更加具有参考价值。将支持向量机应用于特征提取中,可以结合两者的长处,优化特征提取的过程,是对特征提取方法的一种探索。
   本文针对最优特征子集选取的问题,进行了相关的探索研究。借鉴经典统计理论中的分位数的概念,将其引入特征选取模型,建立了分位数特征选取模型。另外,参考信息学中关于信息相对熵的概念和定义,建立了相对熵特征选取模型。在对特征候选集进行最优特征子集选取的过程中,本文依照分位数特征选取模型和相对熵特征选取模型分别建立了样本属性的可分性判别函数,并运用浮动序列前进算法找出不同属性个数下的最佳特征候选子集。最后,本文又借助于支持向量机的方法,将包含不同属性个数的特征候选子集对应的数据放入支持向量机,学习后进行判断,根据最后识别的错误率来判断该特征候选子集的优劣程度,从而得到最优特征子集。另外,通过在结肠癌患病和正常样本基因表达水平数据集上进行实验,来对上述特征提取模型进行了验证。
   本文将特征提取应用于数据挖掘领域中,所建立的特征提取模型依据样本的统计学特性以及信息学特性,这些模型的建立脱离了系统的具体应用领域,使其更具有普遍意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号