首页> 中文学位 >基于属性相关性分类理论的属性选择方法研究
【6h】

基于属性相关性分类理论的属性选择方法研究

代理获取

目录

文摘

英文文摘

声明

致谢

1引言

1.1课题背景

1.2本文所完成的工作

1.3论文组织安排

2理论综述

2.1数据挖掘

2.1.1数据挖掘的概念和定义

2.1.2数据挖掘的功能

2.1.3数据挖掘的基本过程

2.1.4数据挖掘的方法

2.2属性选择

2.2.1属性选择概述

2.2.2属性选择基本步骤

2.2.3搜索属性空间

2.2.4属性选择方法

3 Weka中的属性选择

3.1 Weka概述

3.1.1 Weka的背景

3.1.2 Weka的功能

3.2 Weka设计框架

3.2.1 Weka总体结构分析

3.2.2 Weka的包结构

3.3 Weka中属性选择部分的静态模型

3.3.1 weka.attributeSelection

3.3.2 ASEvaluation及其派生类

3.3.3 ASSearch及其派生类

3.3.4 AttributeSelection

3.4 Weka中属性选择部分的动态模型

3.4.1属性选择算法的运行方式

3.4.2属性选择算法的运行过程

3.4.3属性评价算法的运行过程

3.4.4子集搜索算法的运行过程

4属性相关性分类理论

4.1已有的属性相关性计算方法

4.2二维随机变量的参考分布律

4.3两个随机变量相关的充要条件

4.4根据参考分布律和分布律的差异计算属性相关性

4.5属性相关性的类别

5属性相关性理论在属性选择中的应用

5.1消除属性间干扰相关性的属性选择算法

5.1.1算法设计及实现

5.1.2实验及结论

5.2保留加强及独立相关性的属性选择算法

5.2.1算法设计及实现

5.2.2实验及结论

6结论

参考文献

展开▼

摘要

数据挖掘是一门从大量日常业务数据中提取有用信息的新兴学科,20世纪90年代以来发展迅速。日常业务数据可能不完整,含冗余或边界模糊等,应用数据挖掘算法之前一般需要对原始数据进行预处理。属性选择是一种重要的数据预处理方法,可以降低数据集的维度和噪音,使数据挖掘算法效果更好。 本文介绍了数据挖掘开源平台Weka的概况和总体结构,重点分析了其中的属性选择算法的代码组织形式和运行过程;提出了参考分布律的概念,将属性相关性归结为分布律和参考分布律之间的差异性;总结了已有的属性相关性计算方法的缺点,根据相关性的新定义提出了衡量属性相关性大小的α-指数和β-指数,并发现这两个指数的分布呈现出很强的规律性,可以将属性相关性分为4种基本类型;设计了两个属性选择算法,以参考属性和类属性之间相关度的类型作为取舍属性的依据,并利用Naive Bayes分类算法和C4.5决策树算法评价属性选择的结果。实验表明,在大多数的数据集合上,基于属性相关性的分类理论的属性选择算法能够有效地选择属性并保持分类精度基本不变。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号