首页> 中文学位 >面向朴素贝叶斯算法的离散化方法研究
【6h】

面向朴素贝叶斯算法的离散化方法研究

代理获取

目录

文摘

英文文摘

声明

致谢

1引言

1.1课题背景

1.2本文所完成的工作

1.3论文的组织安排

2面向分类学习的离散化方法综述

2.1数据

2.1.1定性与定量数据

2.1.2度量标度级别

2.2数据挖掘

2.2.1数据挖掘的概念

2.2.2数据挖掘的功能与方法

2.2.3数据挖掘中数据的预处理

2.3分类

2.3.1分类概述

2.3.2分类误差

2.3.3朴素贝叶斯分类方法概述

2.3.4朴素贝叶斯中的属性处理

2.4离散化

2.4.1离散化概念

2.4.2离散化的重要性

2.4.3离散化评价标准

2.4.4离散化和朴素贝叶斯

2.4.5离散化方法分类

2.5本章小结

3 Weka系统中的离散化

3.1Weka概述

3.2 Weka系统结构

3.2.1 Weka的数据格式

3.2.2 Weka结构分析

3.2.3 Weka系统设计

3.3 Weka中的离散化

3.3.1 Filters包分析

3.3.2 Weka中离散化的实现

3.4本章小结

4一种基于MDL的离散化算法

4.1信息论

4.2 MDL准则

4.2.1 MDL概述

4.2.2数据压缩

4.2.3编码

4.3熵最小离散化方法

4.3.1相关概念

4.3.2算法描述

4.3.3 Fayyad的MDL准则

4.3.4 EMD方法评价

4.4一种基于MDL准则的离散化方法

4.4.1算法描述

4.4.2 MDL准则

4.5本章小结

5一种比例熵最小离散化算法

5.1最简单的离散化方法

5.2比例离散化方法

5.3比例熵最小离散化方法

5.3.1算法原理

5.3.2算法描述

5.4本章小结

6实验及结果

6.1实验方法

6.2数据集描述

6.3实验结果及分析

6.4本章小结

7结论

7.1研究工作总结

7.2进一步研究的考虑

参考文献

展开▼

摘要

在数据挖掘领域中,有很多算法只能处理定性属性.朴素贝叶斯分类算法在处理定量属性时作了正态分布的假设.然而,这一假设与实际常常是相违背的,从而严重制约了朴素贝叶斯算法的分类性能.因此,在运用分类算法之前,通常需要离散化.离散化是数据挖掘领域的一个重要方面,它是一个从定量数据到定性数据的转化过程,它不仅能够有效地提高分类器的分类精度及效率,也能够使更多的数据挖掘算法应用于含有定量属性的数据集中,具有重要的现实意义及研究价值. 首先,本文对数据的分类与度量进行了分析.然后,阐述了数据挖掘和分类的相关理论,介绍了朴素贝叶斯算法及其定量属性的处理方法.接着分析了离散化的研究现状,重点指出了离散化对朴素贝叶斯算法的有效性.在深入研究熵最小离散化方法(EMD)和MDL准则的基础上,分析了EMD方法的缺陷,提出了一种基于MDL的多元离散化方法Multi-EMD.该方法借鉴了EMD方法中寻找切点的方法,在评价切点时使用了一种多元的MDL准则,该准则综合考虑了数据集中所有数值型属性的作用,从而对切点的评价更可靠.本文还深入研究了比例离散化方法(PKI),将EMD方法与PKI方法相结合,使用熵最小方法来寻找切点,使用PKI方法计算离散化区间数量,提出了比例熵最小离散化方法PEMD.最后,介绍了数据挖掘平台Weka系统的概况及其架构,在此平台上实现了Multi-EMD和PEMD方法,并通过实验比较了EMD,Mutli-EMD,PKI以及PEMD方法。实验结果与分析表明,在这4个方法之中,Multi-EMD比。EMD方法具有更好的离散化性能,PEMD方法的离散化效果则同时超越了EMD和PKI方法。

著录项

  • 作者

    谢作将;

  • 作者单位

    北京交通大学;

  • 授予单位 北京交通大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 王志海;
  • 年度 2008
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据挖掘; 离散化方法; 朴素贝叶斯算法; MDL;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号