面向朴素贝叶斯算法的离散化方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在数据挖掘领域中，有很多算法只能处理定性属性.朴素贝叶斯分类算法在处理定量属性时作了正态分布的假设.然而，这一假设与实际常常是相违背的，从而严重制约了朴素贝叶斯算法的分类性能.因此，在运用分类算法之前，通常需要离散化.离散化是数据挖掘领域的一个重要方面，它是一个从定量数据到定性数据的转化过程，它不仅能够有效地提高分类器的分类精度及效率，也能够使更多的数据挖掘算法应用于含有定量属性的数据集中，具有重要的现实意义及研究价值. 首先，本文对数据的分类与度量进行了分析.然后，阐述了数据挖掘和分类的相关理论，介绍了朴素贝叶斯算法及其定量属性的处理方法.接着分析了离散化的研究现状，重点指出了离散化对朴素贝叶斯算法的有效性.在深入研究熵最小离散化方法(EMD)和MDL准则的基础上，分析了EMD方法的缺陷，提出了一种基于MDL的多元离散化方法Multi-EMD.该方法借鉴了EMD方法中寻找切点的方法，在评价切点时使用了一种多元的MDL准则，该准则综合考虑了数据集中所有数值型属性的作用，从而对切点的评价更可靠.本文还深入研究了比例离散化方法(PKI)，将EMD方法与PKI方法相结合，使用熵最小方法来寻找切点，使用PKI方法计算离散化区间数量，提出了比例熵最小离散化方法PEMD.最后，介绍了数据挖掘平台Weka系统的概况及其架构，在此平台上实现了Multi-EMD和PEMD方法，并通过实验比较了EMD，Mutli-EMD，PKI以及PEMD方法。实验结果与分析表明，在这4个方法之中，Multi-EMD比。EMD方法具有更好的离散化性能，PEMD方法的离散化效果则同时超越了EMD和PKI方法。

著录项

作者
谢作将;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科计算机应用技术
授予学位硕士
导师姓名王志海;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据挖掘; 离散化方法; 朴素贝叶斯算法; MDL;

相似文献

中文文献
外文文献
专利

1. 基于朴素贝叶斯算法的避雷器缺陷识别方法研究 [J] . 李亚锦 ,刘英男 ,张婉莹 . 电工电气 . 2022,第1期
2. 不平衡数据分类的类依赖属性加权朴素贝叶斯算法改进 [J] . 樊顺星 ,李楚进 ,沈澳 . 应用数学 . 2022,第2期
3. 双重加权朴素贝叶斯算法预测乳腺癌复发率 [J] . 冯照石 ,范祺 . 牡丹江师范学院学报（自然科学版） . 2021,第002期
4. 基于朴素贝叶斯算法的群众留言多标签分类的应用 [J] . 方小宇 ,罗补干 ,周铄洋 . 科学技术创新 . 2021,第009期
5. 朴素贝叶斯算法在支气管炎诊断中的应用 [J] . 钟春梅 . 计算机与数字工程 . 2021,第002期
6. 基于朴素贝叶斯算法的iVCE资源评价模型 [C] . 朱晓宁 ,孙斌 ,朱春鸽 . 2016年全国通信软件学术会议 . 2016
7. 基于心理行为——朴素贝叶斯算法的家政服务员专业性分类研究 [A] . 李咏维 . 2020

面向朴素贝叶斯算法的离散化方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅