首页> 中文学位 >面向不平衡数据集的朴素贝叶斯文本分类算法改进研究
【6h】

面向不平衡数据集的朴素贝叶斯文本分类算法改进研究

代理获取

目录

摘要

1 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 样本空间研究现状

1.2.2 特征选择算法研究现状

1.2.3 文本分类算法研究现状

1.3 研究目标与内容

1.3.1 研究目标

1.3.2 主要研究内容

1.4 论文的组织结构

2 文本分类流程及相关分类模型

2.1 文本分类总体流程

2.2 文本预处理

2.3 文本表示

2.4 文本分类算法

2.4.1 朴素贝叶斯模型

2.4.2 伯努利朴素贝叶斯模型

2.4.3 多项式朴素贝叶斯模型

2.4.4 补集朴素贝叶斯模型

2.4.5 朴素贝叶斯文本分类流程

2.5 文本分类器评价方法和标准

2.5.1 文本分类器评价方法

2.5.2 文本分类器评价标准

2.6 本章小结

3 基于近邻文本加权补集的朴素贝叶斯分类算法研究

3.1 文本距离度量方法

3.2 文本权重的标准化方法

3.3 KWCNB文本分类改进算法

3.3.1 算法的核心思想

3.3.2 算法的基本原理

3.3.3 算法的基本流程

3.4 仿真实验与分析

3.4.1 数据选取

3.4.2 数据预处理

3.4.3 实验结果与分析

3.5 本章小结

4 基于属性加权补集的朴素贝叶斯分类算法研究

4.1 特征选择方法

4.2 特征加权方法

4.3 TFWCNB文本分类改进算法

4.3.1 算法的核心思想

4.3.2 算法的基本原理

4.3.3 算法的基本流程

4.4 仿真实验与分析

4.4.1 数据选取及预处理

4.4.2 实验结果与分析

4.5 本章小结

5 基于文本加权补集的朴素贝叶斯组合提升算法研究

5.1 组合分类算法

5.1.1 装袋组合算法

5.1.2 随机森林组合算法

5.1.3 AdaBoost提升算法

5.2 ADAWCNB组合提升改进算法

5.2.1 算法的核心思想

5.2.2 算法的基本原理

5.2.3 算法的基本流程

5.3 实验与结果

5.3.1 数据选取及预处理

5.3.2 实验结果与分析

5.4 本章小结

结论

参考文献

攻读学位期间发表的学术论文

致谢

声明

展开▼

摘要

文本分类是数据挖掘领域的热点问题,但在实际应用中,会出现一些类中的文本很多,而另外一些类中的文本相对较少,不同类别数据集规模之间出现明显的倾斜情况,而文本分类器就是要预测携带很重要信息的少数类。由于不平衡数据集中少数类的表达不充分,而多数类信息占绝对优势地位,造成传统文本分类器在整个不平衡数据集上直接训练时,分类边界偏置于多数类。传统的文本分类算法对于不平衡数据中的少数类识别率比较低,如何有效的提高少数类的分类准确率成为机器学习和数据挖掘领域急需解决的问题。
  提高不平衡数据集文本分类性能的方法有基于样本空间的改造、文本分类算法的改进、组合分类算法的改进三大方向。本文开展的主要工作有:
  (1)在基于样本空间的改造方面,现有的研究多数仅考虑样本数目,未考虑抽样样本的权重。因此,本文提出了KWCNB近邻文本加权补集的朴素贝叶斯文本分类算法,该算法使用KNN算法从多数类中选取k个近邻样本,同时赋予近邻样本权重,并使用样本的权重修改补集朴素贝叶斯中特征词所携带信息量的公式,解决了样本不均衡问题,同时削弱了补集朴素贝叶斯算法中属性之间相互独立的假设。
  (2)在文本分类算法改进方面,现有的研究利用朴素贝叶斯方法解决文本分类的效果很好,因此将该算法引入解决不平衡文本数据集。本文提出了TFWCNB属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重,解决了训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。
  (3)在组合分类算法改进方面,现有的组合分类器并没有考虑基分类器算法与训练样本权重之间的关系。因此,文本提出ADAWCNB文本加权补集的朴素贝叶斯组合提升算法,该算法使用AdaBoost提升算法不断的迭代修改训练样本的权重,使分类器更加偏重那些被错误分类的训练样本,同时使用训练样本的权重修改基分类器补集朴素贝叶斯算法。该算法使用组合分类器,比它的基分类器更加准确,同时使用训练样本的权重修改补集朴素贝叶斯算法,进一步解了决少数类经常被误分类到多数类中的问题。
  本文采用分类准确率、召回率及G-mean几何平均准则对改进算法的性能进行评价,仿真实验表明:无论在平衡数据集或不平衡数据集上,ADAWCNB算法的表现最优,KWCNB算法次之,TFWCNB算法较差,但三种算法均在不同程度上优于传统的朴素贝叶斯分类算法及补集朴素贝叶斯分类算法,说明改进的算法具有一定的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号