首页> 中文学位 >改进朴素贝叶斯文本分类器的特征选择方法探讨
【6h】

改进朴素贝叶斯文本分类器的特征选择方法探讨

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景

1.2本文主要工作和创新

1.3本文结构

第二章文本分类和特征选择

2.1文本分类问题的数学描述

2.2文本分类的过程

2.3文本特征选择的重要性

2.3特征选择算法

2.3.1特征选择的定义

2.3.2特征选择算法的分类

2.3.3特征搜索策略

2.2.4文本特征评价度量

2.4文本分类模型的评价指标

第三章朴素贝叶斯文本分类器

3.1贝叶斯模型

3.2朴素贝叶斯文本分类器

3.2.1二项独立模型(BIM-Binary Independent Model)

3.2.2多项模型(Multinomial Models)

3.2.3其他朴素贝叶斯模型

第四章 朴素贝叶斯文本分类器的特征选择方法改进

4.1朴素贝叶斯文本分类器的缺陷

4.2改进的特征选择算法--BFS

4.2.1 BFS算法的提出和主要思想

4.2.2 BFS算法的流程图和伪代码

第五章实验

5.1实验数据集与预处理

5.2实验内容

5.3脚本病毒检测

5.3.1实验背景

5.3.2实验结果

5.3.3实验结论

5.4新闻文档分类

5.4.1实验结果

5.4.2实验结论

第六章总结

参考文献

附录

后记

展开▼

摘要

随着计算机技术的发展,大量电子形式的信息飞速增长,如何有效地对这些海量的数据进行组织和整理变得非常重要。而文本分类技术通过把文档自动归入一个或多个类别,可以更好地对信息进行组织和检索,有广泛的应用前景。在众多文本分类器中,朴素贝叶斯文本分类器的运算速度快,分类效果好,实用性非常强。 本文首先介绍了文本分类算法的一般过程,传统的文本特征选择算法和文本分类模型评价指标。然后详细介绍了朴素贝叶斯文本器,指出其不足之处。文本分类问题的输入空间维数很高,特征个数可能上万或多达几万,采用适当的特征选择方法非常重要。传统的文本分类特征选择方法只是简单地把很多单个分类能力强的特征选出来,然后组合在一起作为特征子集,没有考虑特征之间的交互效应,影响了朴素贝叶斯文本分类器分类准确度。 本文的主要创新之处是提出了新的特征选择算法BFS(Balanced Forward Selection),在相同时间复杂度的情况下,改善了传统特征选择算法会有偏向选择特征的问题,提高了BIM模型的分类准确度。最后,本文基于IG和CHI作为特征评价度量,分别在VBS脚本文件数据集和Reuters—21578数据集上进行实验,比较了改进前后的特征选择算法应用于BIM模型的分类效果。结果发现在两个实验中,无论是在选择相同特征数,还是在选择最优特征数的情况下BFS算法都比传统算法要好,能有效提高BIM模型的分类准确度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号