首页> 中文学位 >基于Bayes方法的文本分类器的研究与实现
【6h】

基于Bayes方法的文本分类器的研究与实现

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1引言

1.2文本分类问题

1.2.1文本分类的研究目的和意义

1.2.2文本分类的研究现状

1.2.3贝叶斯方法与文本分类

1.3本文的研究内容和组织结构

1.3.1本文的研究内容

1.3.2本文的组织结构

2基于向量空间模型的文本分类算法

2.1文本预处理和向量空间模型

2.1.1分词

2.1.2向量表示

2.1.3特征选择

2.2基于向量空间模型的文本分类方法

2.2.1简单距离向量判别法

2.2.2 Knn算法

2.2.3归纳逻辑方法

2.2.4支持向量机算法

2.2.5其他文本分类方法

2.3文本分类的评价方法

3贝叶斯理论与贝叶斯分类方法

3.1引言

3.2贝叶斯分类方法的原理

3.2.1贝叶斯定理和极大后验假设

3.2.2事件的独立性

3.3贝叶斯分类模型

3.3.1朴素贝叶斯分类

3.3.2贝叶斯网络

3.3.3semi-bayes分类方法

3.3.4tan分类方法

3.4贝叶斯算法应用于文本分类

3.5小结

4朴素贝叶斯文本分类方法及其改进

4.1朴素贝叶斯文本分类方法及其存在的问题

4.1.1朴素贝叶斯文本分类器

4.1.2朴素贝叶斯文本分类器存在的一些问题

4.2相关特征项对文本分类的影响

4.3特征项相关性的度量

4.3.1互信息量

4.3.2互信息在自然语言处理上的应用

4.3.3利用互信息度量特征项之间的相关性

4.4基于特征相关性的朴素贝叶斯文本分类模型

4.5反馈方法应用于贝叶斯文本分类

4.6结论

5分类系统的结构与实现

5.1分类系统的结构与模块说明

5.2系统采用的关键算法

5.2.1特征提取算法

5.2.2分类算法

5.3实验及结果分析

5.3.1实验结果

5.3.2实验结论

6总结和进一步的工作

6.1总结

6.2下一步的工作

致 谢

参考文献

附录

展开▼

摘要

从大量的数据中挖掘出有用的信息是数据挖掘的任务。随着互联网的迅速发展,web已经发展成为拥有上亿页面的分布式信息空间。在信息急剧丰富的同时经过加工的知识信息却相对匮乏,文本是互联网上主要的信息载体,因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。文本分类技术是文本挖掘的基础和核心。 20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究自开展以来,准确率一直不能达到令人满意的效果。目前,Intemet信息急剧膨胀,文本分类有了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。 朴素贝叶斯(Naive Bayes)分类器是当前使用比较广泛的一种文本分类方法,它应用统计理论进行文本分类。在朴素贝叶斯分类方法中,有一个“独立性假设”:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另外由于文本的特殊性,相关的特征项可能会产生新的语义信息,而在用传统的向量空间模型表示文本时该信息极有可能丢失。 本文首先对文本分类系统以及贝叶斯分类模型作了分析和探讨,包括文本信息的表示、提取,文本分类的方法以及贝叶斯方法用于文本分类的模型和算法。然后针对上述朴素贝叶斯文本分类方法的不足之处,在训练文本时,对特征选择后产生的特征项集用互信息方法考察它们相互之间的相关性,然后对相关程度较高的特征进行适当的合并处理。在本文提出并实现的文本分类系统上,我们进行了一系列的测试工作,并得到了严格的实验数据,这些实验数据都表明:这个改进的文本分类系统可以获得更好的分类效果。

著录项

  • 作者

    陈剑敏;

  • 作者单位

    重庆大学;

  • 授予单位 重庆大学;
  • 学科 计算机系统结构
  • 授予学位 硕士
  • 导师姓名 张玉芳;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    文本分类; 数据挖掘; 贝叶斯分类模型;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号