基于Bayes方法的文本分类器的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

从大量的数据中挖掘出有用的信息是数据挖掘的任务。随着互联网的迅速发展，web已经发展成为拥有上亿页面的分布式信息空间。在信息急剧丰富的同时经过加工的知识信息却相对匮乏，文本是互联网上主要的信息载体，因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。文本分类技术是文本挖掘的基础和核心。 20世纪90年代以后，基于机器学习的文本自动分类方法越来越成为主流，它具有周期短，效率高，节省人力资源，分类结果一致性高等优点。但文本自动分类研究自开展以来，准确率一直不能达到令人满意的效果。目前，Intemet信息急剧膨胀，文本分类有了广阔的发展空间，文本自动分类面临前所未有的机遇和挑战，如何提高分类准确率成为研究热点。朴素贝叶斯(Naive Bayes)分类器是当前使用比较广泛的一种文本分类方法，它应用统计理论进行文本分类。在朴素贝叶斯分类方法中，有一个“独立性假设”：给定一个实例的类标签，实例中的每个属性的出现都独立于实例中其他属性的出现，而在实际应用中这种条件并不易满足，另外由于文本的特殊性，相关的特征项可能会产生新的语义信息，而在用传统的向量空间模型表示文本时该信息极有可能丢失。本文首先对文本分类系统以及贝叶斯分类模型作了分析和探讨，包括文本信息的表示、提取，文本分类的方法以及贝叶斯方法用于文本分类的模型和算法。然后针对上述朴素贝叶斯文本分类方法的不足之处，在训练文本时，对特征选择后产生的特征项集用互信息方法考察它们相互之间的相关性，然后对相关程度较高的特征进行适当的合并处理。在本文提出并实现的文本分类系统上，我们进行了一系列的测试工作，并得到了严格的实验数据，这些实验数据都表明：这个改进的文本分类系统可以获得更好的分类效果。

著录项

作者
陈剑敏;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机系统结构
授予学位硕士
导师姓名张玉芳;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
文本分类; 数据挖掘; 贝叶斯分类模型;

相似文献

中文文献
外文文献
专利

1. 基于模糊聚类和Naive Bayes方法的文本分类器 [J] . 杨岳湘 ,田艳芳 ,王韶红 . 计算机工程与科学 . 2002,第005期
2. 基于KNN模型的藏文文本分类研究与实现 [J] . 苏慧婧1 ,群诺1 ,贾宏云1 . 高原科学研究 . 2019,第002期
3. 基于GaussianNB模型的藏文文本分类研究与实现 [J] . 苏慧婧 ,群诺 ,贾宏云 . 青海师范大学学报（自然科学版） . 2019,第004期
4. 基于Logistic回归模型的藏文文本分类研究与实现 [J] . 群诺 ,贾宏云 . 信息与电脑 . 2018,第005期
5. 基于SVM藏文文本分类的研究与实现 [J] . 贾宏云 ,群诺 ,苏慧婧 . 电子技术与软件工程 . 2018,第009期
6. 一种基于混合模型的文本分类器的研究与实现 [C] . 汪传建 ,石河子大学信息工程学院 ,李晓光 . 第二十一届中国数据库学术会议 . 2004
7. 基于主题模型的短文本分类方法研究与实现 [A] . 汪涵潇 . 2020

基于Bayes方法的文本分类器的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅