首页> 中国专利> 一种基于朴素贝叶斯的文本分类方法

一种基于朴素贝叶斯的文本分类方法

摘要

本发明公开了一种基于朴素贝叶斯的文本分类方法,包括:步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;得到P(w1,...,wn)在训练文本集Di中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在训练文本集Di中出现的先验概率P(w|Di);步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在训练文本集Di中的后验概率P(Di|w),步骤4:重复步骤2、3,计算出所有后验概率;步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,...,wn)所属类别,本方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。

著录项

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号