首页> 中文期刊>中文信息学报 >一种抗噪音的中文网页分类方法

一种抗噪音的中文网页分类方法

     

摘要

网页分类可以看成是噪音环境下的文本分类问题.本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集--CCT2002-v1.1(Corp_1)和我们自己整理的中文网页集(Corp_2)进行了实验.验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感.然后通过对特征的分析,探讨了NGBayes抗噪音的原因.从而得出结论:NGBayes是一种抗噪音的中文网页分类方法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号