首页> 外文会议>Association for Computational Linguistics Annual Meeting >A New Feature Selection Score for Multinomial Naive Bayes Text Classification Based on KL-Divergence
【24h】

A New Feature Selection Score for Multinomial Naive Bayes Text Classification Based on KL-Divergence

机译:基于KL分歧的多项幼稚贝叶斯文本分类的新特征选择分数

获取原文

摘要

We define a new feature selection score for text classification based on the KL-divergence between the distribution of words in training documents and their classes. The score favors words that have a similar distribution in documents of the same class but different distributions in documents of different classes. Experiments on two standard data sets indicate that the new method outperforms mutual information, especially for smaller categories.
机译:根据培训文档及其课程中的单词分布之间的KL分配,我们为文本分类定义了一个新的特征选择分数。 分数有利于在同一类别的文档中具有类似分布的词语,但不同类别的文档中的不同分布。 两个标准数据集的实验表明新方法优于相互信息,特别是对于较小类别。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号