摘要:为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇.在复旦大学语料库上使用类别均衡法,分别用Naive Bayes和Rocchio方法分类,前者的宏平均F1从48.62﹪提高到了80.99﹪,后者的宏平均F1从64.58﹪提高到80.26﹪,微平均F1从73.99﹪提高到80.47﹪.实验结果显示,类别均衡法显著提高了分类性能。