基于字特征的中文文本分类技术研究

摘要

大量非结构化文本信息的存在和文本信息的重要性,使得文本挖掘已经成为数据挖掘研究的一个热点。文本分类是文本挖掘中的一个重要子任务。本文研究了基于字特征的中文文本分类技术。实验结果表明字特征选择是中文文本分类的一种有效建模方法。在基于复旦大学新闻语料库的实验中,使用信息增益(IG)技术进行特征选择,用余弦相似度来度量文档间的相似性,采用KNN分类器,文本分类的正确率达到86.92%,宏平均分类性能达到接近87%的水平。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号