首页> 中文期刊> 《科技风》 >基于多特征提取的中文二元分类

基于多特征提取的中文二元分类

         

摘要

通过对中文文本中二元组进行分类,可以提取出文本中的中文词汇研究中文二元组的组合规律,抽取二元组的词频、邻接熵、二元组概率、互信息值、卡方值等多个特征.利用机器学习的方法将二元组分为二元词、非词和待扩展词三类,实现中文词汇的自动提取.实验分别采了用朴素贝叶斯模型和决策树算模型进行训练,利用模型预测中文二元组.抽取中文词汇.实验结果表明,决策树算模型分类效果较好,准确率70.3%,召回率73.5%,F1值71.9%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号