首页> 中文期刊> 《中文信息学报》 >中文文本分类中基于概念屏蔽层的特征提取方法

中文文本分类中基于概念屏蔽层的特征提取方法

         

摘要

本文提出了一种新的基于概念抽取和屏蔽层的特征选择方法.该方法利用HowNet概念词典中的概念树,通过义原在概念树中的位置信息进行概念抽取,并赋予其适当权值来说明其描述能力.对于权值低于屏蔽层的义原,我们不将其选入特征集,并相应保留原词.具体到每个词,我们计算其DEF条目中的权值,决定是将原词选入特征集还是进行概念抽取.本文重点研究了如何给义原设定一个合适的权值,如何在选取原词和概念之间取得平衡以及针对非概念词的加权处理.实验证明,设定合适的屏蔽层,不仅可以缩小特征维数,使分类正确率得到一定的提高,而且可以减少不同类别间的分类正确率的差别.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号