首页> 中文期刊> 《电脑与电信》 >基于梯度下降和多指标融合的文本特征选择算法

基于梯度下降和多指标融合的文本特征选择算法

         

摘要

在文本特征选择方法中,常用的评价指标包括相关性、冗余度、词频及稀疏程度等。但由于指标种类及数量众多,导致评判标准无法统一,造成特征选择困难,因而现有算法一般仅使用一到两种指标对特征进行过滤及筛选。然而文本特征质量的高低对于文本处理模型的最终构建起着至关重要的作用,在选择时需要对特征进行多方面、多角度的考量。针对上述不足,首先针对目前文本处理常用的词汇特征和n-grams特征筛选出两组功能互补的评价指标,根据每个指标值将特征映射到坐标系中,通过在坐标系构建假设函数,并利用梯度下降法确定假设函数中的各个参数,使得假设函数能够将高质量特征与低质量特征区分开,把特征选择问题转化为低维空间的简单分类问题。在《人民日报》标注语料库及美国近当代英语语料库(COHA)中的对比实验结果表明,相对于单指标或双指标的文本特征选择算法,基于梯度下降和多指标融合的文本特征选择算法在保证时效性的同时,能够更准确地筛选出高质量的词汇及n-grams特征,并在支持向量机(Support Vector Machine,SVM)中验证其有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号