首页> 中文期刊>计算机工程与设计 >基于关键词语的文本特征选择及权重计算方案

基于关键词语的文本特征选择及权重计算方案

     

摘要

文本的形式化表示一直是文本分类的重要难题.在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征.提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷.通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号