首页> 中文期刊> 《软件》 >针对特定主题的短文本向量化

针对特定主题的短文本向量化

         

摘要

虽然针对中文文本的向量化技术已经比较成熟,但是由于短文本自身信息量少,特征项模糊等特点,使得用传统的文本向量化方法处理短文本会带来向量化后的高纬度以及向量的稀疏性等诸多问题.本文通过深入研究向量化的两个重要环节,即特征选取和权重计算,比较分析各自的利与弊.结合短文本的特点,在借鉴传统方法的思想,对针对特定主题下的短文本特征提取和权重计算方法都提出了改进的方法,在计算权重的时候考虑特征项长度带来的影响,并引入了词长因子的概念,之后通过实验数据验证方法的可行性和优越性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号