首页> 中文期刊>移动通信 >基于词向量及术语关系抽取方法的文本分类方法

基于词向量及术语关系抽取方法的文本分类方法

     

摘要

针对当前中文文本特征词提取不完备以及由于互联网海量文本呈现新特征而导致文本分类不准确的问题,提出基于词向量及术语关系抽取方法的文本分类方法.考虑了词语之间的语义关联关系,将神经网络训练得到的向量空间模型与卡方检验算法结合,形成基于词向量的文本特征选择方法,扩充特征词集合,构成候选术语网络;然后根据特征词之间的位置关系、词汇信息特征考察特征词之间的内部结合紧密度;再次,采用词语的左熵或右熵规则实现术语抽取,形成特定学科领域内能够反映文本表示的特征词抽取方法;最后通过卷积神经网络来判断文本的类别.实验表明,对特征词按照一定规则的扩充,能够使扩充后的特征词集合更具有表征能力,在分类过程中提供更准确的信息;按照特征词内部结合紧密度进行术语的抽取,能够更有效表达文本的主题,提高分类的精度.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号