首页> 中文期刊> 《计算机技术与发展》 >基于BTM和长文本语义增强的用户评论分类

基于BTM和长文本语义增强的用户评论分类

         

摘要

用户评论分类是挖掘用户评论中的有用信息,为企业和用户提供有效信息的直接手段,但是用户评论类短文本具有特征稀疏、表达形式不规范、反馈的信息量少等特点,这使得传统分类算法对短文本分类的效果不佳。该文提出了一种融合词向量和BTM主题模型,并以长文本辅助的短文本分类方法。首先,选取特定的长文本,利用LDA主题模型得到长文本的文档-主题分布,选取最大概率主题进一步挖掘该主题下的主题-词项分布,选取概率最大的前n个词项作为短文本的扩充词项并基于匹配规则对用户评论进行长文本语义增强;然后,将扩充后的短文本进行特征扩展,使用Word2vec和LSTM对用户评论进行训练得到词向量的编码特征;同时对用户评论短文本进行基于吉布斯采样的BTM主题模型构建,得到短文本的主题的概率特征;将词向量的编码特征与主题概率特征融合得到扩展后的文本特征,最后利用SVM(支持向量机)方法进行文本分类。对比其他分类方法,该分类方法在准确率、召回率、F-measure上表现均有提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号