首页> 中文期刊> 《中国计量大学学报》 >基于多语义复合表示模型的去离群点文本聚类

基于多语义复合表示模型的去离群点文本聚类

         

摘要

目的:将词语的多种语义信息融合,提出多语义复合文本表示模型和基于该模型的文本聚类算法。方法:首先,利用高斯混合模型构建词语的多语义空间,计算词语的不同语义概率权重;其次,运用所有的语义概率加权词嵌入复合形成文本向量;最后,借助文本向量的多语义结构识别文本数据中的离群点,通过剔除离群点提升K-means算法的聚类性能。结果:多语义复合文本向量能够有效地去除冗余,突出文本的语义结构特征;实验表明,与其他文本聚类算法相比,本文提出的算法能够提高约3.57%~44.88%的聚类性能。结论:基于多语义复合表示模型的去离群点文本聚类算法具有更优性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号