首页> 中国专利> 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

摘要

本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题,本发明提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。此外,本发明能够自动识别文本集类的数目,改进了传统文本集类数目需要人为提前给定的情况。

著录项

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号