首页> 中国专利> 一种基于聚类的新闻文本最优主题数计算方法

一种基于聚类的新闻文本最优主题数计算方法

摘要

本发明公开了一种基于聚类的新闻文本最优主题数计算方法,步骤为:Step1、新闻文本语料获取和预处理;Step2、对经过预处理的语料库进行词嵌入处理,获得语料库中文本的词向量;Step3、将所有的词向量作为一个整体,利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类,获得词向量的聚类数目;Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数。本发明利用词嵌入Word2Vec模型来表达主题语料之间的隐含语义关系,可以避探索词义相关关系,同时算法整体不存在迭代,计算简单,模型复杂度不高,因此可以避免现有方法在确定LDA最优主题数目所使用的都要迭代及每一步都需要求解目标函数的不足。

著录项

  • 公开/公告号CN110851592B

    专利类型发明专利

  • 公开/公告日2022-04-05

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN201910884160.X

  • 申请日2019-09-19

  • 分类号G06F16/35(20190101);G06F16/33(20190101);G06F40/289(20200101);G06F40/30(20200101);

  • 代理机构11732 北京睿智保诚专利代理事务所(普通合伙);

  • 代理人周新楣

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2022-08-23 13:24:09

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号