首页> 中国专利> 一种基于词汇相似性的LDA主题模型最优主题数确定方法

一种基于词汇相似性的LDA主题模型最优主题数确定方法

摘要

本发明公开了一种基于词汇相似性的LDA主题模型最优主题数确定方法,利用LDA模型抽取主题词,基于词向量间的相似性,寻找最优主题数目。首先对文本数据进行分词等预处理,应用LDA主题模型对文本进行主题建模,获得每个主题下对应的词分布;然后将词分布转化为词向量分布,利用向量间的相似性,基于LDA的语义关联,分析主题质量,确定最优主题数目。本发明提出的方法可以自动确定最优主题数目,避免人为设定的局限,更好地服务于微博文本数据的聚类分析。

著录项

  • 公开/公告号CN110347824B

    专利类型发明专利

  • 公开/公告日2022.12.02

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN201910506360.1

  • 发明设计人 王中元;许强;胡瑞敏;朱荣;

    申请日2019.06.12

  • 分类号G06F16/35;G06F40/289;G06F40/284;G06K9/62;

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人魏波

  • 地址 430072 湖北省武汉市武昌区珞珈山武汉大学

  • 入库时间 2022-12-29 02:03:09

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号