首页> 中文期刊>数据分析与知识发现 >LDA模型的优化及其主题数量选择研究——以科技文献为例

LDA模型的优化及其主题数量选择研究——以科技文献为例

     

摘要

【目的】为提升传统LDA模型的主题识别性能,并给主题最优数目选择提供技术方案,提出基于自适应聚类的K-wrLDA模型。【方法】利用LDA和Word2Vec模型得出包含主题词概率信息及词义相关性的T-WV矩阵,并将传统LDA模型的主题数目选择问题转化为聚类效果评价问题,以内部指标伪F统计量作为目标函数,计算主题聚类数目的最优解,并对新旧两种模型的主题识别效果进行比较。【结果】经自适应聚类得出最优主题数量为33,且新模型的困惑度得分始终低于传统模型,主题识别效果对比显示新模型具有更好的凝聚性。【局限】在实证语料选取上获取单一主题下的科技文献,数据量不大。【结论】新模型具有更理想的主题识别能力,并能够自主计算最优主题数目。该模型作为对传统LDA模型的改进,可以应用于各领域的大规模语料中。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号