首页> 中文期刊> 《南京大学学报:自然科学版 》 >用于多标签分类的改进Labeled LDA模型

用于多标签分类的改进Labeled LDA模型

             

摘要

概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号