【24h】

Topic Models Incorporating Statistical Word Senses

机译:包含统计单词感官的主题模型

获取原文

摘要

LDA considers a surface word to be identical across all documents and measures the contribution of a surface word to each topic. However, a surface word may present different signatures in different contexts, i.e. polysemous words can be used with different senses in different contexts. Intuitively, disambiguating word senses for topic models can enhance their discriminative capabilities. In this work, we propose a joint model to automatically induce document topics and word senses simultaneously. Instead of using some pre-defined word sense resources, we capture the word sense information via a latent variable and directly induce them in a fully unsupervised manner from the corpora. Experimental results show that the proposed joint model outperforms the classic LDA and a standalone sense-based LDA model significantly in document clustering.
机译:LDA认为横跨所有文档相同的表面单词,并测量表面单词对每个主题的贡献。 然而,表面词可以在不同的上下文中呈现不同的签名,即可以在不同的上下文中与不同的感官一起使用。 直观地,对主题模型的歧义词感觉可以增强它们的鉴别能力。 在这项工作中,我们提出了一个联合模型,以便同时诱导文档主题和单词感官。 我们不是使用一些预定义的词感测资源,我们通过潜在的变量捕获字感测信息,并直接从语料库中以完全无监督的方式诱导它们。 实验结果表明,在文档聚类中,该联合模型显着优于经典LDA和基于独立的Sense-LDA模型。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号