首页> 外文会议>2010 IEEE Conference on Computer Vision and Pattern Recognition >Topic regression multi-modal Latent Dirichlet Allocation for image annotation
【24h】

Topic regression multi-modal Latent Dirichlet Allocation for image annotation

机译:用于图像标注的主题回归多模态潜在狄利克雷分配

获取原文

摘要

We present topic-regression multi-modal Latent Dirich-let Allocation (tr-mmLDA), a novel statistical topic model for the task of image and video annotation. At the heart of our new annotation model lies a novel latent variable regression approach to capture correlations between image or video features and annotation texts. Instead of sharing a set of latent topics between the 2 data modalities as in the formulation of correspondence LDA in [2], our approach introduces a regression module to correlate the 2 sets of topics, which captures more general forms of association and allows the number of topics in the 2 data modalities to be different. We demonstrate the power of tr-mmLDA on 2 standard annotation datasets: a 5000-image subset of COREL and a 2687-image LabelMe dataset. The proposed association model shows improved performance over correspondence LDA as measured by caption perplexity.
机译:我们提出了主题回归多模态潜在狄利克-莱分配(tr-mmLDA),一种用于图像和视频注释任务的新型统计主题模型。我们新注释模型的核心是一种新颖的潜在变量回归方法,可捕获图像或视频特征与注释文本之间的相关性。我们的方法不是像[2]中对应LDA的公式那样在2个数据模式之间共享一组潜在主题,而是引入了一个回归模块来关联这2个主题集,该模块捕获了更一般的关联形式并允许数量2种数据方式中的主题设置有所不同。我们在2个标准注释数据集上演示了tr-mmLDA的功能:COREL的5000个图像子集和2687个图像的LabelMe数据集。所提出的关联模型显示出比对应的LDA更好的性能,该性能通过字幕的困惑度来衡量。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号