【24h】

Extracting High-level Multimodal Features

机译:提取高级多模峰特征

获取原文

摘要

Consider the problem of building high-level, multimodal features from only unlabeled data, we train model consisting of a sparse stacked denoising autoencoder network with max pooling, which can be used to extract high-level image feature, on a large dataset consisting of multimodal information, and a text treating processes. Our model joints the image feature and text feature as representation of one united movie. We find that these representation can be used in regression mission, predict movie's rating, and the model obtains better effect than unimodal representation.
机译:考虑从只有未标记的数据建立高级的多模式特征的问题,我们列车模型由带有MAX池的稀疏堆叠的Dusencoder网络组成,可以用于提取高级图像功能,在由多模式组成的大型数据集上信息和文本处理流程。我们的模型将图像功能和文本功能作为一部联合电影的表示。我们发现这些表示可以用于回归任务,预测电影的评级,并且模型比单峰表示获得更好的效果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号