首页> 外文会议>International Conference on Pattern Recognition >Video Representation Fusion Network For Multi-Label Movie Genre Classification
【24h】

Video Representation Fusion Network For Multi-Label Movie Genre Classification

机译:用于多标签电影类型分类的视频表示融合网络

获取原文

摘要

In this paper, we introduce a Video Representation Fusion Network (VRFN) for movie genre classification. Different from the previous works, which use frame-level features for movie genre classification, our approach uses video classification architecture to create video-level features from a group of frames and fuse these features temporally to learn long-term spatiotemporal information for the movie genre classification task. We use a pre-trained I3D model to generate intermediate video representations and connect it with a C3D-LSTM model for feature fusion and movie genre classification. LMTD-9 dataset which contains 4007 trailers multi-labeled with 9 movie genres is used for training and evaluation of the model. The experimental results demonstrate that learning long-term temporal dependencies by fusing video representations improves the performance in movie genre classification. Our best model outperforms state-of-the-art methods by 3.4% improvement in AUPRC(macro).
机译:在本文中,我们介绍了一种用于电影类型分类的视频表示融合网络(VRFN)。 与以前的作品不同,它使用电影类型分类的帧级功能,我们的方法使用视频分类架构从一组帧中创建视频级功能,并融合这些功能,以便为电影类型学习长期的时空信息 分类任务。 我们使用预先训练的I3D模型来生成中间视频表示,并将其与C3D-LSTM模型连接,用于特征融合和电影类型分类。 LMTD-9包含4007拖车的数据集用9部电影流派的多标签用于培训和评估该模型。 实验结果表明,通过融合视频表示学习长期的时间依赖性提高了电影类型分类中的性能。 我们最好的车型优于最先进的方法,通过Auprc(宏)的改进3.4%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号