【24h】

Video-guided Machine Translation with Spatial Hierarchical Attention Network

机译:具有空间分层关注网络的视频引导机翻译

获取原文

摘要

Video-guided machine translation, as one type of multimodal machine translations, aims to engage video contents as auxiliary information to address the word sense ambiguity problem in machine translation. Previous studies only use features from pretrained action detection models as motion representations of the video to solve the verb sense ambiguity, leaving the noun sense ambiguity a problem. To address this problem, we propose a video-guided machine translation system by using both spatial and motion representations in videos. For spatial features. we propose a hierarchical attention network to model the spatial information from object-level to video-level. Experiments on the VATEX dataset show that our system achieves 35.86 BLEU-4 score, which is 0.51 score higher than the single model of the SOTA method.
机译:视频引导机翻译,作为一种多模式机器翻译,旨在将视频内容与辅助信息接触,以解决机器翻译中的词语歧义问题。 以前的研究只使用从预训练动作检测模型的功能作为视频的运动表示来解决动词感觉歧义,让名词感知模糊的问题。 为了解决这个问题,我们通过使用视频中的空间和运动表示来提出视频引导机器翻译系统。 用于空间特征。 我们提出了一个分层关注网络,以将空间信息从对象级别模拟到视频级别。 Vatex Dataset的实验表明,我们的系统实现了35.86的BLE-4分数,比SOTA方法的单一模型高0.51分。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号