首页> 中文期刊> 《光学精密工程》 >视频描述中链式语义生成网络

视频描述中链式语义生成网络

         

摘要

针对视频描述中语义特征表达能力不足导致文本描述不准确问题,本文提出一种视频描述中链式语义生成网络(Chained Semantic generation Network,ChainS-Net)。构建了多阶段双路交叉的链式特征提取结构,该结构以全局域和局部域模块为基本单元,分别从视觉特征的全局和局部捕获视频语义;在网络的各阶段,将语义信息在全局域和局部域之间变换解析,实现视觉和语义信息的交互参考,提升语义特征表达能力;在此基础上,网络通过多阶段迭代的处理方式获取更为有效的语义表示,提升视频描述模型性能。在MSR-VTT和MSVD数据集上的实验结果表明,本文提出的链式语义生成网络ChainS-Net优于现有同类方法,相比于语义辅助视频描述网络(Semantics-Assisted Video Captioning network,SAVC),视频描述的四个评价指标平均提升了2.5%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号