首页> 中文期刊> 《中国科技论文》 >融合场景因素的视频内容理解模型

融合场景因素的视频内容理解模型

         

摘要

提出了一种融合场景因素的视频内容理解模型,首先通过ResNet提取全局特征,并结合迁移学习的Places365-CNNs提取深度场景特征;然后经由多层感知器生成相应的场景向量,并将其作为LSTM网络结构的输入,对视频中图像及其描述语句进行编码-解码处理;最后通过MSCOCO数据集预训练,为视频中的关键帧生成准确、具体的描述语句,使观众了解视频详细内容。将所提出模型在Flickr8K、Flickr30K和MSCOCO数据集以及视频《第三极》中进行训练和测试,并且使用不同的评估方法进行验证,结果表明输出语句对视频的描述较为准确,所提模型与其他现有模型相比性能有所提高。

著录项

  • 来源
    《中国科技论文》 |2018年第14期|P.1584-1589|共6页
  • 作者单位

    [1]河北工业大学人工智能与数据科学学院;

    天津300401;

    [2]河北工业大学河北省大数据计算重点实验室;

    天津300401;

    [1]河北工业大学人工智能与数据科学学院;

    天津300401;

    [2]河北工业大学河北省大数据计算重点实验室;

    天津300401;

    [1]河北工业大学人工智能与数据科学学院;

    天津300401;

    [2]河北工业大学河北省大数据计算重点实验室;

    天津300401;

    [1]河北工业大学人工智能与数据科学学院;

    天津300401;

    [2]河北工业大学河北省大数据计算重点实验室;

    天津300401;

    [1]河北工业大学人工智能与数据科学学院;

    天津300401;

    [2]河北工业大学河北省大数据计算重点实验室;

    天津300401;

  • 原文格式 PDF
  • 正文语种 CHI
  • 中图分类 信息处理(信息加工);
  • 关键词

    视频内容理解; 深度神经网络; 语义信息; 卷积神经网络; 循环神经网络;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号