首页> 中国专利> 一种基于多模态特征融合的开放域视频自然语言描述生成方法

一种基于多模态特征融合的开放域视频自然语言描述生成方法

摘要

一种基于多模态特征融合的开放域视频自然语言描述方法,采用深度卷积神经网络模型提取RGB图像特征和灰度光流图片特征,加入视频时空信息和音频信息,组成多模态特征系统,提取C3D特征时,动态调整输入到三维卷积神经网络中的连续帧块间的覆盖率,解决训练数据大小的限制问题,并且对可处理的视频长度具有鲁棒性,音频信息弥补视觉上的不足,最后针对多模态特征融合。本发明使用数据规范化方法将各模态特征值规范在一定范围内,解决了特征值差异问题;采用PCA方法降低个别模态特征维度,并有效的保留99%的重要信息,解决了因维度过大导致训练失败的问题,有效的提高了生成的开放域视频描述语句的准确性,并且对于场景、人物、事件都具有较高的鲁棒性。

著录项

  • 公开/公告号CN108648746A

    专利类型发明专利

  • 公开/公告日2018-10-12

    原文格式PDF

  • 申请/专利权人 南京航空航天大学;

    申请/专利号CN201810460398.5

  • 发明设计人 袁家斌;杜晓童;

    申请日2018-05-15

  • 分类号G10L15/00(20130101);G10L15/02(20060101);G10L15/06(20130101);G10L15/18(20130101);G10L15/26(20060101);G10L17/26(20130101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构32249 南京瑞弘专利商标事务所(普通合伙);

  • 代理人杨晓玲

  • 地址 211106 江苏省南京市江宁区将军大道29号

  • 入库时间 2023-06-19 06:44:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-06

    实质审查的生效 IPC(主分类):G10L15/00 申请日:20180515

    实质审查的生效

  • 2018-10-12

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号