首页> 中国专利> 基于语义分割和多层注意力框架的视频字幕生成方法

基于语义分割和多层注意力框架的视频字幕生成方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及基于语义分割与多模态注意力模型相结合的视频多字幕生成方法，包括：步骤1、从要生成字幕的视频中提取多帧图片；步骤2、利用全卷积实例感知语义分割模型，从视频提取某一反卷积层的特征信息；步骤3、提取视频的运动特征以及音频特征；步骤4、利用全卷积实例感知语义分割模型，从在步骤1中提取的图片中提取属性标签，其中，属性标签包含每帧图片中的物体信息；步骤5、并根据在前述步骤中提取的各个信息，生成不同模态的上下文矩阵，并对不同模态的上下文矩阵进行分层融合，生成融合后的上下文矩阵；步骤6、经由LSTM，通过多层感知机处理，得到作为字幕组成部分的单词；步骤7、将得到的所有单词进行串联组合，产生最终的字幕。

著录项

公开/公告号CN107979764B

专利类型发明专利
公开/公告日2020-03-31

原文格式PDF
申请/专利权人中国石油大学(华东);
展开▼

申请/专利号CN201711273239.6
发明设计人吴春雷;魏燚伟;王雷全;褚晓亮;崔学荣;
展开▼

申请日2017-12-06
分类号H04N21/234(20110101);H04N21/233(20110101);H04N21/44(20110101);H04N21/439(20110101);H04N21/488(20110101);G06K9/62(20060101);G06K9/00(20060101);
代理机构11340 北京天奇智新知识产权代理有限公司;
代理人陆军
地址 266580 山东省东营市北二路271号
入库时间 2022-08-23 10:53:27

法律信息

法律状态公告日

法律状态信息

法律状态
2020-03-31

授权

授权
2018-05-25

实质审查的生效 IPC(主分类):H04N21/234 申请日:20171206

实质审查的生效
2018-05-25

实质审查的生效 IPC(主分类):H04N 21/234 申请日:20171206

实质审查的生效
2018-05-01

公开

公开
2018-05-01

公开

公开
2018-05-01

公开

公开

查看全部

相似文献

专利
中文文献
外文文献

1. 基于语义分割和多层注意力框架的视频字幕生成方法 [P] . 中国专利： CN107979764B . 2020.03.31
2. 基于语义分割和多层注意力框架的视频字幕生成方法 [P] . 中国专利： CN107979764A . 2018-05-01
3. multi-layer based video encoding method, method of generating a sequence of bits by encoding a block of a video frame with a difference between the block and a predicted block, storage average, decoding method of a current block of a video frame of a predicted block, method of decoding a current block of a video frame from a predicted block, multi-layer based video decoding method, multi-layer based video encoder, and video decoder multi layer video [P] . BRPI0604967A . 2007-10-09

机译：基于多层的视频编码方法，通过对视频帧的块进行编码以在块和预测块之间存在差异来生成位序列的方法，存储平均值，预测视频帧的当前块的解码方法块，从预测块解码视频帧的当前块的方法，基于多层的视频解码方法，基于多层的视频编码器和视频解码器多层视频
4. VIDEO CONTENT CAPTION GENERATING METHOD, VIDEO CONTENT CAPTION GENERATING UNIT, DIGEST VIDEO PROGRAMMING METHOD, DIGEST VIDEO PROGRAMMING UNIT, AND COMPUTER-READABLE RECORDING MEDIUM ON WHICH PROGRAM FOR MAKING COMPUTER PERFORM METHOD IS STORED [P] . 日本专利： JP2004343781A . 2004-12-02

机译：存储了用于制作计算机性能方法的程序的视频内容字幕生成方法，视频内容字幕生成单元，摘要视频编程方法，摘要视频编程单元以及计算机可读记录介质
5. VIDEO-SOUND FILE UPDATING SYSTEM CAPABLE OF PROPERLY UPDATING SUBTITLES OF AN IMPROPER CONDITION AS FINAL SUBTITLES WITHOUT THE GENERATION OF THE WHOLE VIDEO-SOUND FILES AND A VIDEO-SOUND FILE UPDATING METHOD THEREOF [P] . 韩国专利： KR20120132372A . 2012-12-05

机译：能够适当地更新状况不佳的字幕作为最终字幕的视频-声音文件更新系统，而无需生成整个视频-声音文件及其视频-声音文件更新方法