公开/公告号CN111753704B
专利类型发明专利
公开/公告日2022.08.26
原文格式PDF
申请/专利权人 南京邮电大学;
申请/专利号CN202010562822.4
申请日2020.06.19
分类号G06V40/16(2022.01);G06V10/80(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构南京瑞弘专利商标事务所(普通合伙) 32249;
代理人秦秋星
地址 210000 江苏省南京市雨花台区软件大道186号
入库时间 2022-09-26 23:16:43
法律状态公告日
法律状态信息
法律状态
2022-08-26
授权
发明专利权授予
技术领域
本发明设计一种基于视频人物唇读识别的时序集中预测方法,主要利用能提取时空与多通道特征的多层卷积神经网络和嵌入混合注意力机制的时序预测方法,属于视频挖掘、模式识别和计算机视觉交叉技术应用领域。
背景技术
视频人物唇读识别是指通过视觉判断唇动轮廓并联结人物所说内容,为了提高识别精确度,通常也会结合听觉通道即语音的方式加强效果,近年来在视频人物模式识别领域成为一项重要的研究课题,对于帮助听障人员、转录音频受损视频和监控事故等有很高的应用前景和价值。
在视频人物唇部识别中,最关键性的一步就是预测人物唇部说话时的运动轮廓所对应的语句内容,对于前后时间序列的关联显得尤为重要。时序集中预测的目的是集中所有具备时序信息的注意力,对齐时间步上人物所说内容的概率分布与文本标签序列,提高预测的概率,使识别的字符组成完整有意义的语句。
对于视频人物唇读识别的时序集中预测涉及以下三种方法:
(1)多层卷积神经网络:利用3D-CNN提取连续视频帧中时空维度下的人物唇部特征,采用嵌入了SENet模块的残差网络关联并提取多通道人物唇部特征,在多层卷积架构中,去除无用特征的同时,也最大化保留有用特征。
(2)时序预测:利用双向门控循环单元获取所说字符的概率分布,通过CTC建立所要识别标签序列的路径和损失函数,作为唇读识别有力的基础模型。
(3)混合注意力机制:利用时间序列的前后关联,将所有特征信息和位置信息进行混合集中,令每个时间步的字符预测都关联上一时间和下一时间的内容,更加避免长期依赖问题,提升前后字符预测的准确性。
发明内容
技术问题:本发明的目的在于对齐视频人物唇读识别中唇部轮廓张闭动作与字符标签,利用人物唇部特征获取字符概率分布,通过混合了内容和位置信息的注意力机制提高对前后时序的关联,集中预测对应的字符概率,连接各字符使组成完整有意义的词句。
技术方案:本发明所述一种基于视频人物唇读识别的时序集中预测方法包括以下步骤:
步骤1):唇读内容解码,步骤如下:
步骤11):输入Frames,所述Frames={frame
步骤12):设置两个双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU),将X
步骤13):引入连接主义者的时间分类(Connectionist TemporalClassification,CTC):设置
步骤2):建立注意力集中窗口,增设前后时序关联,步骤如下:
步骤21):以q为中心将h=[h
步骤22):计算
步骤3):强化前后时序关联,步骤如下:
步骤31):计算decoder
步骤32):融合上一时间q-1的解码状态decoder
步骤33):计算θ
步骤34):对p(y′|X
步骤35):通过步骤22)中的计算方式
进一步的,所述步骤11)中,n按照经验设置为75,使用ResNet101结构的残差网络。
进一步的,所述步骤13)中,标签集合L按照经验设置27个字符标签,其中包括1个空白标签
进一步的,所述步骤21)中,混合注意力窗口两侧的长度τ按照经验取2,则窗口总长度Length
进一步的,所述步骤22)中,隐藏状态序列h和上下文向量context
进一步的,所述步骤35)中,前缀束搜索的束大小按照经验设置为8。
有益效果:本发明提出的一种基于视频人物唇读识别的时序集中预测方法,具体有益效果如下:
(1)本发明通过3D-CNN提取视频帧序列中人物的唇部时间与空间特征,利用SENet关联通道信息并提取多通道唇部特征,通过残差网络对以上特征进行快捷连接和多层卷积融合,去除大量无用唇部特征的同时,也最大化保留有用特征且降低训练参数。
(2)本发明采用双向门控循环单元作为句子解码器,利用CTC对齐时间步长中的文本标签和解码字符,不仅解决长期依赖和梯度消失问题,也有效关联时序前后向信息,使预测所组成的句子更为完整精确。
(3)本发明在CTC中引入混合注意力机制,集中注意力窗口内所有数据的内容和位置,强化预测的字符与前后信息的关联程度,有效改善CTC固有的标签对齐缺失问题。
附图说明
图1是基于视频人物唇读识别的时序集中预测方法流程。
图2是基于视频人物唇部特征提取网络结构图。
图3是双向门控循环单元的网络结构图。
图4是引入了混合注意力机制的唇读识别框架。
具体实施方式
下面对本发明附图的某些实施例作更加详细的描述。
在具体实施中,图1是基于视频人物唇读识别的时序集中预测方法流程。首先对唇读内容进行解码并提取唇部特征,将n个连续的唇部视频帧序列Frames={frame
接着由于CTC在当前时间依赖隐藏的特征向量进行预测,不直接参与相邻帧的特征预测,固有的标签对齐缺失问题致使CTC输出独立假设不精准,基于这点,建立注意力集中窗口,增设前后时序关联,图4是引入了混合注意力机制的唇读识别框架,其包含句子解码与混合注意力机制CTC。以当前时间q为中心将隐藏状态序列h作为混合注意力窗口,令h=[h
最后强化前后时序关联,当前时间q的注意力概率分布向量权重θ
经过网络Single
机译: 基于多模态界面的语音识别和唇读识别技术的床控制装置及方法
机译: 一种人类活动预测方法,利用能够通过识别尚未发生或尚未基于视频信息进行的犯罪或危险活动来处理犯罪或危险活动的视频信息
机译: 基于投影极端学习机的唇读识别方法及装置