首页> 中国专利> 一种基于事件相机的多粒度时空特征感知的唇读方法

一种基于事件相机的多粒度时空特征感知的唇读方法

摘要

本发明公开了一种基于事件相机的多粒度时空特征感知的唇读方法,包括:1、首次提出了基于事件相机的唇读技术方案;2、根据事件流信号的特性,将原始异步信号流数据转换成了多时间分辨率事件帧;3.构建了一个双流网络来提取不同粒度的时空特征,其中高时间分辨率分支提取精细的时间特征,低时间分辨率提取完整的空间特征;4.构建序列模型进行特征序列解码,将特征提取网络提取到的多粒度时空特征解码为事件流信号对应的单词的概率。本发明所提出的基于事件相机的唇读方案能够解决传统相机进行唇读时存在的视频时间分辨率低、视觉冗余信息多、极端光照条件下性能差以及实际部署时设备功耗大的问题。

著录项

  • 公开/公告号CN114882590A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 中国科学技术大学;

    申请/专利号CN202210484754.3

  • 发明设计人 查正军;曹洋;王洋;吴枫;谭赣超;

    申请日2022-05-06

  • 分类号G06V40/20(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构安徽省合肥新安专利代理有限责任公司 34101;安徽省合肥新安专利代理有限责任公司 34101;

  • 代理人陆丽莉;何梅生

  • 地址 230026 安徽省合肥市包河区金寨路96号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06V40/20 专利申请号:2022104847543 申请日:20220506

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明属于唇读领域,具体的说是一种基于事件相机的多粒度时空特征感知的唇读方法。

背景技术

唇读技术旨在从说话者唇部运动的视觉信息中解码出其所说的文本内容。在健康医疗、嘈杂环境下辅助语音识别、公共安防、人机交互等领域有着重要的应用,唇读技术在近40年来引起来学术界与工业界的极大关注。唇读任务是一个非常具有挑战性的任务,具体体现在以下五方面:1.基于传统RGB拍摄的视频时间分辨率低且包含大量背景等视觉冗余信息;2.不同讲话者发音习惯和面部表情等差异大;3.发音相似单词在视觉上具有歧义性;4.视频光照条件相差大,尤其在极端光照条件下更难以进行唇语识别,5.在实际应用中,传统RGB相机的功耗较大,部署需要长期开启的设备运行成本高。

事件相机是一种新型的生物启发式的神经形态相机,与传统相机以固定频率捕捉场景亮度不同,事件相机逐像素的异步的捕捉场景中的亮度变化。相对于传统相机,事件相机具有高时间分辨率(微妙级)、高动态范围(140dB)、低功耗和高像素带宽(kHz级别)等优点。因此,事件相机在机器人和计算机视觉领域具有解决一些富有挑战性的场景的潜力,比如低延迟、高速运动和高动态范围场景。

基于事件相机的唇读技术的关键是要从异步的事件流信号中提取出精确的时空特征。现有的事件流时空特征提取方法主要是应用在步态识别、手势识别等不需要十分精细的时空特征感知的任务中。其中,基于点云和图网络的方法将事件流当做点云或者图的节点来处理,由于事件流向点云和图的转换过程中存在下采样过程,所以这些方法会丢失事件流中所包含的细粒度的时空信息。基于脉冲神经网络的方法使用脉冲神经网络逐个的处理事件流中的事件,虽然不会导致信号的丢失,但是由于目前脉冲神经网络缺乏有效的训练手段,导致这一类方法的准确率相对不高。基于卷积神经网络的方法先将异步事件流信号转换成固定帧率的事件帧,然后使用标准卷积神经网络进行时空特征提取,然而由于转换成固定帧率的事件帧之后会丢失事件信号的高时间分辨率特性,导致所提取到的时空特征不够精细。以上的方法对于唇读这种需要感知非常精细的时空特征的任务来说都是不尽如人意的。

发明内容

本发明是为了解决上述现有技术存在的不足之处,提出一种基于事件相机的多粒度时空特征感知的唇读方法,以期能能够更精确的通过事件流信号进行唇语识别,从而能解决基于传统RGB相机进行唇读时存在的视频时间分辨率低、视觉冗余信息多、极端光照条件下性能差以及实际部署时设备功耗大的问题。

本发明为达到上述发明目的,采用如下技术方案:

本发明一种基于事件相机的多粒度时空特征感知的唇读方法的特点在于,包括如下步骤:

步骤一、基于事件相机的唇读数据收集和预处理:

利用事件相机采集唇读数据,并将所述唇读数据分割为单词级别的样本,将每个样本的空间分辨率裁剪为H×W的维度,H和W分别为高度和宽度;令第i个样本包含的异步事件流为

步骤二、将异步事件流信号转换成多时间分辨率的事件帧:

将第i个样本中的异步事件流E

式(1)中,t∈{0,1,...,T-1}表示第t个事件帧,T表示转换之后的事件帧数,y∈{0,1,...,H-1}表示同步事件帧V

式(2)中,t

步骤三、多粒度时空特征感知:

步骤3.1、每次从所述训练数据集中选取b个事件样本,分别转换成多分辨率事件帧之后得到一个批处理数据

步骤3.2、构建双流网络提取细粒度时空特征;

所述双流网络包含一个低时间分辨率分支、一个高时间分辨率分支以及一个信息流动模块;

所述低时间分辨率分支和高时间分辨率分支均是由一层卷积核为n

所述ResNet-18深度学习网络包括4个各阶段,每个阶段包含2个残差块,每个残差块均由两层卷积核为n

令低时间分辨率分支中卷积的通道数为高时间分辨率分支中卷积的通道数的n倍;

在所述ResNet-18的每个阶段之后级联一个信息流动模块;每个信息流动模块由一层卷积核为n

所述注意力计算模块包含一个局部注意力计算模块和一个全局注意力计算模块;

所述局部注意力计算模块由两层卷积核为n

步骤3.3、将所述批处理数据

步骤四、序列模型:

步骤4.1、构建时空特征序列解码网络;

所述时空特征序列解码网络由3层双向GRU网络、一个平均池化层、一个全连接层、一个Softmax函数组成;

步骤4.2、将双流网络提取到的细粒度时空特征

步骤五、网络训练:

基于梯度下降法对所述双流网络进行训练,并计算如式(3)所示的损失函数L,用于更新网络参数,直到网络的损失达到收敛为止,从而得到最优识别精度的唇读网络:

式(3)中,

与现有技术相比,本发明的有益效果在于:

1、本发明首次提出基于事件相机的唇读方案,在唇读任务中,事件相机相对于传统RGB相机具有以下几点优势:1)事件相机可以以一个很高的时间分辨率捕捉说话者的唇部微小运动,对于发音相似的单词具有更好的辨识能力;2)由于只捕捉场景亮度的变化信息,事件相机的输出信号不会包含大量无关视觉信息,如背景、说着者外貌表情等,有利于后续方法从信号中提取到唇部运动特征;3)事件相机的高动态范围特性使得在极端光照条件下也可以很好地工作;4)事件相机低功耗的特性使得设备部署之后运行成本降低,在一些可穿戴医疗设备(如智能助听器)中可以显著提升设备续航能力。

2、本发明提出将异步事件流信号转换成不同时间分辨率的同步事件帧,其中高时间分辨率的事件帧可以尽可能多的保留原始事件流信号中的精细的时间信息,低时间分辨率的事件帧可以保持完整的空间结构信息。并且采用了一个双流网络来同时提取到精细的时间特征和完整的空间特征,避免了现有方法中事件流信号时空信息的丢失。

3、本发明提出一个信息流动模块来融合从不同时间分辨率的事件帧中提取到的时空特征,从而提取到更加精细的时空特征,进而提高了唇读的准确率。

4、本发明提出了一个多粒度时空特征感知方法来有效的从事件流信号中提取出细粒度的时空特征,进而识别单词,所提出的多粒度时空特征感知方法能够解决现有基于点云网络、图网络、卷积神经网络的方法存在的时空信息丢失问题,以及现有基于脉冲神经网络的方法中存在的难以训练的问题,从而能够更精确的通过事件流信号进行唇语识别。

附图说明

图1为本发明总体流程图。

图2为本发明中提出来的信息流动模块图。

具体实施方式

本实施例中,一种基于事件相机的多粒度时空特征感知的唇读方法的流程参照图1,具体的说,是按如下步骤进行:

步骤一、基于事件相机的唇读数据收集和预处理:

招募志愿者,利用事件相机采集唇读数据,并将所采集的数据分割为单词级别的样本,每个样本的空间范围被裁剪为H×W的大小,H和W分别为高度和宽度。第i个样本包含的事件数据为

步骤二、将异步事件流信号转换成多时间分辨率的事件帧:

对于第i个样本中的异步事件流

式(1)中,T表示转换之后的事件帧数,t∈{0,1,...,T-1}表示第t个事件帧,y∈{0,1,...,H-1}表示像素纵坐标,x∈{0,1,...,W-1}表示像素横坐标;

通过选取不同的T,可以得到不同时间分辨率的事件帧,这里选取两种不同的时间分辨率{T

步骤三、多粒度时空特征感知:

步骤3.1、每次从训练数据集中选取b个事件样本,分别转换成多分辨率事件帧之后得到一个批处理数据

步骤3.2、构建双流网络提取细粒度时空特征;

双流网络包含一个低时间分辨率分支、一个高时间分辨率分支以及一个信息流动模块。其中,低时间分辨率分支和高时间分辨率分支都是由一层卷积核为n

ResNet-18深度学习网络包括4个各阶段,每个阶段包含2个残差块,每个残差块都由两层卷积核为n

低时间分辨率分支和高时间分辨率分支的区别在于低时间分辨率分支中卷积的通道数为高时间分辨率的n倍。

在ResNet-18的每个阶段之后级联一个信息流动模块,信息流动模块详细构成参照图2。每个信息流动模块由一层卷积核为n

注意力计算模块包含一个局部注意力计算模块和一个全局注意力计算模块,局部注意力计算模块由两层卷积核为n

步骤3.3、将批处理数据

步骤四、序列模型:

步骤4.1、构建时空特征序列解码网络;

时空特征序列解码网络由3层双向GRU网络、一个平均池化层、一个全连接层、一个Softmax函数组成;

步骤4.2、将双流网络提取到的细粒度时空特征

步骤五、网络训练:

根据最终网络预测的对应的单词的概率

式(3)中,

基于梯度下降法对双流网络进行训练,并计算损失函数L,用于更新网络参数,直到网络的损失达到收敛为止,从而得到最优识别精度的唇读网络。

综上所述,本发明提出使用事件相机来取代传统相机应用在唇读任务中。在唇读任务中,事件相机相对于传统RGB相机具有以下几点优势:1.事件相机可以以一个很高的时间分辨率捕捉说话者的唇部微小运动,对于发音相似的单词具有更好的辨识能力;2.由于只捕捉场景亮度的变化信息,事件相机的输出信号不会包含大量无关视觉信息,如背景、说着者外貌表情等,有利于后续方法从信号中提取到唇部运动特征;3.事件相机的高动态范围特性使得在极端光照条件下也可以很好地工作;4.事件相机低功耗的特性使得设备部署之后运行成本降低,在一些可穿戴医疗设备(如智能助听器)中可以显著提升设备续航能力。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号