法律状态公告日
法律状态信息
法律状态
2016-09-28
授权
授权
2013-12-25
实质审查的生效 IPC(主分类):G06K9/46 申请日:20130903
实质审查的生效
2013-12-04
公开
公开
技术领域
本发明涉及唇部视觉信息分析与识别控制领域,特别涉及一种唇形处理系统中的特征提 取方法。
背景技术
当今社会,世界人口老龄化速度在不断的加快,各种疾病和灾祸等原因造成残障人士的 人数也在逐年的上升。诸多因素造成老年人和残障人士在身体上存在不同程度的缺陷,尤其 是下肢运动障碍给他们带来了巨大的不便,使他们无法正常的生活。为此,无障碍技术逐渐 进入了人们的视线,并且得到了广泛的关注。
无障碍技术是借助先进的科学技术为老年人和残障人士提供有效的辅助手段,使他们能 够重新融入社会。人机交互技术是无障碍技术的重要研究内容之一。人机交互技术根据采用 控制模式的不同可以分为两类:第一,通过硬件实施操作完成人机交互,如操作鼠标、键盘、 操纵杆等。这种控制方式容易操作,但是并不适用于失去上肢或上肢存在缺陷的人群;第二, 采用模式识别技术,利用人体自身的器官,如手、腕部、头部和脑电等完成人机交互。具体 说来是通过语音识别、手势识别、头部运动、腕部运动、肌电信号和脑电信号(EEG)等来完 成对电子设备的控制。这种人机交互方式具有非接触性,交互过程也比较直观,并且适用范 围更广。因此,这项技术具有潜在的研究价值和意义。
日常生活中,人与人之间的交流大多数是通过嘴巴说话进行交流,在视觉人机交互中我 们同样可以通过摄像头采集唇部运动信息来进行和谐、友好的人机交互。利用唇部视觉信息 来控制智能轮椅是当前的一个热点。对于聋哑残障人士和说话模糊的老年人来说,是一个实 现与机器人正常“说话”的交互方式。通过唇部的运动进行控制,用户的身体可以保持静止 不动,这对严重的残疾患者人来说,该控制方式是非常有必要的。
智能轮椅作为一种代步工具,主要是为老年人和残障人士提供服务。它融合了多种技术, 如自主导航、避障和人机交互等技术。传统意义上的智能轮椅是通过手动操纵杆来完成对运 动的控制,但是并不适用于上肢不便的用户,因此应用的人群范围受到了限制。随着科技的 迅猛发展,基于模式识别的新型控制技术已经在智能轮椅上得到了广泛应用,如手势、头部 运动、肌电信号和基于脑电信号的BCI技术等。为了给更多的残障人士和老年人提供一种能 与机器人正常“说话”的交互方式,且根据嘴巴活动灵活、快速且形状多变的特点,所以基 于唇形的人机交互技术在智能轮椅中的应用前景将十分广阔。将唇形识别技术应用于智能轮 椅上,不仅使其具有传统轮椅的功能,还能够通过变换不同的唇形来完成对轮椅的运动控制。 因此,研究基于唇形的智能轮椅系统具有重要的应用价值与现实意义。
发明内容
有鉴于此,本发明所要解决的技术问题是提供一种针对唇形识别技术领域中的唇形特征 提取环节,提出一种混合双树复小波(Dual-Tree Complex Wavelet Transform,DT_CWT) 与离散余弦变换(Discrete Cosine Transform,DCT)对唇形进行特征提取的方法。
本发明的目的是这样实现的:
本发明提供的基于双混合唇形特征提取的智能轮椅人机交互方法,包括以下步骤:
S1:采集包含人脸的图像;
S2:对图像经过图像预处理后提取唇部图像;
S3:根据唇部图像提取唇形特征向量;
S4:根据唇形特征向量获取唇形识别结果;
S5:根据唇形识别结果产生控制指令并驱动智能轮椅运动。
进一步,所述步骤S3中的提取唇形特征向量具体包括以下步骤:
S31:对唇部图像进行DT_CWT滤波并通过DT_CWT算法提取的唇部特征向量;
S32:对唇部特征向量进行DCT变换形成唇形特征向量并进行特征分类;
S33:将特征分类的结果转换成唇形识别结果。
进一步,所述控制指令是通过无线传输方式传送给智能轮椅。
进一步,所述步骤S31中对唇部图像进行DT_CWT滤波并通过DT_CWT算法提取的唇部特 征向量的具体步骤如下:
S311:将唇部图像设置为ROI图像并归一化ROI图像;
S312:将归一化后的ROI图像分割成若干子图像;
S313:对每个子图像进行DT_CWT多尺度二维滤波,在每个尺度上形成高频系数矩阵;
S314:对所有尺度上的高频系数矩阵进行复系数的幅度值计算以形成实数系数矩阵;
S315:将实数系数矩阵按列方向依次排列按如下方式形成特征向量X:
其中,上标T表示转置操作,Vl,θ表示每个尺度上的实数矩阵按列方向依次排列形成的 列向量,l表示DT_CWT变换的分解层数,θ表示DT_CWT变换的方向参数。
进一步,所述步骤S32中对唇部特征向量进行DCT变换形成唇形特征向量并进行特征分 类的具体步骤如下:
S321:对唇部特征向量采用如下公式进行降维计算:
Y=AX,
其中,X表示N维特征向量,Y表示M维低维特征,A表示线性变换矩阵;
S322:选择满足预设条件的DCT特征系数,所述DCT特征系数通过以下公式计算:
其中,x(u,v)为DCT特征系数,u=0,1,2,…,M-1;v=0,1,2,…,N-1;f(x,y)表示一 幅大小为M×N的图像,a(u),a(ν)分别定义为:
S323:采用Zig-Zag法按以下方式构造唇部特征向量:
其中,K表示在子图像中Zig-Zag选择的特征系数的个数,表示第m个子图像的第n 个特征系数。
进一步,所述步骤S1中采用摄像头来采集包含人脸的图像。
进一步,所述图像预处理、提取唇形特征向量以及获取唇形识别结果采用作为上位机的 笔记本电脑或单片机。
进一步,所述驱动的智能轮椅作为上位机控制的下位机。
本发明的优点在于:本发明采用一种混合DT_CWT和DCT的唇形特征提取方法来对唇形 进行识别,本发明首先对唇部进行DT_CWT滤波,由于DT_CWT具有近似平移不变性,所以 DT_CWT滤波后会使在ROI内不同位置的相同唇形的特征值之间差值较小,克服唇部因在ROI 位置偏移而导致唇形识别错误的影响;然后再对DT_CWT提取的唇部特征向量进行DCT变换, 使经DT_CWT变换后提取的唇部特征集中在DCT变换后的较大系数中,使特征矢量包含唇部 最大的信息量,并且同时达到降维的效果。该方法大大地提高了唇形识别率,提高了唇形识 别系统鲁棒性。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的 详细描述,其中:
图1为基于唇形的智能轮椅控制系统框架;
图2为DCT唇形特征提取框图;
图3为DT_CWT分解结构图。
具体实施方式
以下将结合附图,对本发明的优选实施例进行详细的描述;应当理解,优选实施例仅为 了说明本发明,而不是为了限制本发明的保护范围。
实施例1
本实施例中的双混合唇形特征提取方法是指采用混合DT_CWT与DCT的唇形特征提取的 方法。本发明针对唇形识别技术领域中的唇形特征提取环节,提出一种混合双树复小波 (Dual-Tree Complex Wavelet Transform,DT_CWT)与离散余弦变换(Discrete Cosine Transform,DCT)对唇形进行特征提取的方法。
由于DT_CWT滤波具有近似平移不变性,所以DT_CWT滤波后会使在ROI内不同位置的相 同唇形的特征值之间差值较小,克服唇部因在ROI位置偏移而导致唇形识别错误的影响;然 后再对DT_CWT提取的唇部特征向量进行DCT变换,使经DT_CWT变换后提取的唇部特征集中 在DCT变换后的较大系数中,使特征矢量包含唇部最大的信息量,并且同时达到降维的效果。
图1为基于唇形的智能轮椅控制系统框架,图2为DCT唇形特征提取框图,图3为DT_CWT 分解结构图,图中,DT_CWT通过2组正交、完全重构且互为希尔波特变换的滤波器(树a 和树b)来实现。一组滤波器(树a)生成变换的实部,另外一组(树b)生成虚部,DT_CWT 的输出结果由树a和树b的输出结果组成,其中,0000a、0001a、0000b、0001b表示第四 层的DT_CWT小波系数。
如图所示:本发明提供的基于双混合唇形特征提取的智能轮椅人机交互方法,包括以下 步骤:
S1:采集包含人脸的图像;
S2:对图像经过图像预处理后提取唇部图像;
S3:根据唇部图像提取唇形特征向量;
所述步骤S3中的提取唇形特征向量具体包括以下步骤:
S31:对唇部图像进行DT_CWT滤波并通过DT_CWT算法提取的唇部特征向量;
S32:对唇部特征向量进行DCT变换形成唇形特征向量并进行特征分类;
S33:将特征分类的结果转换成唇形识别结果。
所述步骤S31中对唇部图像进行DT_CWT滤波并通过DT_CWT算法提取的唇部特征向量的 具体步骤如下:
S311:将唇部图像设置为ROI图像并归一化ROI图像;
S312:将归一化后的ROI图像分割为n×n大小的子图像;
S313:对每个子图像进行DT_CWT多尺度二维滤波,在每个尺度上形成高频系数矩阵;
S314:对所有尺度上的高频系数矩阵进行复系数的幅度值计算以形成实数系数矩阵;
S315:将实数系数矩阵按列方向依次排列按如下方式形成特征向量X:
其中,上标T表示转置操作,Vl,θ表示每个尺度上的实数矩阵按列方向依次排列形成的 列向量,l表示DT_CWT变换的分解层数,θ表示DT_CWT变换的方向参数。
所述步骤S32中对唇部特征向量进行DCT变换形成唇形特征向量并进行特征分类的具体 步骤如下:
S321:对唇部特征向量采用如下公式进行降维计算:
Y=AX,
其中,X表示N维特征向量,Y表示M维低维特征,A表示线性变换矩阵;
S322:选择满足预设条件的DCT特征系数;
采用如下公式选择满足预设条件的DCT特征系数;
对于一幅大小为M×N的图像f(x,y),其中x=0,1,2,…,M-1;y=0,1,2,…,N-1,其 二维DCT的定义为:
其中u=0,1,2,…,M-1;v=0,1,2,…,N-1。
其中x(u,v)称为DCT系数。
S323:采用Zig-Zag法按以下方式构造唇部特征向量:
其中,K表示在子图像中Zig-Zag选择的特征系数的个数,表示第m个子图像的第n 个特征系数。
S4:根据唇形特征向量获取唇形识别结果;
S5:根据唇形识别结果产生控制指令并驱动智能轮椅运动。
所述控制指令是通过无线传输方式传送给智能轮椅。
所述步骤S1中采用摄像头来采集包含人脸的图像。
所述图像预处理、提取唇形特征向量以及获取唇形识别结果采用作为上位机的笔记本电 脑或单片机。
所述驱动的智能轮椅作为上位机控制的下位机。
实施例2
本实施例与实施例1的区别仅在于:
本实施例首先对唇部进行DT_CWT滤波,由于DT_CWT具有近似平移不变性,所以DT_CWT 滤波后会使在ROI内不同位置的相同唇形的特征值之间差值较小,克服唇部因在ROI位置偏 移而导致唇形识别错误的影响;然后再对DT_CWT提取的唇部特征向量进行DCT变换,使经 DT_CWT变换后提取的唇部特征集中在DCT变换后的较大系数中,使特征矢量包含唇部最大的 信息量,并且同时达到降维的效果。
根据DT_CWT变换原理,一副图像经此变换后在每一层级上会产生6个方向 (θ∈{+15°,+45°,+75°,-75°,-45°,-15°})的高频子带矩阵,一个低频子带矩阵。低频子带矩 阵是下一层分解的初始输入,高频子带矩阵则是包含6个方向对应的纹理特征的系数;有研 究表明,高频系数在目标识别中比低频系数更加重要,并且低频系数是图片光照信息的特征, 会干扰识别过程,所以在在构造特征向量时通常只选用每个层级中6个方向的高频系数。
对于一副M×N的唇部图像如果对其进行L级分解,则会得到6×L个高频系数矩阵,第 一层的6个高频矩阵的维数均是M/2×N/2,即是原图像维数的一半,以此类推,下一级的每 个高频矩阵的维数又是上一级的一半。
本实施例首先把唇部感兴趣区域归一化为48×48,对唇部感兴趣区域进行4级DT_CWT 二维滤波,唇部图像滤波将产生4个尺度,每个尺度上6个方向的高频系数矩阵,所以图像 特征共包括24个高频系数矩阵。第一、二、三、四层级的高频系数矩阵的大小分别为:24×24、 12×12、6×6、3×3。由于DT_CWT产生的系数是复数,所以对每一个系数矩阵进行复系数 的幅度值的计算,将复数矩阵变为实数矩阵。然后将每个实数矩阵按列方向依次排列,排成一 个列向量,用Vl,θ来表示,其中l和θ分别表示DT_CWT变换的分解层数和方向参数,其取值范 围为l∈{1,…,4},θ∈{+15°,+45°,+75°,-75°,-45°,-15°}。唇部图像经4层DT_CWT变换后的特 征向量X可通过将24个幅度矩阵对应的列向量组合构成,可表示为式(6):
其中上标T表示转置操作。由(6)式可看出,X特征向量的维数是1、2、3、4层分解中 每层DT_CWT滤波6个方向产生的系数个数的总和,其维数为: 这样大的空间维数,给计算和识别速度将会造成很 大的负担。所以在进行DT_CWT滤波之后对特征矩阵X使用式(1)进行DCT变换,提取出特征 矩阵X中包含唇部信息量最大的DCT系数,然后利用Zig-Zag法选择前面81个较大的DCT 系数来构造最终特征矢量y,使y拥有唇部的最大信息量,保证图像信号的最少缺失,并同 时达到降维效果,以提高唇形识别率。
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可 以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修 改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变 型在内。
机译: 基于自然智能的自然表达处理方法,响应方法,装置和系统,训练机器人的方法,人机交互系统,训练基于自然智能的人机交互系统的方法以及端到端控制方法和系统控制系统
机译: 基于人工智能的人机交互方法及装置
机译: 基于人工智能的人机交互方法及装置