首页> 中国专利> 一种基于加速度计和陀螺仪的空中手写字符识别方法

一种基于加速度计和陀螺仪的空中手写字符识别方法

摘要

本发明公开了一种基于加速度计和陀螺仪的空中手写字符识别方法,该方法包括:S1、数据预处理步骤,S2、模型参数初始化步骤,S3、CHMM模型训练步骤,S4、空中手写字符识别步骤。本发明提出了一种连续隐马尔科夫‑高斯混合模型来实现空中手写字符建模,采用基于样本平均长度的状态数选取策略与基于K‑均值聚类的模型参数初始化方法,该模型能有效表达传感器信号的时序信息,从而表征空中手写设备的运动过程。此外,还提出基于该建模方法的三维空间空中手写数字与英文字母识别的完整框架,该识别方法具有较好的准确性和实时性。

著录项

  • 公开/公告号CN106648149A

    专利类型发明专利

  • 公开/公告日2017-05-10

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201610841152.3

  • 发明设计人 薛洋;徐松斌;

    申请日2016-09-22

  • 分类号G06F3/0346(20130101);G06F3/01(20060101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人罗观祥

  • 地址 510640 广东省广州市天河区五山路381号

  • 入库时间 2023-06-19 02:06:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-10-18

    授权

    授权

  • 2017-06-06

    实质审查的生效 IPC(主分类):G06F3/0346 申请日:20160922

    实质审查的生效

  • 2017-05-10

    公开

    公开

说明书

技术领域

本发明涉及模式识别与人工智能技术领域,具体涉及一种基于加速度计和陀螺仪的三维空间空中手写字符识别方法。

背景技术

基于加速度计和陀螺仪的空中手写识别是近年来计算机领域中新兴起的研究前沿方向之一,利用用户身上可穿戴设备或集成在手机以及手柄等手持设备上的加速度计和陀螺仪采集手写数据,通过分析手写过程产生的加速度和角速度信号来识别用户的书写内容,它属于穿戴式计算(Wearable Computing)和普适计算(Ubiquitous Computing)的重要研究内容之一。

目前,基于加速度计和陀螺仪的空中手写识别主要包括书写内容识别和书写人识别。书写内容识别主要是识别书写的字符、单词、短语、句子等具体的内容;书写人识别则主要是实现书写者的身份区分,可用于手写签名鉴定等领域。基于加速度计和陀螺仪的空中手写字符识别的关键在于模型的选取,所选模型需要具有对时序序列良好的建模能力;另外由于信号波形很不直观,很难单纯通过肉眼观察波形对书写内容加以区分,而且由于不同人书写习惯的差异,同一个字符的信号波形也有较大差异,因此模型需要能够挖掘信号潜在的变化规律而非仅根据数值变化做出判别。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于加速度计和陀螺仪的三维空间空中手写字符识别方法,能对10个阿拉伯数字(0-9)、26个大写英文字母(A-Z)和26个小写英文字母(a-z)实现建模和识别。

本发明的目的可以通过采取如下技术方案达到:

一种基于加速度计和陀螺仪的空中手写字符识别方法,所述空中手写字符识别方法包括:

S1、数据预处理步骤,对采集的原始信号进行滑动平均滤波,以及对每一维数据分别Z-score标准化;

S2、模型参数初始化步骤,需要预先确定的模型参数包括隐藏状态数N、各隐藏状态对应的高斯概率分布个数M、连续隐马尔科夫模型(Continuous Hidden Markov Model,简称CHMM)的模型参数λ=[π,A,B,μ,Σ,C],其中π为初始状态概率分布、A为状态转移概率分布、B为观察值概率分布、μ是高斯概率分布均值、Σ是高斯概率分布协方差、C是高斯概率分布权重,其中,模型参数初始化策略包括基于样本平均长度的CHMM隐藏状态数选取方法和基于K-均值聚类的连续隐马尔科夫模型-高斯混合模型参数初始化策略;

S3、CHMM模型训练步骤,使用前向-后向算法和Baum-Welch算法,对于特定的空中手写字符,给定训练数据,以及已初始化的模型参数N、M与π、A、C、μ和Σ,迭代训练使得模型生成训练样本的概率不断增大直至收敛;

S4、空中手写字符识别步骤,给定已训练的所有空中手写字符CHMM模型,以及测试数据,用维特比算法计算每个测试样本属于每一类字符的概率,最后通过快速排序获得可能性最大的类别,完成识别。

进一步地,所述S2、模型参数初始化步骤具体如下:

S21、从预处理后的数据中随机选取部分作为训练样本,按字符类别分类,计算每类别的样本的平均长度,设置模型的隐藏状态数N;

S22、用K-均值算法初始化模型参数,将当前类别每一个样本在时间上均分为N段,各段序列的所有6维特征向量分别归于N个集合Seti,接着分别对每个Seti,i=1,2,...,N用K-均值聚类聚成M簇gim,m=1,2,...,M,以表示属于各状态的M个高斯概率分布;最后对总共M×N个簇计算统计信息,初始化模型参数。

进一步地,所述步骤S22具体如下:

S221、初始状态概率πi等于Seti集合大小与字符训练样本向量总数之比;

S222、初始状态转移概率矩阵A按照从左到右型隐马尔科夫模型的结构初始化:任意一个隐藏状态只能向下一个状态转化或保持不变,最后的状态不能向其他状态转化;

S223、初始高斯混合模型权值Cjm等于簇gjm的大小与集合Setj大小之比;

S224、初始高斯元均值向量μjm等于簇gjm的均值;

S225、初始高斯混合元协方差向量Ujm即计算簇gjm的协方差。

进一步地,所述S3、CHMM模型训练步骤中的前向-后向算法采用逐时刻归一化前向变量与后向变量的方法对前向变量α与后向变量β进行逐时刻归一化,具体如下:

在计算完某时刻t的前向变量α之后,先进行归一化:即该时刻各状态的前向变量α分别除以该时刻各状态的前向变量α的和,再进行时刻t+1的计算,后向变量β先计算时刻t+1的值,后计算前一时刻t的值,逐时刻归一化公式如下:

进一步地,所述采集的原始信号包括三维加速度信号和三维角速度信号。

进一步地,所述S1、数据预处理步骤具体为:

对于采集到的三维加速度信号和三维角速度信号,首先对各维数据用滑动平均滤波器去噪,然后进行Z-score标准化处理,使每一维数据均值为0、标准差为1。

进一步地,所述S3、CHMM模型训练步骤中,若迭代训练中两次迭代所得的参数的差异小于预定的阈值,则认定训练样本收敛。

本发明相对于现有技术具有如下的优点及效果:

本发明公开的一种基于加速度计和陀螺仪的三维空间空中手写识别方法提供了一种全新的手写方式,其不同于传统的二维平面书写,不具有书写过程中触觉和视觉的反馈,但它既不受某个特定的书写平面的限制(如手写板、触摸屏),也不需要其他外挂设备(如摄像头),工作空间的限制小,对环境变化、光照、肤色等因素不敏感,使用者只需要手持嵌入三轴加速度计与陀螺仪的书写设备在空中自由书写。

附图说明

图1是本发明公开的基于加速度计和陀螺仪的空中手写识别方法的流程图;

图2是本发明在数据库二号规定的书写笔画顺序;

图3是本发明的实施例基于数据库一号的5折交叉验证混淆矩阵;

图4是本发明的实施例基于数据库二号的5折交叉验证混淆矩阵;

图5是本发明的实施例基于数据库三号的5折交叉验证混淆矩阵。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

本发明实施例公开了一种基于加速度计和陀螺仪的空中手写字符识别方法,能对10个阿拉伯数字(0-9)、26个大写英文字母(A-Z)和26个小写英文字母(a-z)实现建模和识别。

实施本发明所用的输入设备是嵌入三轴加速度计和陀螺仪的装置,可以是智能手机、Wii手柄等。基于连续隐马尔科夫模型-高斯混合模型的空中手写字符识别算法的系统流程图如附图1所示,具体步骤包括:

S1、信号预处理

对于采集到的三维加速度信号和三维角速度信号,首先对各维数据用滑动平均滤波器去噪,以减少无意识的人为抖动和硬件因素带来的高频噪声,然后进行Z-score标准化处理,使每一维数据均值为0、标准差为1,以减少采集者书写力度和重力的影响。

S2、模型参数初始化

需要预先确定的模型参数包括隐藏状态数N、各隐藏状态对应的高斯概率分布个数M、连续隐马尔科夫模型(Continuous Hidden Markov Model,简称CHMM)的模型参数λ=[π,A,B,μ,Σ,C],其中π为初始状态概率分布,A为状态转移概率分布,B为观察值概率分布,μ是高斯概率分布均值,Σ是高斯概率分布协方差,C是高斯概率分布权重。

初始化策略包括基于样本平均长度的CHMM隐藏状态数选取方法,以及基于K-均值聚类的CHMM-GMM参数初始化策略。具体如下:

S21、从预处理后的数据中随机选一部分作为训练样本,按字符类别分类。计算每类别的样本的平均长度,设置模型的隐藏状态数N,平均长度越长,N越大。

S22、用K-均值算法初始化其他模型参数:将当前类别每一个样本在时间上均分为N段,各段序列的所有6维特征向量分别归于N个集合Seti,接着分别对每个Seti,i=1,2,...,N用K-均值聚类聚成M簇gim,m=1,2,...,M,以表示属于各状态的M个高斯概率分布;最后对总共M×N个簇计算统计信息,初始化模型参数。具体数值计算方法如下:

S221、初始状态概率πi等于Seti集合大小与字符训练样本向量总数之比;

S222、初始状态转移概率矩阵A按照从左到右型隐马尔科夫模型的结构初始化:任意一个隐藏状态只能向下一个状态转化或保持不变,最后的状态不能向其他状态转化;

S223、初始高斯混合模型权值Cjm等于簇gjm的大小与集合Setj大小之比;

S224、初始高斯元均值向量μjm等于簇gjm的均值;

S225、初始高斯混合元协方差向量Ujm即计算簇gjm的协方差。

S3、模型训练

CHMM训练过程包括前向-后向算法和Baum-Welch算法,对于特定的空中手写字符,给定训练数据,以及已初始化的模型参数N、M与π、A、C、μ和Σ,迭代训练使得模型生成训练样本的概率不断增大直至收敛:即两次迭代所得的参数的差异小于预定的阈值。

在前向-后向算法中提出逐时刻归一化前向变量与后向变量的方法,以避免数据下溢。

前向-后向算法采用的对前向变量α与后向变量β逐时刻归一化方法具体如下:在计算完某时刻t的前向变量α之后,先进行归一化:即该时刻各状态的前向变量α分别除以该时刻各状态的前向变量α的和,再进行时刻t+1的计算。相似地,β先计算时刻t+1的值,后计算前一时刻t的值。

逐时刻归一化方法:

S4、空中手写字符识别

给定已训练的所有空中手写字符CHMM模型,以及测试数据,用维特比算法计算每个测试样本属于每一类字符的概率,最后通过快速排序获得可能性最大的类别,完成识别。当空中手写完成,系统给出快速排序所得可能性最大的前N个字符以供选择,能有效提高识别率。

本发明公开的基于加速度计和陀螺仪的空中手写字符识别方法的优异性能通过大样本的实验得到了证实。下面描述采用本发明所述的空中手写字符建模与识别方法,对大量三维空间书写样本进行相关实验的结果,字符类别包括10个阿拉伯数字0-9,26个大写英文字母A-Z,26个小写英文字母a-z。本实施例利用三个空中手写字符库,下面是数据库的介绍:

a)、数据库一号

3轴加速度信号数据库一号由实验者采集,包含1130条序列,10个阿拉伯数字各113个样本,样本维度为3。共有40名采集者(全部男性)参与了数据采集,每人书写每个字符3次,有3人只写了1次或2次。采集者利用Wii手柄在100Hz的采样率下采集加速度信号,控制器上有一个被编程为“按下以书写”书写模式的标记按钮,“按下以书写”模式用于提供提笔和落笔信息,该书写模式表示采集者按下该按钮以开始空中手写,完成一个字符后释放按钮。这个数据库最大的特点是没有书写的限制,实验者不要求采集者在一个想象的方框中书写,不限制笔画顺序、书写速度和范围。每名采集者被允许按照自己的习惯书写。

b)、数据库二号

6维数据(包括3轴加速度与3轴角速度)数据库二号由实验者采集。数据库二号是本实施例三个数据库中规模最大的,包含10个阿拉伯数字0-9和26个大写字母A-Z共36种类型,14,530个样本。共49名采集者(31名男性,18名女性)参与了数据采集,每人书写每个字符至少8次。在数据库二号的采集过程中实验者规定了一套笔画顺序,每个空中手写字符需一笔完成,如附图2所示。实验者实现了有“按下以书写”功能的安卓程序并安装于一台HTC智能手机,其内置传感器以50Hz的采样率测量并记录信号,由于安卓系统的特性,实际采样率为10到15Hz,且该值与具体手机有关。

c)、公开手写库:数据库三号

数据库三号是一个公开的空中手写字符数据库,包含10个阿拉伯数字0-9、26个大写字母A-Z和26个小写字母a-z共62种字符,8,571条14维的序列。22名采集者(17名男性,5名女性)参与数据采集,使用采样率60Hz的混合型数据测量框架,每人书写每个字符10次。该数据库在书写限制上不仅规定了笔画顺序,还要求了一块想象的书写区域,即限定了手部移动的范围。实验者仅仅提取其中的3维加速度和3维角速度用于分析。

在试验中分别用三个数据库的数据实现了用户混合(Mixed-User)系统,该系统的特点在于:在训练与测试样本选取上,用户混合系统对数据库整体按一定比例分为两部分,其中一部分的样本用于训练,另一部分的样本用于测试。实验采用5折交叉验证,即将数据集分为5个大小相等的子集,各子集轮流充当测试集,剩余4个子集充当训练集,然后训练5次求得5次识别率并求平均值。实验测试中采用了“TOP-N”策略:若由维特比算法求得的可能性前N大的字符类别中,含有测试样本的真实类别,则视作识别正确,否则识别错误。实验记录了时间消耗,其中识别测试时间指平均识别一个样本所需时间,记录了5折交叉验证平均识别率(见表1至表2)和混淆矩阵(见图3至图5)。

表1.用户混合系统5折交叉验证各阶段时间消耗

表2.用户混合系统5折交叉验证平均识别率

top-1top-3top-5数据库一号全部72.04%93.10%97.62%数据库二号数字95.30%99.63%99.80%数据库二号大写89.11%97.68%98.83%数据库二号全部87.52%97.42%98.77%数据库三号数字99.00%100.0%100.0%数据库三号小写98.22%99.94%99.94%数据库三号大写99.00%100.0%100.0%数据库三号全部95.59%99.58%99.86%

表1显示,该发明公开的空中字符识别方法识别一条来自三个数据库的待测样本所消耗的平均时间都很短,说明一旦完成模型的训练,空中字符识别方法就能高效准确地工作,因此该发明公开的空中字符识别方法具有较好的实时性。表2显示,用三个数据库训练的CHMM-GMM分类器的5折平均识别率较高,尤其在规范了笔画顺序和书写范围后,识别性能优秀,因此该发明公开的空中字符识别方法对空中手写字符的识别准确性好。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号