公开/公告号CN112464926A
专利类型发明专利
公开/公告日2021-03-09
原文格式PDF
申请/专利权人 北京工业大学;
申请/专利号CN202011259598.8
申请日2020-11-12
分类号G06K9/20(20060101);G06K9/32(20060101);G06K9/62(20060101);G06K9/68(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人张慧
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-06-19 10:08:35
技术领域
本发明涉及图像处理、文字识别以及深度学习领域。
背景技术
传统上,人们与计算设备的交互为键盘输入。随着计算机技术的高速发展,进入了移动互联网时代,触摸屏设备的加速发展转变了人机交互方式,人们更乐于用手指或手写笔这种更自然的交互方式进行文本输入。在手写输入法领域,传统的手写系统受输入设备、屏幕尺寸、识别技术等因素所限,大多只支持单字符输入识别,这样往往会限制了用户的输入速度,影响用户体验。随着移动终端设备触摸屏尺寸的扩大,传统笔记本电脑过渡到触摸显示器等因素的影响,在线手写文本输入将会得到广泛的应用。为了支撑在线手写文本的发展,针对联机手写文本识别技术的研究显得至关重要。
全球化和国际化的发展,文本的内容不再局限于单一语种,中英文混合手写文本识别研究也逐渐成为了热点。对于印刷体中英文混合文章的识别,已经取得了令人满意的结果,但是联机手写体中英文混合文本由于汉字种类繁多、结构复杂、相似字较多、书写不规范,英文单词普遍连笔等问题,使得中英文混合手写文本识别至今是一个难点。
现阶段,大多数研究成果是对单语种的联机手写的识别,而对于联机中英文混合手写识别的研究比较缺乏。在商业领域,比较成熟的是Myscript公司开发的付费手写笔记软件nebo,支持联机中英文混合手写识别,识别效果达到了业界最高水平,但该软件需付费,技术不公开。国内输入法绝大多数只支持单一的中文或英文识别,不支持中英文混合手写识别,因此,联机中英文混合手写识别研究具有广阔的发展前景。联机中英文混合手写识别不仅需要研究单语种的联机手写识别,还要根据语种特征,研究语种分类算法,并且需要研究中英文文本切分算法。因此,联机中英文混合手写识别研究具有一定的挑战性。
发明内容
中英文混合手写识别的难点在于中英文混合文本的切分问题以及分类问题,针对国内输入法绝大多数不支持联机中英文混合手写识别,本发明通过研究中英文混合手写文本的特点,从联机手写字符数据集的建立及扩充、联机手写字符识别模型的训练、联机中英文混合手写文本行的预处理、过切分、中英文二分类、识别及结果后处理几个方面,实现了联机中英文混合手写识别方法。
实现本发明方法的主要步骤如下:首先,收集建立联机手写英文字符、中文字符、中英文混合句子数据集,改进卷积神经网络模型,训练出联机手写英文字符识别模型、联机手写中文汉字识别模型为前提工作;然后对联机中英文混合手写文本行进行倾斜矫正,接着对该文本行进行基于规则的过切分,接着对切分完成的字符片段进行中英文二分类,接着对每一类字符片段通过路径评价、搜索找出最佳合并路径,得到评分最优的英文单字符序列和中文单字符序列,分别送入联机手写英文字符识别模型、联机手写中文汉字识别模型进行识别,最后把识别结果进行重组,得到联机中英文混合手写文本的最终结果,在联机中英文混合手写数据集上测试,混合中英文文本识别率可达93.67%。
联机中英文混合手写识别方法,包括如下步骤:
步骤一,联机手写数据集的建立及其扩充,具体为:联机手写英文字符数据集的建立、联机手写中文汉字数据集的合并及扩充以及联机混合手写中英文句子数据集的建立,联机手写数据集的数据格式为点坐标序列:{x,y},依次为X坐标值、Y坐标值;每个字符都是由多个点组成的,每个字符的数据格式是由组成该字符的多个点的点坐标序列构成的;
步骤二,提取单字符特征向量,所述的单字符包括英文字符和中文汉字,加深LeNet-5模型的深隐藏层层数、增加各层卷积核个数,构建12层卷积神经网络结构,对联机手写数据集进行模型训练,具体为:对英文字符提取N维特征向量进行训练,N的取值范围为144-256,对中文汉字提取8方向特征图以及原图构成9通道特征图进行训练;训练得到联机手写英文字符识别模型以及联机手写中文汉字识别模型,两个模型的构建为后续工作提供识别功能,两个模型结构相同,参数不共享;
步骤三,联机中英文混合手写文本行的倾斜矫正预处理,目的为矫正手写文本行,获取更加真实的文本行高度估计值;
步骤四,对预处理完成的联机中英文混合手写文本行进行过切分处理,保证切分完成的字符片段都是单个字符的子片段;
步骤五,对字符片段进行中英文二分类,具体分为三个步骤:首先利用现有中英文分类技术对字符片段进行中英文分类,然后对于无法分类的字符进行二次分类识别,具体为根据字符圆滑度特征,计算字符局部曲率,若曲率值达到阈值归为英文字符,否则为中文字符;最后把依旧无法分类的字符片段分别送入联机手写英文字符识别模型和联机手写中文汉字识别模型,将其归为相似度得分高的模型所对应的一类,得到为最终的分类结果;
步骤六,分别对每一类字符片段进行合并,合并为单个字符,具体为:首先根据字符特征、语言模型特征构建路径评价函数,得到本次路径的评分,利用动态搜索算法找到评分最优的路径,为最佳的片段合并结果;
步骤七,对合并完成的中文字符和英文字符分别送入联机手写中文汉字识别模型、联机手写英文字符识别模型进行识别,把识别结果按照原来的顺序进行重组,最终得到联机中英文混合手写识别结果。
与现有技术相比,本发明的方法具有以下优点:
与传统联机手写单字符识别方法相比,通过对英文字符N维特征提取,N的取值范围为144-256中文汉字8方向特征图提取,能更好的提取字符的特征;通过改进卷积神经网络模型使联机手写字符识别率有所提升;本技术加入了双语种混合手写识别技术,实现了联机中英文混合手写文本识别率可达93.67%;为各大在线输入法,输入系统提供了新思路。
附图说明
图1为本发明所涉及方法的系统架构图;
图2为联机手写英文字符数据集部分数据示例图;
图3为联机手写中文汉字数据集部分数据示例图;
图4为联机中英文混合手写句子数据集部分数据示例图;
图5为LeNet-5模型图;
图6为改进卷积神经网络架构图;
图7为联机手写英文字符识别流程图;
图8为英文字符a原图;
图9为英文字符a插值图;
图10为英文字符a分块图;
图11为英文字符a特征图;
图12为联机手写中文汉字识别流程图;
图13为八方向集合图;
图14为八方向特征图;
图15为笔画重心点图;
图16为倾斜矫正前图;
图17为倾斜矫正后图;
图18为笔画切分示例1图;
图19为笔画切分示例2图;
图20(a)为切分点示例1图;
图20(b)为切分点示例2图;
图21为切分效果示例图;
图22候选字符部分组合网络图;
图23联机中英文混合手写识别效果图;
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
本发明所涉及方法的流程包括以下步骤:
(1)建立联机手写数据集
联机手写数据集的数据格式为:{x,y},依次为X坐标值、Y坐标值。
建立联机手写英文字符数据集,把下载的脱机英文字符数据集打印出来,使用青岛罗博T9W智能手写板进行重绘,采集数据为:大小写英文字符54类,每类720个,有效字符共计38821个,部分采集数据如图2所示。
扩充处理联机手写中文汉字数据集,在数据集CASIA-OLHWDB、HIT-OR3的基础上进行插值处理,如图3所示,并进行数据集合并和扩充。
建立联机中英文混合手写句子数据集,把常用汉字、词组、英文单词等随机重组为中英文混合句子样本,使用青岛罗博T9W智能手写板进行采集,部分采集数据如图4所示。
(2)改进LeNet-5模型并训练联机手写字符识别模型
如图5所示,为LeNet-5模型,第一层为卷积层,第二层为池化层,第三层为卷积层,第四层为池化层,第五层为卷积层,第六层为全连接层,在此基础上进行改进,如图6所示:在第一层和第二层之间、第三层和第四层之间分别加入一层卷积层,第五层和第六层之间依次加入卷积层、池化层、卷积层、卷积层、池化层、全连接层;设计包含8个卷积层、4个池化层、2个全连接层、1个SoftMax层的卷积神经网络。输入层需输入字符特征向量32×32×9,Layer-1、Layer-2、Layer-4、Layer-5、Layer-7、Layer-8、Layer-10、Layer-11是卷积层,采用3×3大小的卷积核,滑动步长为1,激励函数选用ReLU函数,加入边界填充保留特征图边界信息并保证卷积前后图像尺寸不变,Layer-3、Layer-6、Layer-9、Layer-12是池化层,池化核大小为2×2,步长为2,选用最大池化操作以保证图像的缩放不变性,Layer-13、Layer-14是两个连续的全连接层,使用dropout减少过拟合现象,输出层使用Softmax函数输出字符识别结果。
联机手写英文字符识别流程如图7所示,具体方法为:
a、获取英文字符点坐标序列,以英文字符a为例,如图8所示;
b、根据书写顺序对点坐标序列进行连线,为了便于后续特征提取,在这里进行多次插值操作,来代替连线,如图9所示;
c、求英文字符的最小外包矩形,然后把最小外包矩形平均分为12×12=144块,如图10所示;
d、特征征数值化,首先,计算每个小方块中点坐标的个数n;若n>0,该方块的值为1,若n=0,该方块的值为0,于是得到该字母的144维特征向量,如图11所示;
e、送入卷积神经网络进行模型训练。
联机手写中文汉字识别流程如图12所示,具体方法为:
a、对手写中文汉字的点坐标序列进预处理,包括归一化、平滑去噪、样本插值;
b、求解每个坐标点的方向向量,其中,某一笔画中的某个坐标点P
其中,P
c、定义八方向区域:以平面直角坐标轴X正方向为0°,逆时针旋转一周为360°,则八方向区域为D1:45°-135°、D2:90°-135°、D3:135°-225°、D4:180°-270°、D5:225°-315°、D6:270°-360°、D7:315°-45°、D8:0°-90°,把V
d、根据向量的分解法则,八个方向可以转化为八个特征平面,于是我们就得到了八方向特征图,加上原图,得到9通道特征图,如图14所示,以汉字“辉”为例;
e、把9通道图送入卷积神经网络进行模型训练。
(3)文本行倾斜矫正
首先对联机中英文混合手写文本进行倾斜矫正,具体方法为:
a、求文本行中所有笔画的中点,作为每个笔画的重心
b、求解文本行的回归直线方程y=k x+b:
其中x
c、求文本行的中心点A,以及文本行中每个字符的中心点B;
d、文本行以A点为旋转中心,旋转α度,文本行中每个字符以B点为旋转中心,逆向旋转α度;
倾斜矫正前如图16所示,倾斜矫正后如图17所示。
(4)文本行过切分
文本行过切分方法如下:
a、计算文本行中每个笔画S
b、如果S
c、如果((S
d、计算笔画S
e、如果(SA
f、生成S
g、以最长连续点序列的两端作为切分点a,b,如图20(b)中圆圈位置,S
h、结束。
举例切分效果如图21所示。
(5)中英文二分类
得到切分完成的字符片段以后,对这些片段进行中英文二分类,具体方法为:
a、以现有技术进行初筛,计算字符的笔画个数、宽高比,如果笔画个数和宽高比大于阈值,认为该字符为英文字符,否则为中文字符;
b、根据字符圆滑度特征,计算字符的局部曲率,计算公式如下:
把字符片段中的每个笔画作为曲线L,由坐标P[(x
曲线L在切点M(x,y)处切线的斜率为y′=tanβ,则
由上述公式推导得:
又
如果曲率K大于阈值,阈值取值范围为0.6-0.7,认为该字符为英文字符,否则为中文字符;
c、对于步骤a、b无法判断的字符,分别送入联机手写英文字符识别模型和联机手写中文汉字识别模型,将其归为相似度得分较高的模型所对应的一类,为最终的分类结果。
(6)路径评价搜索
通过计算字符特征值、语言模型的概率值,最终得到每次候选字符组合路径的评分。得到当前路径的评分后,使用动态搜索算法,找到一条最佳路径,生成待识别的中文字符序列或者英文字符序列,如图22所示为候选字符部分组合网络图,其中黑色线条为一条最佳路径。
字符特征概率值由联机手写字符识别模型的字符相似度表示。
语言模型概率值的计算方法如下:
假设一条组合方式的字符串的识别结果由R组合而成,R=R
P(R)=P(R
本发明使用N-gram方法来计算上式的联合概率,则公式变为
P(R)=P(R
其中P(R
p(R)=P(r
其中P(r
把过切分得到的字符片段进行组合,可以得到多种组合方式,如果一种组合方式s的字符串的识别结果为R=[r
其中,P
(7)后处理
把待识别的中文字符序列和英文字符序列分别送入联机手写中文汉字识别模型和联机手写英文字符识别模型进行识别,然后把识别结果按照原来的顺序进行重组,最后得到联机中英文混合手写识别结果,识别效果如图23所示,英文连笔和中文连笔均能识别正确。
(8)联机中英文混合手写识别率测试实验
在联机中英文混合手写句子数据集上进行测试,该数据集共300条句子,每个句子20条手写样本,共计6000条手写句子。部分测试数据如表1所示:
表1 部分测试数据
测试识别结果如表2所示,联机中英文混合手写识别正确率达到93.67%。
机译: 联机手写字符识别的在线手写字符识别方法和字符描述方法
机译: 联机识别装置,联机识别方法和用于同一屏幕的设置屏幕
机译: 联机识别装置,联机识别方法和用于同一屏幕的设置屏幕