首页> 中国专利> 基于部件组合的梵音藏文联机手写样本生成方法

基于部件组合的梵音藏文联机手写样本生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明属于中文信息及数据处理技术领域。现代藏文有500多个字丁，加上梵音藏文共计7240个字丁，在文字识别领域属于大类别的字符集，其样本采集是庞大而复杂的工程，鉴于此，本发明提供了一种基于部件组合的梵音藏文手写样本生成方法；主要包括：(1)确定梵音藏文字符集和梵音藏文部件集；(2)梵音藏文字丁的部件位置信息获取；(3)联机手写梵音藏文部件的样本采集；(4)联机手写梵音藏文字符集样本库的生成。本发明为联机手写梵音藏文识别的研究提供字符训练样本库和测试样本库，本发明提高了手写梵音藏文样本采集效率和样本多样性，降低了样本采集成本，既可以用于联机手写样本采集，也可以用于脱机手写样本采集。

著录项

公开/公告号CN106056055A

专利类型发明专利
公开/公告日2016-10-26

原文格式PDF
申请/专利权人西北民族大学;
展开▼

申请/专利号CN201610349438.X
发明设计人王维兰;卢小宝;蔡正琦;才科扎西;沈文韬;付吉;
展开▼

申请日2016-05-24
分类号G06K9/00(20060101);
代理机构62100 甘肃省知识产权事务中心;
代理人刘继春
地址 730030 甘肃省兰州市城关区西北新村1号
入库时间 2023-06-19 00:43:59

法律信息

法律状态公告日

法律状态信息

法律状态
2019-05-03

授权

授权
2016-11-23

实质审查的生效 IPC(主分类):G06K9/00 申请日:20160524

实质审查的生效
2016-10-26

公开

公开

说明书

技术领域

本发明属于中文信息处理的联机手写字符识别研究领域，特别涉及基于部件组合的梵音藏文联机手写样本生成方法。

背景技术

藏文输入与汉字以及其他文字一样，有键盘输入、手写识别输入和扫描识别输入，本发明涉及手写识别输入。藏文包括现代藏文和梵音藏文，而现代藏文通常又称为藏文，有五百多个字丁。2009年，我们完成了现代藏文517个字丁和45个常用梵音藏文共计562个字丁的联机手写输入研发，并获得授权专利：一种联机手写藏文字丁的识别方法，专利号：ZL200910128595.8，以及软件著作权登记，登记号：2009SR020818、软件名称为：联机手写藏文识别系统V1.0。而梵音藏文字符的联机手写识别还未见相关报道。在实际应用过程中，现代藏文和梵音藏文混合使用，在本发明中，联机手写梵音藏文的字丁包括：《信息技术信息交换用藏文编码字符集基本集》中的42个字丁，以及《信息技术藏文编码字符集(扩充集A)》的1536个字丁、《信息技术藏文编码字符集(扩充集B)》的5662个字丁，以下分别简称为：基本集、扩充集A和扩充集B，共计7240个字丁，在本发明中统称为梵音藏文字符集。梵音藏文字符集的特点：字符集大，在模式识别中就是7240个类别，需要5000套样本用于识别分类器的训练和识别性能的测试。

对7240个字丁的联机手写梵音藏文识别软件系统的研究与开发，手写样本起着举足轻重的作用，样本库的质量好坏直接影响最后的识别效果。而要采集这样一个大的字符集的手写样本，采集人群要分布在不同的区域、不同的年龄段以及不同的教育水平等等，这是一个非常庞大和复杂的工程。鉴于此，我们发明了基于部件组合的梵音藏文联机手写样本生成方法，以解决大字符集梵音藏文的联机手写识别样本数量及样本多样性的问题。

发明内容

本发明的目的在于针对梵音藏文大字符集采样工程量的局限性，提供一种基于部件组合的梵音藏文联机手写样本生成方法。该样本生成方法能够有效地提高梵音藏文手写样本采集效率和样本多样性，从而降低样样本采集成本。

本发明的目的通过以下技术措施实现：一种基于部件组合的梵音藏文联机手写样本生成方法，步骤为：(1)确定梵音藏文字符集和梵音藏文部件集；梵音藏文字符集由7240个字丁组成，部件集由81个基本集字符和85个构件组成，形成166个部件的梵音藏文部件集；(2)梵音藏文字丁的部件位置信息获取；将7240个梵音藏文的每一个字丁放置于xy平面的大小为M×N的框内，标注该字丁各个部件的外接矩形框，获取并存储该字丁各个部件的坐标数据信息；(3)部件的样本采集；将166个部件中的待采集部件显示在其部件矩形显示框，采集人员根据部件矩形显示框所显示的部件，在采集区域矩形空白框书写相同的部件，并保存采集部件的信息，完成第1到第166个部件的采集和存储形成一套样本，所有参加采集人员重复该步骤，完成与参加采集人员数量相同的部件样本套数，得到部件样本库；(4)梵音藏文字符集样本库的生成；根据步骤(2)所获取的字丁各个部件的坐标数据信息，将字丁的部件样本逐一从部件样本库中取出，依次按照它们的位置信息映射到对应位置矩形，便得到字丁的样本；生成7240个梵音藏文字丁的4000～7000套样本。为联机手写梵音藏文识别的研究与开发奠定字符集的样本库基础。实际应用中，采集人员100～200人，生成5000余套样本就可满足需要。具体过程如下。

a.确定梵音藏文字符集和梵音藏文部件集

a.1确定梵音藏文字符集

去掉扩充集A、B中一些重复的字丁，以及扩充集A和扩充集B的重复字丁，确定梵音藏文字符集包括基本集的42个字丁、扩充集A的1536个字丁和扩充集B的5662个，共计7240个字丁；

a.2确定梵音藏文部件集

部件集由81个基本集字符和85个构件共166个部件组成，部件集中的部件按照顺序从1到166依次编号；

扩充集A和扩充集B中的字丁都是基本集中的字符上下叠加组合而成，字丁不等高；根据部件集中的部件来拆分梵音藏文字丁，可将字丁拆分为1到6个不等的部件，从上到下按照1到6的顺序编为层号；获取字丁上下叠加的部件以及部件的位置信息；

b.梵音藏文字丁的部件位置信息获取

将7240个梵音藏文的每一个字丁放置于xy平面的大小为M×N的框内，标注该字丁各个部件的外接矩形框，获取并存储该字丁各个部件的坐标数据信息；

b.1梵音藏文字丁的位置

对同一字体、字号的梵音藏文7240个，都放置于xy平面的大小为M×N的框内；

b.2梵音藏文字丁的部件位置信息标注

将待标注字丁显示在宽×高为M×N的标注平面上，本发明在实际标注中宽M＝240、高N＝480，单位为像素；根据字丁部件信息，按照从上到下的顺序，逐个部件标注位置信息，标注过程就是在M×N的平面上截取各个部件的外接矩形框，存储每个部件外接矩形框的左上角与右下角的坐标；用程序获取并存储坐标数据信息，7420个字丁的数据信息库分别记录字丁的序号、Unicode编码、梵音藏文、部件个数，从上到下的部件1、部件2、部件3、部件4、部件5、部件6各个部件的编号，以及对应的各个部件；

b.3梵音藏文字丁的信息数据库

按照b.1、b.2的方法对7240个梵音藏文字丁进行部件位置信息的标注，并将其存入数据库，存储的信息包括：ID号、字丁、梵音藏文序号、各个部件的序号、各个部件从上到下的序号，以及各个部件的外接矩形左上角和右下角的坐标；

c.联机手写梵音藏文部件的样本采集

在Android平台的iPad上完成部件的手写样本采集，获得书写更加流畅、自然、符合书写习惯的部件样本库；采样分别在不同区域、不同年龄段以及不同教育水平人中进行；

c.1部件的样本采集设置

设计部件样本采集软件，界面包括部件集中166个部件按顺序排序的部件矩形显示框，以及对应的采集区域矩形空白框；将166个部件中的待采集部件显示在其部件矩形显示框，采集人员根据部件矩形显示框所显示的部件，在采集区域矩形空白框书写相同的部件；

c.2部件的手写信息采集和存储

保存采集部件的信息，包括部件的BMP位图文件和部件笔划信息文件，笔划信息文件中包含书写时笔迹经过的点、笔划结束和部件结束的标记信息:

$(\begin{matrix} (x_{11}, y_{11}) (x_{12}, y_{12}) ... (x_{1 n_{1}}, y_{1 n_{1}}) (- 1, - 1), \\ (x_{21}, y_{21}) (x_{22}, x_{22}) ... (x_{2 n_{2}}, y_{2 n_{2}}) (- 1, - 1), \\ .......... \\ (x_{t 1}, y_{t 1}) (x_{t 2}, t_{t 2}) ... (x_{{tn}_{t}}, y_{{tn}_{t}}) (- 1, - 1) (- 2, - 2) \end{matrix})$

其中表示第t个笔划的第n_t个点的坐标，(-1,-1)表示从落笔到抬笔一个笔划的结束，(-2,-2)表示一个部件书写结束；

c.3部件样本库

将每个人书写的部件按照c.2的方法，完成第1到第166个部件的采集和存储形成一套样本，100～200人书写则完成100～200多套部件样本，采样后要进一步对采集样本进行后期处理，去除或修正错误样本；为保证样本的质量，还需要对部件样本进行预处理，主要是去除孤立点和倾斜校正，从而获得了部件样本库；

d.联机手写梵音藏文字丁样本库的生成

根据字丁拆分和位置矩形标注的结果，将构成字丁的部件样本逐一从部件样本库中取出，依次按照它们的位置信息映射到对应位置矩形，便得到字丁的样本；设梵音藏文字丁Z由m个部件r₁、r₂、r₃、…、r_m-1、r_m构成，构成字丁Z的m个部件中部件r_i的样本数为k_si，则字丁Z可生成的样本有k_s1×k_s2×…×k_si×…×k_sm种，实际中，部件样本是成套采集的，因此k_s1＝k_s2＝…＝k_si＝…＝k_sm＝k，其中k为部件样本的套数；

d.1部件样本映射到字丁对应位置矩形方法

将c.3部件样本库中的部件样本，映射到按b完成的7240个字丁的部件位置，梵音藏文字丁相应位置如图9所示，其中a是部件样本的位置矩形，位置矩形表示为Z(h_sc1,v_sc1,h_sc2,v_sc2)，其中h_sc1和v_sc1为矩形左上角的横坐标和纵坐标，h_sc2和v_sc2为矩形右下角的横坐标和纵坐标，M'×N'是部件采集平面；图9中b所示是a所对应部件映射平面的位置矩形，M″×N″为部件映射平面，图中位置矩形由部件位置信息样本库通过线性变换来计算，即：

参数

这个变换确定了部件在映射平面中的位置，其中(h_d1,v_d1,h_d2,v_d2)为部件的位置信息样本库中该部件的位置信息；

部件映射就是对采样平面中位置矩形内的部件做线性变换，然后复制到映射平面的过程，线性变换参数

部件样本复制到映射平面的位置矩形后出现三种情况，设部件样本上的任一点为(x,y)，对应校正后的点为(x’,y’)；是否校正分为三种情况：

(1)当时，位置矩形外切于部件，不需要位置校正；

(2)当时，部件外接框与部件左右相切而上下只有一边相切，需要对部件做垂直校正，校正方法如下式：

$(\begin{matrix} x^{'} = x \\ y^{'} = y + \frac{(v_{s r 2} - v_{s r 1}) - μ (v_{s c 2} - v_{s c 1})}{2} \end{matrix})$

(3)当时，部件的外接框与部件上下相切而左右只有一边相切，需要对部件做水平校正，校正方法如下式：

$(\begin{matrix} x^{'} = x + \frac{(h_{s r 2} - h_{s r 1}) - μ (h_{s c 2} - h_{s c 1})}{2} \\ y^{'} = y \end{matrix})$

d.2 7240个字丁样本库的生成

用于7240个类别的模式识别问题，需要的训练样本和测试样本4000～7000套；

采用非线性变换、稀疏化的方法增加单部件字丁的样本数量，但是非线性变换的长宽比必须控制在一定范围内，超出范围将造成字符严重扭曲变形以致无法识别，同样，稀疏化的方法也应控制在一定范围；非线性变换实际上就是对图像做非同比伸缩变换，以此来改变字丁中点的空间位置信息来增加样本的数量；稀疏化是一种类似于数据丢包的方法，该方法通过随机丢点的方法来改变字丁中笔画的轨迹信息，丢点太多则有可能完全失去字符的空间信息，丢点太少则不足以改变字符的空间信息，选择适当的范围也是关键所在；生成梵音藏文字丁样本库的步骤如下：

d.2.1.判断待生成字丁的部件层数；

d.2.2.如果字丁层数为1，则转d.2.3，如果字丁层数为2，则转d.2.4，如果字丁层数大于等于3，则转d.2.5；

d.2.3.通过线性变换和稀疏化得到的样本存放到一起，并随机的将其分配到每一套梵音藏文样本中；

(1)采用线性变换

其中(x,y)为字丁样本上的任一点，变换后的对应点为(x″,y″)，本发明中，0.7≤α≤1.3和0.7≤β≤1.3，通过歩长0.01的变化获得更多的字丁样本；

(2)稀疏化分四步：

①读取所采集的字丁存入数组中；

②设置丢点的数目υ并计算数组大小len，本发明中，丢点的数目υ的范围是：0.05len≤υ≤0.3len；

③产生υ个数组索引随机数rand，0≤rand≤len-1；

④删除υ个随机数索引对应的点，存储新生成的字丁样本；

d.2.4.根据b.2梵音藏文字丁的部件位置信息标注结果，将一个字丁的两个部件从上到下按照其编号和位置信息从b.3得到的信息数据库读取，并映射到大小为M×N的位置矩形中；

d.2.5.根据b.2梵音藏文字丁的部件位置信息标注结果，将组成字丁的部件从上到下均匀的从部件样本库中取出，然后映射到大小为M×N的位置矩阵中；

所谓均匀的从部件样本库中取出部件的方式：

首先，部件库中有p类部件，p＝166，每类部件分别存放在单独的文件夹中，且每类部件的数量一样都为K，在本方法中K＝100；设字丁T由部件Cx_1,Cx₂,......,Cx_t构成，这里3≤t≤6，也就是三到六个部件，每个字丁T需要生成L个；

其次，循环的从部件库中取部件，从每个部件文件夹中取部件时，选取的间隔为其中L、K、t、和分别为要生成的字丁个数、部件数量、字丁层数、向下取整和向上取整；采用均匀的从部件样本库中取出部件的方式可以最大限度的确保字丁样本的多样性。

本发明是对7240个类别的梵音藏文字丁联机手写样本库，利用166个部件的100套样本，生成了5000套的联机手写梵音藏文字丁样本库，可用于训练与测试，提高了手写梵音藏文样本采集效率和样本多样性，降低了样本采集成本，既可以用于联机手写样本采集，也可以用于脱机手写样本采集。

附图说明

图1基于部件组合的梵音藏文联机手写样本生成流程图；

图2藏文字丁、梵音藏文字丁不等高示意图；

图3藏文字丁、梵音藏文字丁放置于xy平面M×N矩形的示意图；

图4梵音藏文部件及其在xy平面M×N矩形位置信息的示意图；

图5三个部件的梵音藏文字丁从上至下截取外切矩形获取每个部件信息过程示意图；

图6梵音藏文字丁组成部件的信息数据库的示意图；

图7梵音藏文字丁及其部件的位置信息数据库内容示意图；

图8梵音藏文字丁部件的显示和采集示意图；

图9部件样本映射到梵音藏文字丁相应位置示意图；

图10部件样本到映射平面的位置情况示意图；

图11不同层数梵音藏文字丁合成的样本实例图。

具体实施方式

一种基于部件组合的梵音藏文联机手写样本生成方法，按照下述步骤进行：

a.确定梵音藏文字符集和梵音藏文部件集

a.1确定梵音藏文字符集

a.2确定梵音藏文部件集

为了提高样本质量和生成效率，降低采样成本，梵音藏文部件集的确定遵循三个原则：第一、部件集越小越好；第二、本着最小化原则，字丁中笔划不相连的基本集字符，例如是基本集中的字丁，它可拆分为和三个基本集部件上下叠加而成的字丁；第三、根据书写习惯，字丁中笔划相连的基本集字符本着最大化和出现高频率原则，把相连的基本集字符称为构件，并将其作为新部件加入部件集，例如字丁其国际标准Unicode码为3个，即由基本集中的和构成，但是由于第2层和第3层书写时相连，本着最大化原则可将其拆分为由和构成，且在其他字符中作为部件出现的频率较高；部件集由81个基本集字符和85个构件共166个部件组成，部件集中的部件按照顺序从1到166依次编号；

扩充集A和扩充集B中的字丁都是基本集中的字符上下叠加组合而成，字丁不等高；基于以上三个原则，根据部件集中的部件来拆分梵音藏文字丁，可将其拆分为1到6个不等的部件构成的字丁，从上到下按照1到6的顺序编为层号；

梵音藏文部件集为梵音藏文字丁的拆分奠定基础，根据部件确定的三个原则拆分梵音藏文，获取字丁上下叠加的部件以及部件的位置信息；

b.梵音藏文字丁的部件位置信息获取

166个部件可以组合所有的梵音藏文字丁，获取梵音藏文字丁中每个部件的空间位置信息至关重要；

b.1梵音藏文字丁的位置

梵音藏文字丁不等高、不等宽，但所有的字丁依基线对齐，基线之上有元音符号或者没有任何符号，图2所示，前两个是现代藏文字丁，后两个是梵音藏文字丁；

对同一字体、字号的梵音藏文7240个，都放置于xy平面的大小为M×N的框内，如图3所示为图2的四个字丁放置于xy平面M×N框内的示意图；

b.2梵音藏文字丁的部件位置信息标注

将待标注字丁显示在宽×高为M×N的标注平面上，本发明在实际标注中宽M＝240、高N＝480，单位为像素；如图4所示的字丁有两个部件组成，上面部件位置矩形表示为Z(h_d1,v_d1,h_d2,v_d2),也就是标注每一个部件的外接矩形框，获得其左上角坐标(h_d1,v_d1)和右下角坐标(h_d2,v_d2)，就获得了该部件的位置信息；

根据字丁部件信息，按照从上到下的顺序，逐个部件标注位置信息，标注过程就是在M×N的平面上截取各个部件的外接矩形，从而获得每个部件的位置信息；

图5中a、b、c所示从上到下依次框出三个部件的外接矩形框，以便存储每个部件外接矩形框的左上角与右下角的坐标；用程序获取并存储坐标数据信息，7420个字丁的数据信息库分别记录字丁的序号、Unicode编码、梵音藏文、部件个数，从上到下的部件1、部件2、部件3、部件4、部件5、部件6各个部件的编号，以及对应的各个部件；如图6所示为梵音藏文字丁组成部件的信息数据库的示意图，序号为1的字丁，Unicode编码为0F00、梵音藏文为部件个数为3，从上到下部件1、部件2和部件3的编号分别为43、41和35，对应的三个部件分别为和图6中同样还给出了序号为2、5、814、1089、4619的字丁，它们的部件个数分别是1、2、4、5、6；

b.3梵音藏文字丁的信息数据库

按照b.1、b.2的方法对7240个梵音藏文字丁进行部件位置信息的标注，并将标注过程中的信息存入数据库，存储的信息包括：ID号、字丁、梵音藏文序号、各个部件的序号、各个部件从上到下的序号，以及各个部件的外接矩形左上角和右下角的坐标；图7为梵音藏文字丁及其部件的位置信息数据库内容示意图，ID号、字丁Tibetan、字丁序号TibetanOrder、部件序号Code、部件从上到下的序号Sort，以及第一个部件左上角横坐标h_d1和纵坐标v_d1、右下角横坐标h_d2和纵坐标v_d2；

c.联机手写梵音藏文部件的样本采集

识别字符集样本库的好坏直接影响所研究和开发联机手写识别系统最后的识别效果，好的样本库建立在样本正确性和多样性的基础之上；因此,部件样本的好坏对生成好的梵音藏文样本库尤为重要；

为了获得高质量的部件样本库，在Android平台的iPad上完成部件的手写样本采集，以获得书写更加流畅、自然、符合书写习惯的部件样本库；同时，为了确保部件样本的多样性，采样分别在不同区域、不同年龄段以及不同教育水平人中进行；部件采集步骤如下c.1、c.2和c.3；

c.1部件的样本采集设置

设计部件样本采集软件，界面包括部件集中166个部件按顺序排序的部件矩形显示框，以及对应的采集区域矩形空白框；将166个部件中的待采集部件显示在其部件矩形显示框，采集人员根据部件矩形显示框所显示的部件，在采集区域矩形空白框书写相同的部件；图8所示，a、b所示分别为部件的显示区域和采集区域的手写结果；

c.2部件的手写信息采集和存储

保存采集部件的信息，包括部件的BMP位图文件和部件笔划信息文件，笔划信息文件中包含书写时笔迹经过的点、笔划结束和部件结束的标记信息：

其中表示第t个笔划的第n_t个点的坐标，(-1,-1)表示从落笔到抬笔一个笔划的结束，(-2,-2)>

c.3部件样本库

将每个人书写的部件按照c.2的方法，完成第1到第166个部件的采集和存储形成一套样本，200多人书写则完成200多套部件样本，样本的实际分布情况包括书写者所在的地域、年龄、学历和技术领域因素；采样后要进一步对采集样本进行后期处理，去除或修正错误样本，甚至整套删除；为保证样本的质量，还需要对部件样本进行预处理，主要是去除孤立点和倾斜校正，从而获得了部件样本库；

d.联机手写梵音藏文字丁样本库的生成

根据字丁拆分和位置矩形标注的结果，将构成字丁的部件样本逐一从部件样本库中取出，依次按照它们的位置信息映射到对应位置矩形，便得到字丁的样本；设梵音藏文字丁Z由m个部件r₁、r₂、r₃、…、r_m-1、r_m构成，构成字丁Z的部件中部件r_i的样本数为k_si，则字丁Z可生成的样本有k_s1×k_s2×…×k_si×…×k_sm种，实际中，部件样本是成套采集的，因此k_s1＝k_s2＝…＝k_si＝…＝k_sm＝k，其中k为部件样本的套数；

d.1部件样本映射到字丁对应位置矩形方法

参数

这个变换确定了部件在映射平面中的位置，其中(h_d1,v_d1,h_d2,v_d2)为部件的位置信息样本库中该部件的位置信息；

部件映射就是对采样平面中位置矩形内的部件做线性变换，然后复制到映射平面的过程，线性变换参数

部件样本复制到映射平面的位置矩形后出现图10所示的三种情况，为了取得更好的字丁生成效果，需要校正部件在映射平面位置矩形内的数值，设部件样本上的任一点为(x,y)，对应校正后的点为(x’,y’)；校正可分为三种情况：

(1)当时，位置矩形外切于部件，如图10a所示的情况，不需要位置校正；

(2)当时，部件外接框与部件左右相切而上下只有一边相切，如图10b所示的情况，需要对部件做垂直校正，校正方法如下式：