首页> 中国专利> 一种错字字形编辑、编码和输入系统及方法

一种错字字形编辑、编码和输入系统及方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明一种错字字形编辑、编码和输入系统及方法，包括用于创建错字字形库的错字字形库编辑模块，用于提取错字字形库中错字字形的特征点的错字特征提取模块，用于对错字的特征点进行编码的错字编码模块，以及用于将编码后的错字输入计算机的错字输入模块。错字字形编辑、编码和输入方法，包括如下步骤：A.利用错字字形库编辑模块创建错字字形库；B.通过错字特征提取模块对错字字形库中错字字形的特征数据提取特征点信息；C.利用错字编码模块对错字编码；D.通过错字输入模块实现错字字形的输入。本发明为错字的编辑、印刷和排版及数字化汉语教学研究提供了方便，解决了困扰人们多年的错字输入难题。

著录项

公开/公告号CN102722261A

专利类型发明专利
公开/公告日2012-10-10

原文格式PDF
申请/专利权人栗青生;王爱民;杨玉星;
展开▼

申请/专利号CN201210165401.3
发明设计人栗青生;王爱民;杨玉星;郭涛;吴琴霞;
展开▼

申请日2012-05-25
分类号
代理机构北京同辉知识产权代理事务所(普通合伙);
代理人赵慧
地址 455000 河南省安阳市黄河大道85号安阳师范学院计算机与信息工程学院
入库时间 2023-12-18 06:47:36

法律信息

法律状态公告日

法律状态信息

法律状态
2020-05-15

未缴年费专利权终止 IPC(主分类):G06F3/023 授权公告日:20150708 终止日期:20190525 申请日:20120525

专利权的终止
2015-07-08

授权

授权
2015-06-10

专利申请权的转移 IPC(主分类):G06F3/023 变更前: 变更后: 登记生效日:20150519 申请日:20120525

专利申请权、专利权的转移
2012-12-05

实质审查的生效 IPC(主分类):G06F3/023 申请日:20120525

实质审查的生效
2012-10-10

公开

公开

说明书

技术领域

本发明涉及错字形编辑、打印和制版印刷领域，特别涉及数字化对外汉语教学中常见的错字输入系统及方法，具体为一种错字字形编辑、编码及输入系统及方法。

背景技术

利用计算机进行汉字输入、排版和印刷，是目前办公自动化和印刷领域一件极其平常的事，但是，如果要输入并印刷计算机字库中没有的汉字，用户往往要大费周折，通常的办法有两种：一是利用造字程序制造，二是临时做一个汉字图片来暂时替代。错字属于字库中没有的字，少量的错字可以用上述的方法来进行，但随着我国汉语教学特别是对外汉语教学的发展，外国人学写汉字的人越来越多，由于汉字学习的复杂性，出现了外国人在书写汉字时的错误种类和数量成倍增长，使用字库制造错字和编辑错字图片的方式远远不能适应数字化汉语教学的需要。

为此许多学者开始在错字编辑和识别方面进行研究，并且已经取得了一些成果。比较典型的有内蒙古师范大学李小庆和林民老师的“基于国际标准的错字处理方案”，在该方案中，两位老师。基于Unicode 5.1标准中表意文字变体序列标准(ideographic variation sequences，IVS)，设计并实现了。以正字为中心组织和管理错字，使用正字加IVS变体选择符表示错字编码，应用OpenType字体技术进行输入输出错字处理方案。

以上处理错字的方法都是在原有字库的基础上利用标准字库中的空闲区域或不常使用的汉字内码区域来存放错字，这些方法最大的不足是占用了汉字宝贵的编码空间，随着错字规模的扩大，这些空间会很书被用完，例如，Chinese GBK国标码为[AAA1-AFFE]，[F8A1-FEFE]和[A140-A7A0]，仅这3个段就有4636个，Unicode编码为[E000-F8FF]共6400个。即使每个汉字取一个错字存放也需要6400个，而实际情况，错字的数量远不是一个汉字只有一个错字，因些以上的错字输入和处理方案在处理大批量错字方面还有很多缺陷。

为此，需要找到一种错字输入和编辑的方法，能够开放错字的编辑数量，方便用户输入，更好的服务汉字的出版和印刷，为汉语教学特别是对外汉语教学提供数字化的错字编辑和印刷环境。

发明内容

针对现有技术中存在的不足，本发明提供了一种通过自建错字字形库，并可以进行动态编辑的错字字形编辑、编码和输入系统及方法。

本发明的技术方案是这样实现的：一种错字字形编辑、编码和输入系统，其特征在于，包括用于创建错字字形库的错字字形库编辑模块，用于提取错字字形库中错字字形的特征点的错字特征提取模块，用于对错字的特征点进行编码的错字编码模块，以及用于将编码后的错字输入计算机的错字输入模块。

上述错字字形编辑、编码和输入系统，错字字形库编辑模块实时动态编辑用户需要输入的错字以创建错字字形库，对于编辑过的错字，错字字形库编辑模块把错字文字结构的错字特征数据传递给错字特征提取模块；错字特征提取模块分析接收到的错字特征数据，采用错字特征提取算法提取错字特征数据中的特征点信息，并将特征点信息传递给错字编码模块；错字编码模块通过错字动态编码算法将错字特征提取模块中提取的特征点信息进行编码处理，并将编码处理后的错字进行存储；错字输入模块接收用户输入的正确汉字，通过字形检索找到该字对应的错字编码，并将经过错字编码模块编码的错字输入到编辑器中进行制版和印刷。

上述错字字形编辑、编码和输入系统，还包括接收需要调整和编辑的错字信息的错字实时动态编辑模块，错字实时动态编辑模块调用错字字形库编辑模块将文档中的错字实时动态编辑处理，并把错字文字结构的错字特征数据传递给错字特征提取模块。

利用上述错字字形编辑、编码和输入系统的错字字形编辑、编码和输入方法，包括如下步骤：

A.利用错字字形库编辑模块创建错字字形库：错字字形库中存储正确汉字及每个正确汉字所对应的错字；

B.通过错字特征提取模块对错字字形库中错字字形的特征数据提取特征点信息；

C.利用错字编码模块对错字编码：根据错字字形的特征点信息对错字进行编码，创建检索表；

D.通过错字输入模块实现错字字形的输入：根据输入的正确汉字，通过检索表在错字字形库中查找到输入的正确汉字所对应的错字，选择需要的错字字形，即可输入错字字形。

上述错字字形编辑、编码和输入方法，在步骤A中：通过绘制和临摹来编辑用户需要输入的错字，将错字的笔画结构进行可视化的修改和组合，包括在错字字形库中手写增加错字、临摹修改错字、挑选临摹对象、增加错字笔画、移动笔画位置、删除笔画、增加笔画控制点、删除笔画控制点、保存编辑后的错字、错字部件和笔画临摹进背景透明度的选择、错字部件和笔画临摹、错字笔画改变粗细以及存储编辑修改的错字字形。

错字字形编辑、编码和输入方法，在步骤B中：错字特征提取模块采用错字特征提取算法提取错字的特征点信息，错字特征提取算法采用定义错字的笔元和特征点与人机交互的方法提取特征点信息，采用笔元来定义错字笔画：笔元是由一个或多个有向笔段组成的一个完整的笔画结构，设一个笔元由n个有向笔段来组成，笔元中的有向笔段称为错字字形的特征数据；笔元的描述为：SS_n＝{BS₁，BS₂，BS₃，……，BS_n}或SS_n＝{(X_i1，Y_i1)|(X_j1，Y_j1)，(X_i2，Y_i2)|(X_j2，Y_j2)，……，(X_in，Y_in)|(X_jn，Y_jn)}；BS_n表示第n个有向笔段；(X_in，Y_in)表示第n个有向笔段的开始点坐标，简称势点；(X_jn，Y_jn)表示第n个有向笔段的结束点坐标，简称驻点；笔元的起始界点称为始界点，笔元的终结界点称为终界点，错字笔元中的所有势点和驻点称为错字的特征点。

上述错字字形编辑、编码和输入方法，在步骤C中：采用错字动态编码算法将错字字形以所在行的序号和错字各个特征点的坐标进行编码，同时创建一个以行号为索引的检索表。

上述错字字形编辑、编码和输入方法，错字动态编码算法的算法步骤如下：

步骤1：建立或打开错字字形库，并初始化变量；

变量的初始化要对分隔点D、始界点H、终界点T、笔元数ele_num和字形描述库ZXDATA(i)进行初始化操作，分隔点用于将相邻两个笔元分隔开来；

Open ZXscript//打开字形描述库

INT ele_num←0，m；

POINT D←(m，0)，H←(m，0)，D←(m，m)；

ZXDATA(i)←{m，0，m，m}//描述库初始化

步骤2：选择操作类型：若操作类型为“Ins”，则转步骤2.1；若操作类型为“Mov”，则转步骤2.2；若操作类型为“Del”，则转步骤2.3；若操作类型为“Edit”，则转向步骤2.4；若操作类型为“NoOper”，则转向步骤3；

步骤2.1：插入笔元；

插入具有n个笔段的笔元En是通过逐个插入该笔元的笔段来实现的，设插入位置为pos：

步骤2.1.1在插入位置插入一个分隔点(m，0)；将笔段计数变量i置1；插入位置pos自加1；

步骤2.1.2在插入位置插入笔元En的第i个笔段，即：B[i].x，B[i].y，Z[i].x和Z[i].y；B[i]和Z[i]分别为第i个笔段的势点和驻点；在B[i]和Z[i]之间画线段；插入位置pos自加2；笔段数i自加1；

步骤2.1.3若i＜n，转步骤2.1.2；否则，笔元数ele num自加1，转步骤2；

步骤2.2：整体移动笔元；

整体移动笔元是通过修改笔元中除始界点和终界点外各个点的坐标来实现的，设Vertex[i]是待移动笔元中的第i个点，dx和dy分别是水平增量和垂直增量，VerCount是待移动笔元中除始界点和终界点之外的点数：

步骤2.2.1置i为1；

步骤2.2.2Vertex[i].x和Vertex[i].y分别增加dx和dy；i自加1；

步骤2.2.3若i＜VerCount，转步骤2.2.2；否则，转步骤2；

步骤2.3：删除笔元；

删除笔元是通过删除笔元的各个点来实现的；设Vertex[i]是待移动笔元中的第i个点，VerCount是待删除笔元中除始界点和终界点之外的点数；

步骤2.3.1删除一个分隔点(m，0)；置i为1；

步骤2.3.2删除Vertex[i]；i自加1；

步骤2.2.3若i＜VerCount，转步骤2.3.2；否则，转步骤2；

步骤2.4：编辑笔元；

编辑笔元主要是指移动笔元中的某个笔段，这主要通过移动相应笔段的势点或驻点来实现；设待移动的笔段的势点或驻点为Vertex[i]，dx和dy分别是水平增量和垂直增量，移动该点的方法为：

Vertex[i].x＝Vertex[i].x+dx；

Vertex[i].y＝Vertex[i].y+dy；

转步骤2；

步骤3：保存修改，关闭字形描述库。

上述错字字形编辑、编码和输入方法，在步骤D中：用户在编辑器中输入正确的汉字，通过检索表找到错字所在的行，将错字所在行的所有错字列表显示，用户挑选所用错字，即可输入错字字形。

本发明的有益效果是：通过自定义错字字库，将正字和错字进行一对多的映射编码，而字库中的每一个错字都可以在使用过程中动态的编辑和修改；编辑和修改每一个错字可以使用动态的绘制、增减笔画和临摹，修改后的错字还可以重新进行编码和存储。

本发明能够进行错字的输入操作，从而解决了困扰错字印刷和数字化汉语教学中多年存在的错字输入的困难；另外，充分利用了现代汉字的结构多变，字形复杂的特性，将错字库的编辑和修改和汉字的临摹有机的结合起来，保证了在不改变原有字形结构的情况下，动态的制作多种形式的错字字形，为数字化的汉语教学和错字印刷排版提供了一种错字获取源，是一种简单方便而又高效地错字输入法。

附图说明

图1为本发明错字字形编辑、编码和输入系统的模块组成图。

图中：1-错字字形库编辑模块，2-错字特征提取模块，3-错字编码模块，4-错字输入模块，5-错字实时动态编辑模块。

具体实施方式

结合附图对本发明做进一步的说明：

本实施例错字字形编辑、编码和输入系统，包括用于创建错字字形库的错字字形库编辑模块1，用于提取错字字形库中错字字形的特征点的错字特征提取模块2，用于对错字的特征点进行编码的错字编码模块3，以及用于将编码后的错字输入计算机的错字输入模块4。

错字字形库编辑模块1实时动态编辑用户需要输入的错字以创建错字字形库，对于编辑过的错字，错字字形库编辑模块1把错字文字结构的错字特征数据传递给错字特征提取模块2；

错字特征提取模块2分析接收到的错字特征数据，采用错字特征提取算法提取错字特征数据中的特征点信息，并将特征点信息传递给错字编码模块3；

错字编码模块3通过错字动态编码算法将错字特征提取模块2中提取的特征点信息进行编码处理，并将编码处理后的错字进行存储；

错字输入模块4接收用户输入的正确汉字，通过字形检索找到该正确汉字对应的错字编码，找到该正确汉字对应的所有错字，然后由用户选择对应的错字，并将经过错字编码模块3编码的错字输入到编辑器中进行制版和印刷。

还包括接收需要调整和编辑的错字信息的错字实时动态编辑模块5，错字实时动态编辑模块5调用错字字形库编辑模块1将文档中的错字实时动态编辑处理，修改后的错字可以重新加入到错字字形表中，并把错字文字结构的错字特征数据传递给错字特征提取模块2。错字实时动态编辑模块5通过选择指定的错字，再次调用错字字形编辑模块1进行再编辑存储后，将文档中的错字进行存储。

利用上述错字字形编辑、编码和输入系统的错字字形编辑、编码和输入方法，其特征在于，包括如下步骤：

A.利用错字字形库编辑模块1创建错字字形库：错字字形库中存储正确汉字及每个正确汉字所对应的错字；

通过绘制和临摹来编辑用户需要输入的错字，将错字的笔画结构进行可视化的修改和组合，包括在错字字形库中手写增加错字、临摹修改错字、挑选临摹对象、增加错字笔画、移动笔画位置、删除笔画、增加笔画控制点、删除笔画控制点、保存编辑后的错字、错字部件和笔画临摹进背景透明度的选择、错字部件和笔画临摹、错字笔画改变粗细以及存储编辑修改的错字字形。

B.通过错字特征提取模块2对错字字形库中错字字形的特征数据提取特征点信息；

错字特征提取模块2采用错字特征提取算法提取错字的特征点信息，错字特征提取算法采用定义错字的笔元和特征点与人机交互的方法提取特征点信息，采用笔元来定义错字笔画：笔元是由一个或多个有向笔段组成的一个完整的笔画结构，设一个笔元由n个有向笔段来组成，笔元中的有向笔段称为错字字形的特征数据；笔元的描述为：SS_n＝{BS₁，BS₂，BS₃，……，BS_n}或SS_n＝{(X_i1，Y_i1)|(X_j1，Y_j1)，(X_i2，Y_i2)|(X_j2，Y_j2)，……，(X_in，Y_in)|(X_jn，Y_jn)}；BS_n表示第n个有向笔段；(X_in，Y_in)表示第n个有向笔段的开始点坐标，简称势点；(X_jn，Y_jn)表示第n个有向笔段的结束点坐标，简称驻点；笔元的起始界点称为始界点，笔元的终结界点称为终界点，错字笔元中的所有势点和驻点称为错字的特征点。

C.利用错字编码模块3对错字编码：根据错字字形的特征点信息对错字进行编码，创建检索表；

采用错字动态编码算法将错字字形以所在行的序号和错字各个特征点的坐标进行编码，同时创建一个以行号为索引的检索表。

错字动态编码算法的算法步骤如下：