首页> 中国专利> 以汉字基本元素和规范部件为基础的汉字数字编码输入法

以汉字基本元素和规范部件为基础的汉字数字编码输入法

摘要

一种以汉字基本元素和规范部件为基础的汉字数字编码输入法,是依据构成汉字的基本元素为基础,以汉字规范部件为主导的数字化的汉字编码输入方法,也是申请人的发明专利96106763.2汉字数字编码输入法的改进和升级版本,该汉字数字编码输入法使汉字规范部件数字化,能够方便、简单、易学地输入汉字,特别适用于电话通信领域利用十个数字键输入汉字,直接进行汉字短语通信;同时也可以在普通计算机的数字键上输入汉字,以及用其进行汉字检索、辞书编纂和查字。

著录项

  • 公开/公告号CN1251438A

    专利类型发明专利

  • 公开/公告日2000-04-26

    原文格式PDF

  • 申请/专利权人 肖金卯;

    申请/专利号CN99125109.1

  • 发明设计人 肖金卯;武云翠;肖敏飞;肖敏鹏;

    申请日1999-11-24

  • 分类号G06F3/023;

  • 代理机构信息产业部专利服务中心;

  • 代理人夏宪富

  • 地址 100876 北京市北京邮电大学眷9楼3单元303号

  • 入库时间 2023-12-17 13:37:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2007-01-24

    专利权的终止未缴年费专利权终止

    专利权的终止未缴年费专利权终止

  • 2003-05-28

    授权

    授权

  • 2000-04-26

    公开

    公开

  • 2000-03-29

    实质审查请求的生效

    实质审查请求的生效

说明书

本发明涉及一种改进的汉字数字编码输入方法,确切地说,涉及一种以构成汉字的基本元素(简称基元)为基础,以汉字规范部件为主导的数字化的汉字编码输入方法。该汉字数字编码输入方法特别适用于电话通信领域利用十个数字键输入汉字,直接进行汉字短语通信;同时也可以在普通计算机的数字键盘上输入汉字,以及用其进行汉字检索、辞书编纂和查字。属于汉字编码技术领域。

当今社会已经进入信息时代,通信业务在全球都获得了高速发展,其中移动通信更为突出。先进的移动电话不仅具有通话功能,而且还具有数据通信的功能;而数据通信在中国离不开汉字信息处理。例如,GSM数字式移动电话可以显示汉字,具有短消息服务功能的移动电话机可以接收和显示汉字短语信息。如果可以直接利用移动电话机完成汉字输入,就可以方便地向对方发送汉字短消息,拓宽移动电话机的用途,使其成为一种携带方便、使用灵活的多媒体终端。然而,目前,移动电话的短消息大都是以西文发送的,这对于习惯使用汉字的中国人无疑极不方便。因此,如何实现移动电话机的短消息通信中文化已经成为当今通信热点之一,而中文化的关键是解决如何使用电话机的数字键完成汉字的输入。申请人在对汉字作了大量研究的基础上,提出一种《汉字数字编码法》(专利申请号:96106763.2公开号:CN1144356A)。这几年,各种汉字数字编码法已是百花齐放,各领风骚。最近,国家有关部门对汉字的基本笔画和部件作了规范,并制定了《现代汉语通用字笔顺规范》、GF 3001-1997《信息处理用GB 13000.1字符集汉字部件规范》,使汉字编码的规范有了统一的依据。

本发明的目的是提供一种以汉字基本元素和规范部件为基础的汉字数字编码输入方法,该方法是依据国家规范的汉字部件,使汉字部件数字化,达到规范、方便、简单、易学地输入汉字的一种数字的汉字编码输入方法,进而开发出具有中国特色的电话终端和信息家电设备。

本发明的另一目的是提供一种以汉字基本元素和规范部件为基础的汉字数字编码输入方法,该方法也可用于数字检索查找汉字,利用数字查字比用部首查字更加方便快捷,可以说是传统部首查字的革命。

本发明的再一目的是提供一种以汉字基本元素和规范部件为基础的汉字数字编码输入方法,使用该方法,可以在移动电话机或其他电话机的数字键盘、计算机的数字键盘、交互式电视点拨、或掌上型电脑上输入汉字,从而使设备实现小型化、便携化、袋装化、乃至微型化。

本发明的目的是这样实现的:其包括有下列步骤:

(一)、首先将组成汉字的部件分成两部分:基本部件和一般部件,并将每个部件用数字编号表示;其中基本部件有十种,分别用一位数字0-9编码,称为一码部件;其余的为一般部件,都用两位数字编码,称为两码部件;

(二)、基本部件的编码输入方法:

(1)选取汉字的五个基本笔画:横(一)、竖(丨)、撇(丿)、点(、)、折(乙),分别用数字1、2、3、4、5作为其代码;

(2)选取五个组字能力强的规范部件口(口)、提手(扌)、八(八)、十(十)、文字头(亠)分别用数字6、7、8、9、0作为其代码,以上述十个数码化的部件作为构成汉字的基本元素(简称基元);

(3)将一些与上述十个汉字的基元在形状上有相同或相似的笔画或规范部件,或含义相近又有亲缘关系的规范部件也归入上述基本部件;具体分类情况列表如下:

(三)、除去上述规范部件以外的其他规范部件都为一般部件,即为两码部件,其编码输入方法如下:

(1)、按照书写顺序,取该规范部件的第一笔画(或第一部件),并根据上述基元中的规定,将该基元的数字符号作为该规范部件的第一位编码:

(2)、按照书写顺序,取该规范部件的第二笔画(或第二部件),并根据上述基元中的规定,将该基元的数字符号作为该规范部件的第二位编码:

(3)、以上述第一位编码的数字作为行号,第二位编码的数字作为列号,列出相应的各个一般部件的汉字编码矩阵表,上述各个部件的行列号就是该一般部件的两位数字编码;

(四)、利用电话机或计算机或其他数字处理器的数字键盘上的0-9十个数字键位分别代表上述取码规则中的各个数字;

(五)、进行汉字击键输入,其规则是:按照汉字的书写顺序,依次取码,逐个击键输入,其中:

(1)合体汉字:按书写顺序取第一、第二和最末部件,上述各部件组

   合的代码即为该汉字的编码;

(2)独体汉字:按书写顺序取第一、第二和最末基本笔画(一、丨、

   丿、丶、乙),上述各笔画组合的代码即为该汉字的编码。

该方法编码击键次数是不相等的:每个汉字最少击键一次,最多则取三个基本笔画(或规范部件)编码击键,即分别取第一个、第二个和最末个基本笔画(或规范部件)编码击键,其中大部分汉字击键2-5次,最多需要击键六次。

当字符集容量大时(如按GB13000.1字符集建立字库时),可以对汉字取四个基本笔画(或规范部件)编码击键,即分别取第一个、第二个、第三个和最末个基本笔画(或规范部件)编码击键,最多需要击键八次。

该编码输入方法对冗余码采用截短码长的方式,以减少击键次数。

本发明的汉字数字编码输入方法的特点是:1:汉字数码化:中国汉字是世界上最古老的文字,具有悠久的历史,也是地球上使用人数最多的字种之一。而阿拉伯数字是全世界通用人群最广的符号,本发明利用具有阿拉伯数字键的电话机或计算机等设备对汉字进行编码击键输入数字,其编码规则简单、记忆容易,处理方便;而且汉字数码化符合信息时代的发展潮流。2:部件规范化:本发明所采用的部件完全遵照国家语言文字工作委员会近年颁布的GF 3001-1997《信息处理用GB 13000.1汉字部件规范》;其中笔顺遵照《现代汉语通用字笔顺规范》。本发明的汉字数字编码输入方法是依据构成汉字的基本元素和规范部件为基础而制定的,使汉字部件数字化、标准化、规范化,从而可以规范、方便、简单、易学地输入汉字。3:设备小型化:由于电子元器件集成度的提高,为产品小型化、微型化提供了基础。现在掌上型电脑开始进入市场,移动电话机已经袋装化或成为“掌中之握”,这样,键盘的大小就成为小型化、微型化的关键,本发明采用十个数字键的汉字编码输入方法为电脑或通信设备的小型化、微型化提供了可能和方便。

本发明是申请人在96年申请的发明专利《汉字数字编码输入法》(申请号:96106763.2)的基础上的改进,也是上述专利的升级版本;两者属于同一技术体系。但是本发明选取的是规范部件,而不是传统的偏旁部首,取码顺序也有所不同。

下面结合附图和汉字编码实例详细说明本发明的汉字编码输入方法:

图1是本发明的汉字规范部件编码行列矩阵表。

本发明对汉字进行数字编码是以基元和规范部件为基础进行拆分的。其中五个是基本笔画(一、丨、丿、丶、乙),另五个是组字能力强的规范部件(口、扌、八、十、亠)。如何对基元、一般部件分别编码以及如何逐个顺序键录方法都已在前详细阐述。表2则是根据本发明的编码方法将有关部门颁布的规范部件处理后,再经合理归并而绘制的一个行列矩阵图。它清晰表明了每个规范部件的编码数字。现举例介绍如下:

首先将部件分成两部分:基元和一般部件,其中基元有十种,分别用0-9数字表示之,为一码部件:1、2、3、4、5分别表示汉字基本笔画[“横”(一)、“竖”(丨)、“撇”(丿)、“点”(丶)、“折”(乙)];6、7、8、9、0分别表示组字能力强的规范部件[口(口)、提手(扌)、八(八)、十(十)、文字头(亠)]。本发明是以上述十个数码化的部件作为汉字数字编码的基本元素(简称基元)。其助记口诀是:

横一竖二撇为三,点四折五方框六,

七手八八九十叉,点下一横零中查。

本发明对各个规范部件在表2的行列矩阵表中的排列位置是有规律可循的,即:凡是起笔为“一”(横)的部件都排在第1行的右侧,例如,“示”、“工”、“石”、“车”、“王”;凡是“丨”(竖)起笔的部件都排在第2行的右侧,例如,“止”、“业”、“卜”、“贝”、“小”。同理,凡是起笔为“丿”(撇)的部件都排在第3行;起笔为“丶”(点)的部件排在第4行;起笔为“乙”(折)的部件排在第5行;起笔为“口”字形的排在第6行;起笔为“扌”(提手)的排在第7行;起笔为“八”(八)字形的排在第8行;起笔为两笔交叉十字形的排在第9行;起笔为“亠”文字头的部件则都排在第0行的右侧,例如,“言”、“广”、“方”、“立”、“文”;每个规范部件的第二笔笔画(或部件)是所在位置的列号,例如,部件“止”第二笔是横,代码为1,那么,“止”的第二位代码为1列;部件“业”第二笔是竖,代码为2,那么,“业”的第二位代码为2列;部件“中”第二笔是折,代码为5,那么,“中”的第二位代码为5列。上述“示”、“工”、“石”、“车”、“王”等部件的第二位代码就分别是1、2、3、5、9。加上其第一位代码“1”,上述各部件的编码则分别为11、12、13、15和19。依此类推,不一一列举。总之,每个规范部件的行列号就是该部件的代码。

将一些与上述十个汉字的基元在形状上有相同或相似的笔画或规范部件,或含义相近又有亲缘关系的笔画或规范部件也归入上述基元里。如,“丨”(竖)行里,除去竖的基本笔画(或规范部件)外,还将部件竖钩“亅”(如:“小”、“水”、等)也归并其中,并用同一数字“2”编码。在“丶”(点)行里,除去点的基本笔画外,又将捺的部件“”(如:“不”、“水”、等)都归类其中,并用同一数字“4”编码。在“乙”(折)行里,包括有横折、竖折和连续折部件(如:“女”、“乙”、“扬”等)都归类其中,并用同一数字“5”编码。在“口(口)”行里,则将按书写顺序封闭的方形都归类其中,如:“国”、“另”、“日”、“田”等皆归并其中,并用同一数字“6”编码。在“扌”(提手)行里,包括有提手和竖向有两个以上交点的部件(如:“夫”、“未”等)都归类其中,也用同一数字“7”编码。又如:在“八(八)”行里,将形状相似的“人”、“入”、“丷”、等八字形结构部件都划归此类,均用数字“8”表示。在“十(十)”行里,则将有十字形及一个交点的部件(如:“古”、“寸”、“式”等),都用同一数字“9”编码。在“亠”(文字头)行里,则将形状相似的点和横相结合的结构部件都划归此类,均用数字“0”表示(如:“衣”、“广”、“言”等)。

除上述基元以外的其他规范部件都称为一般部件,使用两位数字编码,又称两码部件。本发明将两码部件和基元合并在一起,并按照其起笔笔画(或部件)相同的,排在同一行里。例如:部件长、片、斤、兆、儿、白、牛、采、千等起笔均为“撇”,则把这些部件都和“撇”放在同一行里,用数字“3”作为其第一位编码。再将除去第一部件(或笔画)之外的第二部件(或笔画)也按照上述基元的编码规律放入行列矩阵表里的同一列里。则上述部件长、片、斤、兆、儿、白、牛、采、千的编码分别是31、32、33、34、35、36、37、38、39。又例如:彡、舟、斤、爪、瓜、等部件的第一笔画和第二笔画都是“撇”,则上述这些部件的编码应该都是“33”。再如:金、羊、和四个部件,其起首笔画(部件)都是“人”和“八”,属于基元范围,代码为“8”;去掉基元“人”和“八”,,剩下的第一笔画又都是“横”,其代码为“1”,所以,上述四个部件两位编码为“81”,在表2中的位置也是“81”。依此类推,可将全部约560多个的规范部件分别归纳到表2所示的10×9行列矩阵表中。而且,每个部件在表2行列矩阵表中的位置,也就是该部件的编码。由于按照上述原则编码时,有的行列位置并无对应的部件列入其中,该编码坐标位置即为空白。

需要指出的是:表2所示的部件编码行列矩阵表,规律性强,易学好记,没有多少需要死记硬背的地方,符合人们认知识字的习惯。

本发明进行击键输入汉字的顺序过程就是按该汉字的书写顺序,将每个汉字先分为若干个基本笔画(基元)或规范部件,并根据上述编码规则分别对各个笔画或部件依次取码,顺序逐个击键输入。通常,每个汉字最多取三个部件,即第一、第二和最末的三个部件。当然,如果字符集容量大时,(例如,按BG13000.1字符集建立字库时),也可以对每个汉字取四个部件,(或基本笔画)即以第一、第二、第三和最末的三个规范部件(或基本笔画)进行编码。

现以“汉字部件编码法”七个字的数字编码举例如下:

  汉字  拆分成的部件  其部件代码 汉字编码   汉    氵、又    44、54  4454   字    宀、子    44、59  4459   部    立、口、阝    08、6、52  08652   件    亻、牛    32、37  3237   编    纟、户、冊    55、45、25  554525   码    石、马    13、55、  1355   法    氵、土、厶    4、91、54  49154

有些汉字拆分后的部件多余三个,按规则也只取第一、第二、最末三个部件,其余都舍去。例如:“蹰”可拆分为口、厂、一、口、寸七个部件,根据规则只取口、和寸三个部件,其余的部件(厂一、口、)则都舍弃,所以“蹰”的编码为62194。本发明编码输入方法对冗余码采用截短码长的方式,以减少击键次数。所以,使用本发明的方法进行数字编码的击键次数,每个汉字是不相等的:有的汉字击键最少,只有一次,例如:“一”编码为1,码长为一位;最多则取三个基本笔画或规范部件编码击键,即分别取第一个、第二个和最末个基本笔画或规范部件编码击键,最多需要击键六次,如:“篡”编码为316154。最长编码是6位(取四个部件时码长为8位)。本编码采用缩位编码,绝大多数汉字都在2-5位码之间实现

本发明除了用于GSM数字式移动电话开发非话电信业务外,还可以用于数字键盘的其他设备的键录输入,也可以应用于汉字检索及辞书编纂、电子字典查字等领域。

本发明已经按上述编码规则编制了包含有7000余个汉字的字库,并在计算机上进行试验实施,经过申请人长达半年的实施应用,录入便捷,重码率低,完全实现了预期的发明目的,效果良好。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号