法律状态公告日
法律状态信息
法律状态
2005-05-25
专利权的终止未缴年费专利权终止
专利权的终止未缴年费专利权终止
2003-01-29
授权
授权
1996-10-09
实质审查请求的生效
实质审查请求的生效
1996-10-02
公开
公开
本发明是关于计算机汉字编码技术的一种方法。
目前汉字编码有多种方案,如拼音码、五笔字型码等,这些方案已经利用了汉字的笔画、字根、拼音、结构等特征,并为社会所公知。但是,作为汉字的计算机输入技术其存在的主要问题是如何解决规范、标准、高效、快速、简单、易学等问题。所谓规范,是指编码规则明确,不存在或很少存在歧解的问题;标准是指编码规则应该依据一些最普通而又最明确,为大多数人能了解的一些汉字的基本特征而制定;高效是体现在编码长度上不宜过长,理论上讲,用现有常用字符来表达,要区分每个汉字且没有重码,一般需要三个字符,而实际上难以严格做到这一点,作为一个编码方案如果其平均输入效率达到三键或少于三健一字,就应该视为高效的;快速是要尽量减少重码,提高输入速度;简单易学就是要编码规则尽量少,记忆量少且便于联想,并用尽量减少特例与特殊情况下的不规则处理。应该说为了同时解决以上问题,仍需要研究更好的编码方法。
在现行编码方案中,如五笔字型,由汉字到编码先要拆分成字根,由字根联想到笔画,再由笔画到代码。这样,要确定一个汉字的编码需要了解两个过程,一是由汉字到字根的拆分方法,二是由字根到代码的定义方法。在这两个过程中,使用者不仅要熟悉大量的字根,并且有些字根不常用甚至与习惯不一致;还要熟悉编码规则,在这些编码规则中有时根据不同情况采取了不同的拆分方法和代码定义方法,即特殊情况,这样产生的结果一方面是编码规则复杂化、多样化,难免让使用者,尤其是初学者感到不明确或者有多解性;另一方面是大量的记忆给学习和使用带来了不便,如果想达到熟练程度,人们不得不花费大量时间去练习。
还有一些现行方案采用了汉字的某些不明确或不易被人掌握的特征,如有的方案在定义字根代码时,有时采用字根的形状为依据,有时采用字根的拼音为依据,这种定义实际上是采用双重标准或多重标准,具有不确定性,有的方案采用汉字的音调、结构等特征,而这些特征往往不容易被使用者所掌握,如音调很多人说不准;另外,在使用字根作为编码依据的方法中,几乎都无法解决字根与代码一一对应的问题。
在高效、快速方面现行许多方案都达到了比较好的目标、但是,有的方法缺少良好的可操作性,例如:虽然定义了二码、三码等简单码字,但在输入某一汉字时如何知道它是不是简码。字?这对初学者而言仍不简单。解决这一问题需要在计算机程序设计方面给予配合,并且有的程序已经较好的做到了这一点。
规范化和标准化的问题解决了,简单易学的目的也就实现了。
本发明是希望通过寻找和利用汉字的一些基本而又明确的特征及这些特征的组合进行单字和词组编码,达到简化编码规则,增加标准程度,减少记忆成分,提高编码效率的目的。
本发明是这样实现的,利用汉字的字首、字尾笔画或字首、字尾字根,或结合汉字拼音进行单字或词组编码。
在确定字首、字尾笔画及字首、字尾字根时利用了笔序的概念,在绝大多数情况下笔序有明确的定义且为人们所熟悉,因此以字首、字尾为特征,从根本上改变了汉字拆分成字根代码的过程和方法,并且字首、字尾特征突出,实现了规则简单、代码明确的标准要求。
由于具体利用字首、字尾笔画时,一般取四笔,其中字首、字尾各取二笔,加上笔序、拼音的特征,所以本发明提出的方法称为四笔序音汉字编码方法。
作为上述方法的具体实施方案,可以采取以下步骤:
1、将汉字的基本笔画,如点、横、竖、撇、折、捺、钩等,归成五种类型:
①、(),点,包括提、捺;
②一,横;
③丨,竖;
④丿,撇;
⑤(∠乛 ),折,包括前四类笔画以外的其它笔画,如竖折、撇折,横钩、竖钩、横折钩、横弯钩等。
这样,所有的汉字基本笔画可由以上五类为代表,作为该编码方案的基本笔画类型。
2、前述五类基本笔画按序进行两两排列,分配到25个字母健上,定义如下:q:丶丶 w:丶一 e:丶丨 r:丶丿 t:丶y:一丶 u:一一 i:一丨 o:一丿 p:一a:丨丶 s:丨一 d:丨丨 f:丨丿 g:丨h:丿丶 j:丿一 k:丿丨 l:丿丿 m:丿x:丶 c:一 v:丨 b:丿 n:
英文字母“z”在定义中未用,编码中另有用途。按照上述定义,25个英文字符与笔画排列形成了一一对应关系,称为笔画排列码,简称笔画码。笔画码在键盘上是按顺序排列的,容易记忆。
3、选择少量汉字偏旁或部首作为编码特征,这些偏旁或部首称为编码字根,并将其分配到数字0-9及除z以外的25个英文字母健上,定义如下:1:木 2、火 3、土(士) 4、金 5、氵6、日(曰) 7、月() 8、山 9、石 0、田q、饣 w、攵 e、儿 r、子(孑) t、寸y、虫 u、马 i、十 o、又 p、几a、口 s、忄 d、艹() f、目 g、巾h、犭 j、八 k、人 i、禾 m、王x、讠 c、 v、 b、女 n、大
以上是按字母在键盘上的顺序排列的,括号内表示同码字根。按照上述定义减少了字根数量,并且编码字根与其代码之间形成了一一对应关系,称为字根码。
4、对单个汉字进行编码,其方法是:
(1)从字首和字尾各取二笔笔画,共四笔,其中第一笔与第二笔的排列码构成该字第一位编码,倒数第二笔与倒数第一笔的排列码构成该字第二位编码,不足四笔时按以下原则处理:
对于单笔字,取该笔画的重复笔画排列码作为第一位编码,即补上一笔,然后第二位编码用z作为补码;对于二笔字,第一位编码为笔画排列码,第二位编码用z作为补码;对于三笔字,第一位编码为前二笔的笔画排列码,第二位编码取第三笔的重复笔画排列码;
(2)字首若为编码字根则优先取字根码取代字首笔画排列码构成第一位编码,字尾若为编码字根则优先取字根码取代字尾笔画排列码构成第二位编码;
(3)对于编码字根所代表的汉字,第一位编码为字根码,第二位编码用z作为补码;
(4)根据字首、字尾所确的二位单字编码称为笔序码,它与拼音相结合,即按顺序取该字拼音码的第一、第二位字母作为该字的第三位和第四位编码,拼音码只有一位字母时,第二位用空格代替,这样可构成该字的四位完整编码,称其为四笔序音码,简称四笔码或序音码。
在输入拼音码时进行了以下简化和修改。
①zh、ch、sh分别由z、c、s代替作为一位;
②ang、eng、ing、ong都由g代替作为一位;
③ü由u代替。
由于对拼音码只进行了少量简化和修改,所以没有增加过多的记忆量。
5、对偏旁字进行编码:
对于部分偏旁(字库中有定义的),可按一般单字编码方法取前第一位和第二位笔画码,然后,拼音码部分用两位字符zz作为补码。
6、对词组进行编码的方法是选取词组的第一字的笔序码和词尾字的笔序码形成词组编码。可以收录尽量多的两字和多字词组,有利于提高编码效率和输入速度。
对以上编码实施方案,特别说明以下几点:
(1)取字首、字尾笔画码或字首、字尾字根码时,一般情况下,不能重复利用字根或笔画特征,如“自”取“”之后,第二位则不能取“目”;
(2)取字首、字尾字根时要符合独立性原则,即用一条封闭曲线将编码字根包围起来其中不包括其它笔画,并且也不与其它笔画相交,如“老”字的字首不能作为“土”;
(3)使用四笔序音编码时可以采用简码,即在不出现重码的情况下,对于某些字可只取前一、二或三位作为该字编码,并且在设计计算机程序时可进行屏幕追踪显示,不需专门记忆,大多数汉字可采用简码,提高编码效率;
(4)该编码方法重码率较低,且重码字中大多数为两字重码,这样,在确定单字编码时常用字可取简码,不常用字仍采用全码,即四位序音码,可以更进一步减少重码率。
(5)拼音、字根和笔画代码可一律采用小写体。
采用上述汉字编码方法,直接使用字首、字尾笔画排列码或字首、字尾字根码作为编码依据,避免了由汉字到字根的拆分过程,使编码方法得到了简化;采用字首、字尾笔画排列码或字首、字尾字根码其特征明确,规则单一,避免了编码规则的多解性;笔画排列和编码字根与其代码之间分别形成了一一对应关系,分布有序,减少了字根数量及记忆量;笔画、笔序、编码字根、拼音等都属于汉字基本特征,且编码字根都是常用偏旁和部首,容易被人们所掌握,符合日常习惯及标准化要求,不额外增加人们的学习内容,采用简码与全码相结合的方式,大大减少了重码率,达到了较高目标,采用简码、词组编码,并尽量扩大词组数量,提高了编码效率和输入速度,平均编码效率可在三键以下。
申请人认为,以上方法与现行方法相比,如五笔字型,主要有以下不同:
(1)两种方法虽然都采用了笔画及笔画排列的形式,但是,本方法限定为字首笔画和字首笔画排列或字尾笔画和字尾笔画排列,而五笔字型中没有这种特征;本方法中笔画排列码直接用于单字或词组编码,而五笔字型中用于字根分类;本方法中笔画排列码用在单字或词组编码中是严格对应的,而在五笔字型中是不严格的。
(2)两种方法虽然都采用了字根的概念,但是,本方法中特指字首和字尾字根,而五笔字型中不是利用这种特征;本方法中采用少量字根,而五笔字型中包括了大量字根;本方法中字根与其代码一一对应,而五笔字型一码多用,本方法中采用的字根比较常用、标准,五笔字型中采用了一些非常用或非标准字根。
(3)编码方法不同,本方法强调字首、字尾特征,尤其强调字首、字尾笔画特征,并且与笔序、拼音相结合,是区别于现行方法的主要依据。笔画码在单字和词组编码中的应用占主要地位。
(4)本方法的改进产生了积极、突出的效果。
以上方法已进行了充分公开,据此人们可以确定单字或词组编码,并可设计有关计算机程序。
机译: 汉字拼音/去音和汉字拼音的计算机程序
机译: 基于汉字结构的汉字编码方法
机译: 韩文输入音的汉字推荐表自动生成与录入方法