首页> 中国专利> 一种计算机汉字和汉字部件的输入方法及其键盘

一种计算机汉字和汉字部件的输入方法及其键盘

摘要

本发明描述了一种汉字和汉字部件的计算机输入方法,将组成汉字的部件,按照字源含义和形似特征划分成28个大类,对应到计算机键盘上的26个英文字母,形成部件的大类码。此外,多数部件还根据其音形信息配置了一个实际使用时可以省略的小类码,使得每个部件被表达为1~2个字母的编码。而后将汉字按照书写顺序或者部首拆分顺序拆分成部件序列,并代之以部件编码,从而实现汉字和词语的编码表达及其计算机输入。本输入法易学难忘、合理高效,值得推广。其编码方案符合汉字的构造机理,有利于汉字文化的继承,还可适用于字典编纂、文字教学、汉字排序和检索等领域。

著录项

  • 公开/公告号CN101393482A

    专利类型发明专利

  • 公开/公告日2009-03-25

    原文格式PDF

  • 申请/专利权人 谢振斌;

    申请/专利号CN200810174721.9

  • 发明设计人 谢振斌;

    申请日2008-10-24

  • 分类号G06F3/023;

  • 代理机构厦门市首创君合专利事务所有限公司;

  • 代理人张松亭

  • 地址 361000 福建省厦门市莲前西路14号B808室

  • 入库时间 2023-12-17 21:40:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-16

    未缴年费专利权终止 IPC(主分类):G06F3/023 授权公告日:20161214 终止日期:20171024 申请日:20081024

    专利权的终止

  • 2016-12-14

    授权

    授权

  • 2009-07-08

    实质审查的生效

    实质审查的生效

  • 2009-03-25

    公开

    公开

说明书

技术领域

本发明涉及一种汉字输入方法,特别是指一种计算机汉字和汉字部件输入方法及其键盘。

背景技术

目前的计算机汉字输入方法,主要分为形码、音码和结合音形信息的音形码或形音码。

音码是一种以字音信息为基础的汉字编码,目前大陆流行的音码是“拼音输入法”,拼音输入法的优点是容易学习、上手快,缺点是重码率高,对于非常用的字词和不懂发音的汉字输入较为困难。形码是一种以字形信息为基础的汉字编码,多数以字根为编码基础,如五笔字型、郑码等,它们的优点是重码率比拼音码大大降低,输入速度较快,但缺点是学习掌握的难度较大,需要记忆的东西太多,一段时间不用就很容易忘记,而且多数的部件拆分不符合字源字理,不利于汉字文化的传承、教育和发展。另外也有一些结合音形或者笔画信息的汉字编码,但基本上都一样无法兼顾易学、高效、科学的矛盾。

我们大家知道,汉字最早是一些象形符号,随着社会的不断发展,这些符号按照一些规则组合成更加复杂的形体,代表更加复杂的意义。这些规则就是我们常说的六书。古代把那些象形符号称为“文”,而合成出来的符号称为“字”,就是所谓的“独体为文,合体为字”之说。六书包含了汉字的造字法和用字法:象形、指事、会意、形声、假借、转注。汉代的许慎著述的《说文解字》对汉字的字源、字构、意义,有着较科学全面的整理和记述。汉字虽然经过了几千年的演变,但是这些基本的构造原则一直没有变化,也正是因为汉字的这种巧妙的设计,使得它成为如今世上仅存的一种表意文字。现代汉字的独体字,就相当于古代的“文”,是负载有一定文化含义的基本元素。而现代汉字的合体字,就相当于古代的“字”。除了少量的指事、会意字外,约80%以上的合体字属于形声字。由于经过漫长的演变,汉字产生了较大的形体改变,部分甚至出现了讹误。从造字用字的角度看,出现了大量用字分化、假借、引申、繁化、简化、变异等形态,从而出现了大量的新汉字和异体字,使得汉字这个家族的成员日趋庞大。但统计表明,在同一个时代里的实际使用汉字数量并不是很多,大约在5千~1万左右。特别是常用的汉字,非常集中。因为汉字的使用不是均等的,不同汉字具有不同的使用频度,它们符合一定的分布规律。

既然汉字本来就是通过一些基本字形元素,通过一些原则组合起来的,那么就一定可以分解还原出这些基本元素来。并对这些元素进行序列化和编码,从而得到汉字的完全信息编码。按照信息理论,不难证明这样的方法是最佳的编码方法。因为基本元素本身是信息的高度聚合体,它不是随机的笔画组合,而是具有稳定形体的、负荷一定内涵的笔画组合。

发明内容

本发明的主要目的在于克服现有技术中计算机汉字输入方法难学、不科学的缺点,提供一种易学、高效、科学的计算机汉字、汉字部件输入方法及其键盘。

在对本发明的技术方案进行详细描述之前,对一些基本术语定义如下:

【构件】:由一组笔画组成,是组成汉字或部件的字形元素(零件)。

【子字】:是组成汉字的一组具有稳定形体和含义的笔画组合。它是负荷有一定含义的构件,是组建复杂汉字的元素。也可称为“偏旁”、“字块”、“合成部件”等。

【部件】:即不能继续拆分的子字,是具备一定含义的最小汉字构造单位,又称为“字根”、“基元”、“基础部件”等。在本说明书中“部件”主要用来描述汉字的基本编码元素,“字根”主要用来表述原始的拆分构件。

【义件】:汉字结构中和汉字意义关联的部件。合体字一般都有一个或一个以上的“义件”,不过经过长期演变,部分汉字“义件”的含义关联已经不明显或者完全丢失。

【部首】:统领一组汉字意义归属的基础部件,它代表一族汉字的意义特征或共性归纳,也是一般字典归部的依据。

【部首层次拆分】:首先拆出汉字的部首,剩下相应的子字,再用同样的方法拆出该子字的部首,如此重复直到不可再拆为止,于是产生了一个部首序列。此过程即称为部首层次拆分。

【义并】:是根据字根的字源、含义进行归并,凡是属于“同源”的字根,虽然形体产生了较大的演变,但他们的含义是一致的,所以看作是“等价字根”,归并为一个部件,比如“水氵氺”、“火灬”、“心忄”、“艸艹”等,它们的篆书字形其实是完全一样的,含义也是完全一样的。

【形并】:将一些形体接近,容易造成书写、识认错误的字根进行归并,如“日曰口”、“人入”、“艹、卝”等,它们的本身虽然含义不同,形体也可以区分,但是他们在构字过程中经常发生混淆、讹变。比如:“最曾喝慢替”里面实际存在的是“曰”部件,但我们很难和“日”区分。再比如“内全”里面的“入”如今已经讹变成了“人”。为了不给大众造成太大的困扰,我们也将他们编码归并。但对于含义有别的成字部件一般都单独设立了自己的专用小类码,以便区别。

【部件认同原则】:有一些字根虽然形状不同但字源相同,含义也相同,我们把它视作等价部件;还有一些字根可能字源和含义未必相同,但字形几乎一样,那么我们也将之视作等价部件;在我们的编码系统里它们被视作相同的元素,这就是部件认同原则。

本发明是一种计算机汉字输入方法,采用具有26个英文字母键的计算机键盘,其特征在于包括如下步骤:

(1)首先将汉字按照字源及构字机理拆分为字根序列,并把这些字根(约400多个)按照部件认同原则整理归纳为300个左右的部件,作为汉字的基本编码元素。

注:这里之所以给出300个左右的部件这个约数,是考虑到由于受到汉字集大小的影响,当我们分别考虑国标GB2312-80字集的6763个汉字和大字符集7万多个汉字时,部件的数量可能会略有增减,但相差极少。一般一些极罕用的部件都已经根据形并或者义并的原则加以归并。可能的部件数目范围为280~310。

然后,再将这些部件按照字源文化内涵或者形似特征的原则进行归类,主要是采用义并和形并的原则以及含义关联程度进行归纳,形成下面所示的28个大类。对于组字时容易混淆或者难以区分的形似部件按照形似依附处理,比如“日、曰”组字时一般难以区分,所以让“曰”依附于“日”,并入“日”类,不必理会“曰”含义是否和“日”有关,在组字时它们使用同样代码B。对于一些含义不明确的部件也采取形似认定或依据它在组字中的多数字源倾向进行认定和归并,尽量做到最合理的分类,并保持编码的一致性。

每个大类均按照形状或读音的联想对应到一个英文字母上,形成部件的大类码,即是部件的简易码:

自然:日月金木水火土 B D J M S W T;

生命:虫草人体心口手 K C R E Q O F;

民生:民言衣食住行财 N I Y U A L G;

字形:八叉横竖撇点折 V X H S P D Z;

其中,“月”、“点”均对应到D字母,“水”、“竖”均对应到“S”字母。

上述的28大类的编码映射,主要是根据象形和谐音来设计,以便帮助学习和记忆。部分还二者兼备,这使得学习起来非常容易,列举如下:

象形:日B 月D 金(刀J) 木M 水 S 火 W 土 t 虫(动物K) 人 R(亻r) 体 (耳E)心 Q 口 0 手 F 言 (讠i) 衣 Y 食U 住A 行L 财G;

谐音:草C 民(女N)金 J 木 M 水 S 土 T 人 R 体(耳E)。

(2)部件的编码和输入:每个部件由1~2个字母组成编码,少数还允许由3个字母组成。第一个字母即该部件的大类码。第二、三个字母称为部件的小类码(或称小码、子码)。小类码是按照部件的音形信息对应到26个字母,即:部件编码=部件大类码+部件小类码,部分部件仅有大类码,而小类码为空。

在实际运用时,部件的小类码是可以任意省略的,这时部件编码就是部件的简易码。部件的编码就是部件的计算机表示方式,是本发明的核心内容,通过部件编码就可以把部件输入到计算机中,也可以由它拼装出众多的汉字或词语,此外还可以结合拼音、笔画等其他信息得到更多的运用。

(3)单字的编码和输入:将汉字拆分成部件序列,并按照书写顺序或者部首层次拆分顺序排列,然后把部件替换为相应的部件编码,形成汉字的编码,将之输入计算机,即可得到相应汉字。

使用不省略小类码的部件码构成的汉字码,称为汉字的全息码。

如果部分或全部部件省略了小类码,那么构成的编码称为该字的简易码。

少数复杂的汉字还可以使用“子字组合法”来编码,就是把汉字拆成2-4块,看作一个词语,然后进行输入。比如“警”也可以看作“敬言”或者“苟攵言”这个词语,再运用词语编码规则进行输入,此法同样适用于拼音输入法(称为子字拼音法)。

(注:本发明所说的单字或汉字,为广义的汉字字符,包括Unj code有编码的各种象形或表意符号、偏旁部首、部件等。)

(4)少数部件在单独输入或者属于汉字最末尾部件时,允许设立有专用的小类码。所谓专用小码,就是该小码并不参与该部件的其他组字场合的编码,也就是说仅仅当它处于单独状态或者字的末部件状态时才使用。

(5)词语的编码和输入:顺序输入组成词语的各个汉字的编码(全息码或简易码)即可。其中每个汉字的编码可以不必完整输入,仅输入其前面两个或更多的字母即可;当词语为高频词语或者总码长达到4个字母以上时,每个汉字的编码可以省略为一个或更多的字母。一般对普通的双字词可以要求每个字输入2码,以减少重码的几率。(注:本发明所说的词语为广义的词语,包括词组、短语等汉字串。)

前面所述的部件,具体的编码映射安排如下,并附上简单的设计理由和助记特征:

【日B】日、颜色。B是日的象形符号。

日B(r) 曰B(v) ~冒B(m) 白By 黑Bw 黄Bx。

【月D】月。D是月亮的象形符号。

月D(v) 夕D(x) 丹D(a) 且Dh。

【金J】金属、兵器。J是金的拼音符号,也是刀的象形符号。

刀J 金Jr 戈 Jg 斤 Jn 弓 Jg 戊 Jp 殳 Jx 矢 Js 弋 Jy _介 J 干 Jg~临 J 矛 Jm~归 J%臧 Ja。

【木M】木。M是木的拼音符号。

木M 未Mv。

【水S】水。S是“水”的象形符号,也是“水”的拼音符号。

水S冫S(b)~S川S(c)。

【火W】火、天象、小字形。W是火的象形符号,也是“多笔对称体”的表征符号。

小W(x) 火W(u) 云Wy_亦W 不Wb 雨Wv 尚Wa 风Wf 气Wq 光Wr。

【土T】土、土山、石头、悬崖、山谷。T是土的拼音符号。

土T 阝Te 厂T(c) 山Ta 石Ti 士T(h) 谷Tv 阜Tf 邑Ty。

【虫K】动物。K是动物的象形符号。虫是古代对动物的总称。

牛Kn 犬Kq 隹Kz 羊Ky 虫Kc 马Km 鱼Kv 豕Ks 鸟Ki 巴Kb 虍Kh 亥Kr 互Kj象Kx 龙Kl 兔Kt 鹿Kl 豸Kz 鼠Ks 乌Kw 黾Ki 龟Kg。

【草C】草、十、植物。C是草的拼音符号。

艹C~前 C_六Cv 廾Cg 十C(s) C 丰C(f) 屮C 生Cp 廿Ch 井Cj 卌C(x) 丌C卅C(s)。

【人R】人形。R是人的拼音符号,也是人的象形符号。

人R 儿R(e) 亼Rj 亽Rj 入R(u) R。

【体E】躯体、器官。E是“目eye、耳ear”的英文符号,是“耳、而”的拼音符号,也是“耳”的象形符号。

目 E 尸 Ei 老El 耳Ee 见Er 页Ey 自Ez 欠Eq 疒Eb 而Eh 舌Eo 歹Ed 皮Ep 羽Ev 角Ej 身Es 面Ea 毛Em 骨Eg 牙Ey 髟Eb 齿Ec 飞Ef 血Ex 冎Eg 囟Ex 鼻Eb 肉Er 卵El。

【心Q】心理、鬼神。Q是心的象形符号,也是情的拼音符号。

心Q 卜Q(b) Q 示 Qs_乍Q 非Qv_才 Q 鬼Qg丄Q。

【口0】口。0是口的象形符号。

口0。

【手F】手、手部动作。F是手的象形符号。

手F寸Fd力Fl 工 Fg_于 F_举F。

【民N】人类繁衍、人际。N是女的拼音符号。

大N(r) 女Nv 子Nz 夫Nf 母Nm 氏Ns 民Ni 臣Nc 毋Nw。

【言I】文化、亠头。I是“讠”的象形符号。

言I亠I 方 If 六 Iv~享Io 文Ix 音Ib 高Io 亡Iz 册Ic 齐Ij 壴Iz 曲Iq~禀Ia 龠 Iv。

【衣Y】衣饰。Y是衣的拼音符号,也是衣的象形符号。

糸Y(s) 衣Yi 巾Yj 也Y 彡Y 幺Y(a) 镸Yc 革Yg 韦Yw 麻Ym~Yb 乡Yx。

【食U】食物、食器、器具。U是食器的象形符号。

匕U(b) 禾U(h) 竹Uz 米Um 甘Ug 凵 U食 Us 酉Uy_化 Uh 皿 Um 两 Ul 臼Uj 豆Ud 斗 Ud 辛 Ux 北 Uv 缶 Uf 瓦 Uw 耒Ul 鬲Ul 瓜Ug 香Ub 麦Um 卤Ul 鼎Ud 韭Uj鬯Uc。

【住A】居住:A是房子的象形符号。

宀冖冂 A 口 Ak 门 Am 广 Ag 罒 As 户 Ah 穴 Av 覀 Ax 爿 Aq~羊 Av 片 Ap西 Ax 四As 囱Ac 鬥 Am 罓 Ax。

【行L】脚部动作、出行。L是“辶”的象形符号。

辶 L 夂 L 止Lz 立Li 车Lc 彳 L 疋L(s) 足Lu 走Lt 行Lx 舟Lz 之 L 廴 L_年L 癶L 内La 舛L_夅 L 亍 L(c)。

【财G】财宝。G是“厶”和玉佩的象形符号。

厶G(s) 田G(a) 王G(w) 贝Gb 由Gy 玉Gd 壬Gr。

【八V】二、八字形。V是“丷”的象形符号,也是“双笔对称体”的表征符号。

八V(b) 二V(e)。

【叉X】叉形、手、爪。X是“叉形”的象形符号。

又 X 乂 X ナ X 攵 Xq 彐 Xj 爪Xz 聿Xv 支Xc_丈 X 采Xm %臼Xx。

【横H】横笔、横起笔部件。H是横的拼音符号。

一H 可Ho 尢Hy 匚Hk 丁Hd 七Hz 五Hu 甫Hp 无Hj 辰Hc。

【竖S】竖笔。S是竖的拼音符号。

丨S。

【撇P】撇笔、撇起笔部件。P是撇的拼音符号。

丿P 勺 Pk 几 P 用 Pv 千 Pq 及 Px 九 Pj 丸 Pd 凡 Pd~乐 Pz~卬Pz。

【点D】点捺笔。D是点的拼音符号。

、D。

【折Z】折笔、折起笔部件。Z是折的拼音符号和象形符号。

乛 Z 乚 Z ㄥ Z  Zk 卩 Zj 艮Zg マ Zj 己 Zj 巳Z(s) 乙Zy~已 Z~发Z 丩Zs丑Zt。

注:

1.以上带括号的小类码代表专用小码,仅仅限于该部件单独运用或属于汉字的末部件时使用,不参与其他组字情况的编码。

2.由于一些部件无法输入电脑,本文采取了变通表示法,用前缀下划线“_”、波浪号“~”、百分号“%”等符号来分别表示截取该字的前部件、后部件、或字架结构。“~”则表示取其前一个部件,如“~归”表示去掉右边“彐”后的字形,“~已”表示去掉后面的“乚”以后的形状;“_”表示取后面字的后一个部件,如“_介”表示去掉“人”后的形状,“_六”表示去掉“、”后的形状;“%”表示字架部件,如“%臧”表示去掉臣后的框架,“%臼”臼分开为两边的框架。

所有用这样方法表示的部件如下:

%臧%臼;

_丈 _举 _乍 _于 _亦 _介 _六 _化 _年 _才 _夅;

~发 ~临 ~乐 ~享 ~冒 ~北 ~卬 ~已 ~归 ~畄 ~留 ~前 ~禀 ~敝 ~罕。

3、一般一个大类里安排有一个或几个代表性部件,称为主根,通常设为单字母编码,而其余的字根则称为副根。同一个大类的部件(字根)亦称为同族字根。

小类码的编码是根据拼音或特征小部件来编码,这些设计原则可以帮助初学者学习和记忆:

a)对于形体上可以进一步分解的部件,我们一般取末尾构件的类别作为小类码,如:“見”可以细分为“目儿”所以小类码为“R”(儿);但尽量避开同类的构件,如行走类的“走”可细分为【土+_足】,但不取“_足”而取“土”,因为“_足”也属于“行走”类。

说明:这里所谓的可以细分,只是形体上的拆分,而不是“部件拆分”,因为我们编码的对象已经是“部件”,“部件”的定义我们给出了它是最小的不可以拆分的部件了,所以为了避免混乱,这里细分的元素暂且称之为“构件”。某种意义上,有些部件确实也算是可以拆分的,理应属于合成部件,但由于这些“合成部件”多数是长期稳定使用的传统部首,它们已经形成了自己的独立意义,所以我们依然把它看作不可拆分的部件。

比如:鼻=【自畀】(从自畀声),殳=【几又】(从又持几),【攴】=【口又】(从又持卜),都可以进一步拆开解释,但它们整体的含义已经相对地独立了。

此外有些形体虽然可拆,但拆开的构件已经发生了讹变。

比如“香”小篆应该拆解为【黍甘】,但楷书讹变为【禾日】,而且“香”本身已经有了特定的含义了,所以我们把它作为基础部件。

这就好比:词语是可以独立运用的最小语法单位。一些词语必须看作一个整体,不能拆开为单字道理一样,比如“马上”不能理解为“马的上面”,“马上”从“词语”层次来说是不能拆分的,但从“字”级别看自然可以分解为“马”和“上”。同理,部件“見”从部件层次说,是最小不可分的元素。但从构件一级看,可以再分解为“目儿”。

但本发明的编码方法的最小编码元素是“部件”,虽然对于小类码的编码借助了一些更细致的“构件分解”,但仅限于“小类码”编码设计这个环节的讨论。

b)对于字形较为复杂,或者独体的不易分解的基础部件,我们多数使用声母首字母来作为小码,少数使用韵母首字母。比如:动物类的“马ma”用m,“虎hu”用h。一般遇到“yu”或其开头的音,我们用“v”作为小码,比如“鱼Kv”、“聿Xv”、“羽Ev”、“月Dv”等,这些都是很容易学习的。少部分用的是韵母首字母,比如:“尸shi”小类码i、“石shi”小类码i、“山shan”小类码a。

为了保持编码的一致性,类似动物类这样元素较多的类别基本上都统一用拼音来做小码。一般同类型的部件小码设计方法尽量保持一致,比如““見=目儿”、“光=火儿”都是符合字源的拆法,它们的小码都是“儿r”。

当然也有少数小类码需要稍多点的记忆。比如:“面”用的是用“口”的类码A做小类码,“金”用的是“人”的类码R做小类码。“且”细分为“月一”,大类码归“月D”,小类码取“一h”。

每个大类的代表部件或者频度很高的部件设计为单码部件(没有小类码)。

前述一种计算机汉字、汉字部件输入方法,在进行中英文模式切换时,采用计算机键盘上的Caps Lock键。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【异体】键,用于显示目前候选字的异体字、形近字、关联字、讹误字等密切有关的字,具体键位可自定义。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【罕字】键,用于显示罕用字的候选,具体键位可自定义。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【简繁】键,用于简繁字的转换,具体键位可自定义。按下该功能键时,如果已经处在输入过程中,当前候选立即产生转换。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【词语】键,用于对第一个候选的“词语”进行自动上屏,具体键位可自定义,缺省为【;】。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【单字】键,用于过滤掉词语候选,只剩下单字候选,具体键位可以自定义,缺省为【’】或【-】,【’】除了是拼音的音节分隔符外,在部件码中也可以作为词语中各个单字的分隔符,当它位于编码末尾时,则具有单字过滤功能,将把前面的编码或从上一个分隔符起的编码,仅看作单字编码,不会进行智能切割。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【精确】键,按下时,则只匹配全部部件都已经输入的字词,其余一律屏蔽,具体键位可自定义。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【切词】键将自动把候选中的词语全部拆散为单字,供选取,具体键位可以自定义。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【帮助】键,激活帮助索引,导引初学者了解常用功能,或者进入帮助文档,具体键位可以自定义,缺省为【?】键。

前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有【通配】键,允许用来替代某个不会输入的编码,具体键位可以自定义,缺省为【?】,模糊通配符为【*】。

由于经过精心设计,我们有了一份完美、科学的“部件”表。这些部件确保了我们对汉字的拆分是容易的、直观的、和自然的,同时拆分结果也是符合汉字字源字理,能够很好地传承汉字的文化内涵。

由于汉字结构的复杂性,在实际的部件拆分中也有少数需要注意的规范和特殊规则。基本规则:

(1)尽量按照书写笔顺拆分,尽量让部件数量最少,常见部件优先于罕见部件。

例如:【章】拆为【音十】,不拆为【立日十】。

例如:“辛、殳、羽、音、香、鼻、欠”均为基本部件,不再拆开。

(2)在满足(1)的前提下,能拆分离的就不拆相接的;能拆相接的就不拆交叉的。

例如:“主”拆为【、王】分离,不拆为【亠土】相接。

例如:“半”拆为【丷キ】分离,不拆为【十】交叉。

例如:“朱”拆为【丿未】相接,不拆为【木】交叉。

(3)在满足(1)、(2)前提下,尽量避免单笔画部件。

例如:“午”拆为【十】,不拆为【丿干】。

特例规则:

(4)字架结构:有些部件由于与其他部件重叠或交错的缘故,导致书写时并非一次性写完,称为“字架”部件。其部件间的顺序以其首笔次序为准。

字架部件主要有“口、匚、戈(弋戊臧)、衣、木、禾、大、工、戈”,例如:

“衷”=【衣+中】

“束”=【木+口】

“哉”=【十+戈+口】。

“秉”=【禾+彐】

“乘”=【禾+北】

(5)共享结构:两个部件由于组字时某个笔画发生“串接”(连笔)或者“重叠”(叠笔),导致了该笔画变成“共享笔画”。对此情景应该把该共享笔画复制一份看待。以下是一些判定原则和举例:

(5.1)若不共享会让部件数增多,而共享了部件数会减少,那么就共享。

【连笔举例】

“我”=【丿扌戈】,横笔连在一起了,应剪断处理。

“制”=【牛巾刂】,竖笔连在一起了,应剪断处理。

“里”=【田土】

“重”=【千田土】

“垂”=【千艹士】

“羲戠戢”等,同理处理。

“果”=【田木】,竖笔连在一起了,应剪断处理。(未穿透的笔画,有用则留)

【叠笔举例】

“彖”=【彑豕】

(5.2)能简单拆开的则尽量不使用共享法则。例如:

“哉”=【十+戈+口】,不拆为【土+口+戈】。

“卸”=【一止】,因为“午”不是字根。

(5.3)穿插笔画如非必要,则不共享。

若居后的某部件的一个笔画,贯穿了前面的部件时,而且抽离该笔对其不产生坏作用(比如令部件数增多或使拆分复杂化),则抽离。

“疌”=【一彐_足】”,“_足”的竖笔上伸入“一彐”,均为穿透,而且抽离后也不影响那两个部件。所以抽离处理。以下同理。

“事”=【一口肀】

“史”=【口乂】

“串”=【口口丨】

“曳”=【日く丿】

“兼”=【彐_亦】

“隶”=【彐氺】

“妻”=【一肀女】

“禹”=【丿口禸】

(5.4)如果该笔为非穿透状态,并对前面部件的构成有作用,则剪断处理。例如:

“果”=【田木】。木的竖笔并未穿透上个部件,所以上个部件保留该笔,视作“田”。

“制”=【牛巾刂】。“巾”的竖笔延伸到上面部件,构成了“牛”部件,抽离则不成部件,故共享。

(6)以下几个汉字的下部的“_六”【一八】字形,从字源来看一般是“廾”或“丌”的变体,是“用双手捧着”或“基脚”的意思。拆分时需把它拆开如下:

共=【艹_六】

其=【甘_六】

具=【目_六】,“真”字类推。

兴=【ツ_六】

兵=【斤_六】

典=【冊_六】

舆=【车_六】,“興與舉”类推。

本发明还可以派生出一种汉字部件键盘,把部件或者大类标识直接印在英文字母键盘的相应的键帽上,形成汉字部件键盘。

和现有技术相比,本发明的计算机汉字、汉字部件输入方法具有如下特征及优点:

(1)基于汉字的字源和构字原理进行拆分,以传统的部首为基础,符合语文规范,很好地实现汉字文化的传承;

(2)包含汉字形体结构的全部信息,是一种全息编码。不仅能见字识码,而且能见码识字,这是现有的所有编码做不到的;

(3)所有的部件几乎都有唯一的编码(1-2字母),所以几乎不丢失汉字的信息;

(4)将部件科学地归纳为28个大类,初学者只需要记住这28大类就可以开始打字,几乎没有学习难度;

(5)编码撷取了全部的汉字部件信息,不做类似“前三末一”的残缺选择,不做码长的限制,汉字的编码是由它的全部部件的编码罗列而成,而部件本身编码几乎是唯一的,所以汉字信息几乎不丢失;

(6)母字和子字的编码机理一致,汉字子字的编码,一定包含在母字编码之中,而且彼此编码原理完全一样,比如:“菇”包含了子字“姑”,那么“菇”的编码CNCO,一定包含“姑”的编码NCO;同理:“姑”包含了子字“古”,那么“姑”的编码NCO,一定包含“古”的编码CO;

(7)词语和单字编码机理一致,“词语是由一组汉字组成”,和“汉字是由一组部件组成”,可以类比看待,也就是说,词语编码和汉字编码原理是统一的,所以不需要另外学习词语规则比如:“日月”这个词的编码是BD,“明”这个字的编码也是BD,因为他们的部件序列是一致的,你可以把“树”字假想成“木又寸”这个“词语”,进行编码。所以,本编码方法是一种真正的全息编码。

和现有技术相比,本发明的计算机汉字、汉字部件输入方法还具有如下优点:

1,部件拆分符合字源字理,汉字的拆分是根据汉字造字的原理进行的,300个左右的部件几乎都是传统汉字部首;

2,按照部件的文化内涵进行分类,把部件归纳为28个大类,符合汉字造字的科学性;

3,几乎不受新旧字形和简繁字形的干扰,换句话说,一般同一个字,我们怎么输入,港台人士也可以怎么输入,不需要分为两套编码,比如“鲜、鲜”是KvKy,“说、説、說”都是IVOV;

4,几乎不受笔顺争议的影响,这是许多基于笔画信息的编码无法做到的;

5,可以适应已经收入到Unicode中的全部7万多个汉字的输入,并且可以无限扩展;

6,没有码长限制,没有人为的部件取舍,有多少部件就取多少部件,确保汉字信息不损耗。

总之,本发明的一种计算机汉字、汉字部件输入方法易学、高效、科学,对于继承中华民族几千年的汉字文化具有重大意义,值得大力推广使用。

附图说明

图1为本发明的汉字部件键盘的部分结构示意图。

具体实施方式

本发明的计算机汉字、汉字部件输入方法,首先将组成汉字的所有字根按照义并和形并的原则归纳为300个左右的部件(见前面的列表),

再将这些部件按照含义接近、互相关联、形体类似的原则归类,形成28个大类(见前面的列表)。

并给每个部件定义了1-2个字母的编码(见前面列表)。

在将部件编码完成后,将汉字或词语拆分成部件,进行编码,按照编码顺序由计算机键盘上的26个英文字母键输入计算机。

当我们打开本输入法,并处于“部件输入模式”时,我们敲入一个汉字的的全息编码或者简易码,就可以输入相应的汉字。全息编码和任意省略小类码的简易码,均可以无切换地输入,它们统称为“部件码”。

在实际输入时,只需要输入编码的前面部分,软件就会把部分匹配字词显示出来,供选择。如果需要的汉字已经处于首选位置,那么直接敲入空格就可以上屏。如果处在其他序号位置,那么需要敲入相应的序号进行输入。如果第一页没有看到,也可以用翻页键进行翻页,直到看到需要的汉字,再输入相应的序号。一般地,对于初学者,只需要输入一个汉字的前面两三个部件的简易码就可以了,常用汉字一定会出现在首选或者首页,罕用汉字则需要进行翻页。对于词语,一般也是输入4个字母左右就可以得到该词语。对于熟练的盲打者,最好输入较完整的编码,也就是对于单、双部件的汉字尽量输入全息码,多部件汉字则多数可以输入为3至4码的简易码,少数较罕用的汉字有可能需要输入5码或更多码。

由于全息码的精心设计,实际上只要熟练掌握一些常用汉字的输入,基本上就解决了全部汉字的输入。因为,本方案的全息特征确保了任何一个“子字”的编码和母字保持相包容的关系。

比如:

你会输入“姑NCO”就一定会输入“菇CNCO”,因为只要前面增加“艹C”,其后面则完全照打。你会输入“寺TFd”,就会输入“等UTF”、“特KTF”、“持FTF”、“待LTF”、“诗ITF”等等。你会输入“青CD”,就会输入“情QCD”、“请ICD”、“清SCD”、“精UCD”、“静CDR”等等。哪怕是从来不认识的字,如“锖JCD”、“靔CDW”,也是一瞬间输入,因为都包含“青CD”这个“子字的编码”。熟练后,几乎就会变成下意识的习惯动作。不像其他的编码,需要类似“前三末一”这样的取码规则,那样将造成以上特征不一定成立。这就是“全息”的好处。

实施例一:汉字全息编码输入

按照汉字的书写顺序得到的部件序列,称为汉字的全息部件序列。把部件替换成相应的字母编码后,得到的字母序列,我们称之为汉字的全息字母编码,简称为汉字全息部件码(或全息码),在不会和后述的“简易码”产生混淆时也可以直接简称为部件码。部件序列不限制长度,必须包括全部的汉字部件,同样转译成字母也是。所以称之为全息码。

全息码示例:

【汉】=【氵又】=【S X】;

【字】=【宀子】=【A Nz】;

【编】=【纟户冊】=【Y Ah Ic】;

【码】=【石马】=【Ti Km】;

【示】=【示】=【Qs】;

【例】=【亻歹刂】=【R Ed J】。

我们使用大写字母表示大类码,小写字母表示小类码,这样容易区分,并确保编码连写的时候可以区隔部件边界,但是在本编码用于本发明的计算机汉字输入时,则可以不区分大小写。

实施例二:汉字简易码输入

编码方案给出了全息码的简易编码形式。简易码:也就是全息部件编码省略了全部或部分小类码的编码。

简易码设计的目的是:

(1)给初学者很低的门槛,只需要懂28个大类就可以打字。

(2)缩短复杂汉字的码长,一般3个部件以上的汉字,鼓励使用简易码输入。

由于经过精心的互斥设计,同一大类的部件互斥度很高,小类码负荷的信息量不高,省略它造成的信息损失不多,仅仅在双部件汉字中重码较为明显。如果一个汉字由三个部件或以上组成时,实际上简易码已经很少会重码。所以即便是“熟练的盲打者”,只要遇到三个部件或更多部件的汉字,大可以直接输入简易码。

但对于单部件或者双部件汉字来说,简易码重码会比较多,所以除了常用字以外,可能需要进行重码选择。不过重码还是比拼音少得非常多,而且对于多数常用字来说由于高频先见的排列,基本上属于首选,直接空格就可以。

对于初学者来说,简易码大大降低了学习的难度,几乎介绍完28个大类,及各自包含的部件后,就可以上机打字了。而且对于复杂构造的汉字,简易码避免的冗长的全息编码输入,大大提高输入效率。

对于全部省略小类码的部件码,我们称为“纯简易码”,简称简易码,或简码。对于省略部分小类码的部件码,我们也泛称之为“简易码”或“简略码”。如果拿目前流行的“全拼、简拼、混拼”来类比,那么这里的“全息部件码、纯简易码、简略码”就可以称为“全形、简形、混形”了。

一般情况下,对二部件汉字,建议至少对其中一个部件增加小类码,做成3个字母的编码,这样就几乎没有了重码。

简易码示例:

【部】=【立口阝】=全息【Li O Te】=简易【LiOT】=纯简易【L O T】;

【输】=【车亼月刂】=全息【Lc Rj D J】=简易【LRjDJ】=纯简易【L R D J】。

实施例三:词语简易码输入

词语也有相应的“简易编码”,除了撷取单字的简易编码组成的词语简易码外,我们还允许对每个单字的编码进行省略(允许缩短到前2个字母或更多),由此构成词语的简易编码。而且,对于常用词语,只要总码长达到4个字母或者词语属于高频词语时,那么也允许每个汉字码缩短为第一个字母。如果一个汉字本身的全息码就比允许省略的长度还短,那么就用全码即可。

比如:

【计算机】=【讠十 竹目廾 木几】=全息【I-C Uz-E-C M-P】=简易【ICUECMP】=简略【ICUEMP】=最简略【IUMP】=最简略【ICUM】。

【人家】=【人 宀豕】=全息码【R AKs】=简易码【RAK】。

【我们】=【丿扌戈亻门】=全息【PFJg RAm】=简易【PFJRA】=简易【PFRA】。

【中国人民】=全息【OS AkGd R Ni】=省略小码【OS AG R N】=部分省略字尾【OS AkR N】=最简略【OARN】。

(码长够4个字符,所以每个汉字可以简省到1个字符就够了)

实施例四:部首码

对于汉字的编码,一般按照书写顺序排列拆分出来的部件,遇到某个部件不是一次性书写时,只要考虑第一笔即可,即第一笔写了就等同该部件写了。这是最自然和常用的编码方式。

此外,汉字的编码还可以设计成以“部首层次拆分”顺序来排列部件,通常应用于字典正文的编排。这样的话,总是各层次的部首优先在前面,优点是(1)相同部首的汉字会排列在一起,有利于字典按义部编排。(2)一般部首是比较醒目的部件,也是汉字的“义件”,有利于迅速抓住汉字特征。当然,部首优先也有其弊端,因为有许多汉字部首位置并不容易确定,在实际应用时可根据需要选择。

以下是部首全息码的例子:

【运】=【辶云】=【LWy】;

【动】=【力云】=【FlWy】;

【例】=【亻刂 歹】=【RJEd】。

实施例五:部件的编码和输入方法:

部件是构成汉字和词语的基本元素,根据本发明设计的部件编码,很容易对各种部件进行编码表示和计算机输入,如:

“口”=【O】,“木”=【M】,“氵”=【S】、“羊”=【Ky】,“马”=【Km】,“衤”=【Yi】

实施例六:一种汉字部件键盘

参照图1,为本发明的一种汉字部件键盘的部分结构示意图,把大类标识直接印在英文字母键盘的相应的键帽上,形成汉字部件键盘,键盘的其他部分结构同普通的PC键盘相同。

上述仅为本发明的几个具体实施例,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

附录:一些字根变体清单

一些字根由于属于同源、同形、简繁体、新旧字形等关系而被看作等价部件或变体部件,在本说明书中它们视作同一个编码元素,一般使用其代表性的主形字根来表达,如“水”就可以代表“氵氺”等。以下是一些常见的变体:

冂(~周)、囱囱、户戶戸~所、门門、丬爿、覀襾、黑黑、黄黄、

艹艸艹(++)、丰丯、月冃、丹円、面靣、齿齒、歹歺、飞飛、骨冎、老耂、

身、见見、页頁、手扌、工ユ、无兂、匚ㄈ、尢尤、言讠、册冊、齐齊斉、

高高、聿肀_争、刀刂ㄉリ~州、戈~尧、金钅、龟龜龟、虎虍、鸟鳥(~岛)、

黾黽、彑~录、龙龍、马馬、牛牜、犬犭、兔兎、鱼魚、乌烏、羊、疋、

夊夂ㄆ、辶辵、禸(_禺)、车車、足、止(_足)、木朩、毋毌、卜~占、

心忄、示礻、ク、水氵氺_乑_眔~益、川巛巜_巟、冫、丨亅、厂、

两両兩、卤卥鹵卣、麦麥、食饣飠、酉戼、竹、八丷、_亦~业(业_亞_亜_虚)、

小、火灬、尚、风風、乂、又ス、彐(~隶)、攵攴、爪爫、糸纟糹、镸长長、

衣衤、韦韋、~已(コ)、ㄣㄅ、くく口ㄥ、~即艮、卩卪ㄗ。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号