首页> 中国专利> 双分汉字与双分输入法及合成字模

双分汉字与双分输入法及合成字模

摘要

本发明由双分汉字与双分输入法及合成字模组成,它将文字赋予技术属性,属于文字改革与汉字信息技术领域。双分汉字,将汉字、汉语拼音与输入编码融为一体,实现用标准ASCII码字符记录和传输汉语。双分输入法,作为双分汉字及现有汉字的输入方法,具有应用形式的多样性。合成字模,将汉字用规范的或个性化的部件字模合成。其意义在于:将文字改革与信息技术相结合,在信息领域实践文字改革,使汉字拼音化在文字自身演化,为汉字信息处理提供一种新形式。

著录项

  • 公开/公告号CN1376969A

    专利类型发明专利

  • 公开/公告日2002-10-30

    原文格式PDF

  • 申请/专利权人 李成跃;

    申请/专利号CN02108826.8

  • 发明设计人 李成跃;

    申请日2002-04-09

  • 分类号G06F3/023;

  • 代理机构

  • 代理人

  • 地址 642350 四川省安岳县岳阳镇杨家湾路4-615信箱

  • 入库时间 2023-12-17 14:23:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2011-06-15

    未缴年费专利权终止 IPC(主分类):G06F3/023 授权公告日:20050921 终止日期:20100409 申请日:20020409

    专利权的终止

  • 2005-09-21

    授权

    授权

  • 2004-06-23

    实质审查的生效

    实质审查的生效

  • 2002-10-30

    公开

    公开

说明书

本发明由一种双分汉字与一种双分输入法及一种汉字合成字模组成,它利用现有的汉语资源和信息技术,在信息领域实践汉字拼音化,并改进现有汉字信息技术,属于文字改革与汉字信息技术领域。

在现有的信息技术与现有的文字改革实践之间,缺少一种相互兼容并包(简称“兼容”)的具有技术属性的文字形式。具体表现在:(1)符号系统多。在个人使用方面,现已存在汉字、汉语拼音和汉字输入编码三种符号系统。汉字与汉语拼音,不便于信息处理,在文字改革中,将逐步走向汉字拼音化。汉字输入编码,没能将文字改革与信息技术相结合,游离于汉字和汉语拼音之外,种类繁多。在信息处理方面,文字与输入编码不统一,外码和内码不统一。(2)人机不通用。现有的汉语符号系统,不便于人和机器共同使用。汉字,字形不能很好地表示读音;汉语拼音,拼写存在不确定性:汉字输入编码,无文字功能。(3)文盲不便用。不识字的人,在现有汉语符号系统面前,不便录入和理解信息;不便于利用现有信息技术,进行“自助式扫盲”和学习。这种文字的技术属性,与现有汉语符号系统的根本区别在于,它不单是记录汉语的书写符号系统,还应是传输汉语的技术符号系统。现有的汉语符号系统做不到这一点。

现有的汉字存在“三难”,不便于信息处理。汉字,存在难读、难写和难记(简称“三难”)等缺点。为改变汉字“三难”,现有的作法是,给汉字标注读音和推行简化汉字。在汉字头上标注读音,不便于输入和排版;在汉字后边标注读音,先认的是汉字,不便于人(或机器)识别;在汉字前边标注读音,按现有习惯,似有些主次不分;这些标注,都没有赋予信息技术方面的意义。简化汉字,字形仍不能很好地表示读音。在现有信息处理中,简化汉字没能从总体上减少汉字的数量,汉字的不断简化,不便于现有的汉字信息处理。如何利用现有信息技术“简化汉字”,需要一种实践探索形式。

本说明为叙述方便,作如下约定。将已知汉字总数看作6万个,常用汉字看作7000个,其余看作“非常用汉字”。将国标GB2312-80(简称GB)收录的汉字看作常用汉字(“简体版”),其中的一级汉字,看作“一般能认汉字”。所谓“一般能认汉字”,是指在小学范围内,用于汉语拼音识字教学的(大约3500个)汉字,是一般人群都能识记的汉字。将国标GB18030-2000字符集,简称GBK。将双字词组,看作16800条(见于个别公开码表)或28600条(见于几种公开码表)。“传输汉语”,在本说明中,是指对汉语信息的输入、输出、传送或机器内部处理。

现有的汉语拼音,还不能用来记录和传输汉语。现有的汉语拼音,只有《汉语拼音方案》(简称《方案》)具有权威性、合法性。现有《方案》的缺点是,字词拼写与汉字字词存在不确定性,即一种拼写对应多个汉字。具体表现在(1)同音字词不便区分,(2)多义字词不易区别,(3)不便方言拼写,(4)不便拼写文言等方面。以同音字词为例。汉语拼音的基本音节416个(据《新华字典》),考虑音节标调,可以有1282种念法。在GBK范围内,每个基本音节平均有50个同音字,每种念法平均有16个同音字。在16800条双字词组中,有18%的词组拼写(不标声调)存在不确定性。《新华字典》中,基本音节“ji”,有同音字116个,念“ji4”的同音字有40个;基本音节“yi”有同音字125个,念“yi4”的同音字69个。汉语拼音的其它样式,如“注音字母”等,也有“字词拼写与汉字字词存在不确定性”的缺点。如何利用现有信息技术将汉语拼音连续地演化为汉字拼音化文字,也需要一种实践探索形式。

现有的ASCII码字符,不能直接用来记录和传输汉语。文字,在信息处理中,是采用字符代码表示的。国际上通用的字符代码是ASCII码。这种代码,用1个字节表示1个字符,全部字符128种,又叫做标准ASCII码。通用键盘的字符键与常用的ASCII码字符相对应。这种代码,给信息处理很多方便。但是,这种标准ASCII码字符,不能直接用来记录和传输汉语。当然,就更不能用标准ASCII码字符与汉字(或其形义特征),或汉字部件(或其形义特征)来记录和传输汉语。

现有的汉字代码,还存在缺点,需要改进:(1)按字编码,字符多,字模库庞大。GBK字符集中,已收录汉字2.7万个,需要庞大字模库支持。(2)代码种类多。汉字信息处理,需要输入码、机内码和传输码等多种代码。其中输入码又分很多种类。(3)未能表示全部汉字。汉字“字无定数”。对未收录汉字,“不便”处理。(4)不适应文字改革需要。为应用现有汉字信息技术,二十年前,就有人提到,“现行汉字就不能象过去那样分期分批地不断地简化”。文字改革,是一个不断发展变化的历史过程。现有的汉字编码,不能及时反映这个历史过程的发展变化。

现有的汉字输入方法,码表越编越长,语料库越做越大;软件功能越来越多,使个人的能动性越来越少;不利于汉语的个性化表达。“码表固定”,对于个人来说,存在大量的冗余编码;长期固定在某个范围内选词用字,特别是青少年,无形中,将造成语言僵化,个性丧失。汉字使用的个性化特征,是汉语的一种语言特色。在字词选用、语汇积累和习用句式等方面,人们都有自己的个性特点。个人常用的字词很少,习用语汇更少。人们需要适合自己个性特点的输入方法。一个好的输入法,对于个人来说,应该是:简单,易学,不忘记;一字一码,无重复;无个人不用的字词:拼形取码的“翻译”量小,大脑及眼睛不易疲劳;不影响思维的流畅性。要达到这个要求,现有的汉字输入方法,还有待改进。

现有的汉字输入编码,无文字功能。汉字输入编码,是专为汉字信息处理而编制的符号系统,种类繁多。音码,按汉字读音编码,重码多,与汉字的对应性差,不能作为文字使用。形码,按汉字结构编码,重码少,与汉字的对应性好,但汉字拆分过细,不便于“见码知字”,且无读音,也不能作为文字使用。音形结合编码,结合了两者长处,有汉字读音,有汉字的形义特征描述,与汉字的对应性好,但是,因着眼于汉字的编码输入,读音部分没有标志,不便于人机阅读和分词处理,汉字拆分过细,不便于“见码知字”,仍不能作为文字使用。

现有的音形结合编码,以自然码为代表。它以双拼词语输入为主。其单字编码,全码码长5码,格式为:音码〔声母+韵母〕+形码〔义部部件+部件2+部件3〕。多数部件的代码与其发声相近。但是,在单字编码方面,还存在形码的共有缺点:(1)汉字拆分过细,拼形取码量大。成字部件(约150个)选用较少,使汉字拆分过细,拼形取码“翻译”量较大。(2)部件代码仍有一定记忆量。(3)三部件以上汉字,结构表达不全。(4)同一编码,未能用于多种(包括标准和数字等)键盘。

现有的汉字字模,还存在缺点:(1)数量大。有1个汉字,就需要1个字模。(2)未能表示所有汉字。未收录汉字,没有字模。(3)新造的汉字字模,缺乏规范性。(4)字模“众人一体”,无个性特色。

本发明的目的是提供一种双分汉字与一种双分输入法及一种合成字模,(1)为信息技术与文字改革实践,提供一种相互兼容的具有技术属性的文字形式;(2)逐步解决汉字“三难”,使汉字简化,在文字自身完成;(3)克服汉语拼音的缺点,使字词拼写具有确定性;(4)实现用标准ASCII码字符(或用标准ASCII码字符与汉字或其形义特征,或用汉字部件或其形义特征横排)记录和传输汉语;(5)改进汉字代码,减少其数量(或种类),实现所有汉字的代码表示,适应文字改革需要;(6)改进汉字输入方法,以利于汉语的个性化表达;(7)使汉字输入编码具备文字功能;(8)改进音形结合编码,使汉字拆分最大化,降低拼形取码的难度;实现部件代码不用记忆;汉字结构全面表达,以利识字教学;将同一编码,应用于多种(包括标准和数字等)键盘;(9)精简字模,实现所有汉字的字模表示,使字模风格个性化和新造字模规范化。

本发明的目的是这样实现的:

(1)为信息技术与文字改革实践,提供一种相互兼容的具有技术属性的文字形式。双分汉字,将汉字、汉语拼音和汉字输入编码融为一体。它在形态上,是汉语拼音与汉字(或其形义特征)的结合体,或为汉字部件(或其形义特征)的结合体,“汉字输入编码”,是自身的一种样式。它在功能上,将汉字、汉语拼音和汉字输入编码的功能相综合。采用双分汉字的全字符样式,可以实现用标准ASCII字符记录和传输汉语。采用双分汉字,可以精简汉语符号系统,做到人机通用,利用现有信息技术改革文字,既能用于信息处理,又能用于文字改革实践,实现信息技术与文字改革在文字使用上的相互兼容。不识字者,可以“比照”双分汉字文本,“依样”录入信息,“不自觉”地输入汉语读音和形义特征,在现有技术帮助下,理解信息;还可以进行自助式扫盲,即利用现有信息技术,“自觉”地学习和使用双分汉字,学习其它文化知识。

(2)逐步解决汉字“三难”,使汉字简化,在文字自身完成。汉字难读,就用双分汉字的读音部分,给每个汉字标注读音。汉字难写、难记,就在双分汉字的形义特征部分,用少量的易于识记的形义特征来描述汉字的形体。将这些形义特征横排,既简化了汉字结构,又简化了汉字的书写。当双分汉字的形义特征描述,逐步过渡到全字符样式,就可以逐步解决汉字“三难”。双分汉字,用较少的形义特征来表示较多部件组成的汉字,有助于汉字部件的特征化、轮廓化、符号化:用部件“读音”作代码,实现部件的“同音归并”,可以减少部件代码的数量;用部件的横排书写样式,可以简化和统一汉字的结构类型;利用自身形态演化规律,可以逐步减少汉字的形义特征描述;在不增加现有汉字总量和不影响使用的前提下,在文字内部,通过自身形态演化,起到简化汉字的作用。移用现有信息技术,有利于这一目的的实现。如,移用“屏幕提示”、“码表反查”及“字词频率统计”等现有技术,使字词的形义特征描述,既有全面精细的全码,又有实用简洁的简码;使简码描述,在具体的语境中不产生歧意;做到简化汉字的“字源”(来路)清楚,“简化”实用。

(3)克服汉语拼音的缺点,使字词拼写具有确定性。利用双分汉字的形义特征描述,对汉字的字形和字义进行描述,使同一读音的汉字,具有各自不同的形义特征描述;再将读音部分与形义特征部分结合,就能实现字词拼写与所有汉字字词具有确定性。字词拼写的确定性,为汉语拼音走向汉字拼音化提供了前提条件,也为信息处理提供了方便。同时,可以利用现有汉字信息技术,如“高频先见”,“用过提前”和“输入提示”等,对汉字拼音化实践进行诱导、优化和规范。

(4)实现用标准ASCII码字符(或用标准ASCII码字符与汉字或其形义特征,或用汉字部件或其形义特征横排)记录和传输汉语。利用双分汉字,将其形义特征部分拼写(或转换)为字符样式,就能用标准ASCII码字符表示所有汉字。实现用标准ASCII码字符记录和传输汉语,就能在信息技术领域,实践汉字拼音化。如采用标准ASCII码字符与汉字或其形义特征相结合的方式,或采用汉字部件或其形义特征横排格式,表示所有汉字,可得到双分汉字的其它应用样式,实现汉语记录和传输的多样性,以满足文字改革的需要。

(5)改进汉字代码,减少其数量(或种类),实现所有汉字的代码表示,适应文字改革需要。①采用双分汉字的全字符样式,用标准ASCII码字符记录和传输汉语,将精简众多的汉字“输入码”,将“输入码”、“机内码”统一为标准ASCII码,可减少汉字代码的种类和数量。若输出为标准ASCII码字符,字模库容量可以做得很小。若输出为双分汉字的其它样式,机内码、字模库汉字部分的内容,可定义为已编码汉字,或常用汉字及部件,或汉字部件等。后两种定义,可减少汉字代码(含字模)的数量。输出可以转换为汉字、双分汉字(部件横排格式)及合成汉字等样式(需要相应的码表和字模库支持)。②采用双分汉字其它样式记录汉语,可以减少输入码的数量,机内码、字模库汉字部分的内容,可定义为已编码汉字,或常用汉字及部件,或汉字部件等。后两种定义,可减少汉字代码(含字模)的数量。输出可以是汉字、双分汉字(部件横排格式)及合成汉字等样式。③汉字是由部件合成的,双分汉字具有字词拼写的确定性,对于未收录汉字,也可采用上述两种样式表示,实现所有汉字的代码表示。其输出可定义为汉字、双分汉字(包含部件横排格式)及合成汉字等样式。(4)采用双分汉字,用规范的拼写标记汉字的读音,用规范的字符(或字符与部件)编码描述汉字的形义特征,生规范的汉字编码,汉字的简化与新字的添加,将不受现有编码方式的制约,可以不断吸收汉字拼音化成果,有利于文字改革实践。

(6)改进汉字输入方法,以利于汉语的个性化表达。利用双分汉字字词拼写的确定性,实现单字“一字一码”,无重码;选词编码,不用重码。利用双分汉字记录和传输汉语的多样性,可以选择自己喜欢的语言记录样式;利用双分输入法编码方式的多样性,编码格式自定义,可以选择自己喜欢的文字输入样式;采用“按需选型,以码选字”的方法,使用者可以根据自己的需要,选用编码的类型:以自己选用码型提供的码位,安排自己习用的字词;在选择文字样式、输入方式的同时,还可以定义自己喜欢的输出方式。学会一种输入方法,可以在标准键盘和数字键盘等多种键盘上使用。

(7)使汉字输入编码具备文字功能。双分汉字的输入编码,是双分汉字的全字符样式。它具有读音和形义特征部分,或只有形义特征部分。它既可作为现有汉字和双分汉字自身的输入编码,又可作为记录汉语的文字。读音与形义特征分别描述,便于汉语的人机阅读和分词处理。

(8)改进音形结合编码,使汉字拆分最大化,降低拼形取码的难度;实现部件代码不用记忆;汉字结构全面表达,以利识字教学;将同一编码,应用于多种(包括标准和数字等)键盘。双分部件,用其读音的代码表示,知读音就知代码。用其书写的笔画代码表示,看笔画就知代码;读音代码与笔画代码的指代对象标志在键盘上,不需要记忆。“汉字两分”,一个汉字只有“选出部分”和“剩余部分”,实现了汉字拆分最大化和汉字结构的全面表达,降低了拼形取码的难度和有助于识字教学。由于汉字编码可用字符表示,也可用数字表示,使同一编码方案,能应用于多种(包括标准和数字等)键盘。

(9)精简字模,实现所有汉字的字模表示,使新造字模规范化和字模风格个性化。①将汉字输出(包括显示、打印等)为双分汉字(部件横排)样式,用少量的部件字模组合,输出所有汉字,可以精简字模,其汉字部分可以只保留部件字模。②采用合成字模,可以精简字模,其汉字部分只保留部件字模,实现所有汉字的字模表示,输出为合成汉字。汉字是由部件合成的。采用规范的部件字模,按照规定的合成数据,生成规范的汉字字模,将精减字模库的内容,实现所有汉字的字模表示,并能实现新造汉字字模规范化。合成数据,可以是按部件单独描述的部件数据,也可以是按结构分类整体描述的结构数据,给人机应用以方便。结构复杂的部件字模,可以用结构简单的部件字模合成。利用个性化的部件字模,按照定义的合成数据,生成个性化的合成字模,输出为个性化的合成汉字。

比较现有技术,本发明有如下优点:

1.双分汉字,将汉字、汉语拼音与汉字输入编码三种符号系统融为一体,精简了现有汉语的符号系统,有利于节省社会资源;双分汉字的创造性在于,充分利用现有资源,使文字具有技术属性,使输入编码具有文字属性;有助于自助式学习(或扫盲)。

2.双分汉字,为汉字简化,提供了一条技术实现途径。它使汉字简化,在文字自身结构中演化,不增加新字。汉字的形义特征描述,在汉字拼音化过程中,逐渐简约。特别是双分汉字的部件横排格式,使汉字结构,一开始就统一为左右横排,有利于书写和识记。在信息技术领域,实践汉字简化。

3.双分汉字,使汉语拼音的字词拼写具有确定性;从汉语拼音走向汉字拼音化,可以通过自身的形态演化完成,实现汉字拼音化连续过渡。为汉语拼音走向汉字拼音化,提供一条技术途径。

4.双分汉字,既能表示汉字的读音,克服现有汉语拼音的缺点,又能继承汉字读音形义相结合的长处;既可阅读,又可欣赏;实现人机共用,识字者与不识字者共用。

5.应用双分汉字,可实现用标准ASCII码字符(或标准ASCII码字符与汉字或其形义特征组合,或汉字部件或其形义特征组合)记录和传输汉语,将改善现有汉字信息处理的条件。

6.采用双分汉字,将减少汉字代码的数量(或种类),实现所有汉字的代码表示,使汉字输入编码具有文字功能,汉字简化和新造字词将不受现有编码方式的制约,有利于文字改革。

7.改进了现有音形结合编码。双分输入法,采用“汉字两分”,使汉字拆分最大化,降低了拼形取码的难度;实现部件代码不用记忆;汉字结构全面表达,有利于识字教学;同一编码,能用于多种(包括标准和数字等)键盘。

8.精简字模,实现所有汉字的字模表示。采用双分汉字(部件横排格式)或汉字合成字模,可以将现有汉字字模精简为只有汉字部件字模,并能表示所有汉字。特别是采用汉字合成字模,可以将所有汉字(包括新字)表示为合成汉字的样式。合成汉字的普及应用,将促进汉字操作系统的改进。

9.使用双分汉字,是对社会资源的合理移用。在汉字信息处理中,使用双分汉字,有利于汉字信息的记录和传输。现有的汉字输入,比拼音文字多一道手续,即上机前要学习编码,上机后要不断“翻译”编码。在汉字识记不易的基础上,还得学习一套(或几套)抽象的代码符号。如用这些精力,来学习和使用双分汉字,实践汉字拼音化,是对社会资源的合理移用。

10.双分汉字通过自身形态演化,具有多种应用格式,可以适应汉字拼音化进程的多种需要,满足不同人群的具体需求。

11.采用字模合成方法,生成合成汉字,为汉字信息技术,增加了新的汉字输出样式,有利于现有操作系统的改进。既可实现字模合成规范化,还可实现个人字模个性化。

12.双分汉字的输入方法,通用于(包括标准和数字等)多种键盘,可节省智力资源。

13.改进汉字输入方法,有利于汉语的个性化表达。一字一码,选词编码,使汉字输入“返朴归真”,节省社会资源。个性化的文字样式,个性化的输入方式,个性化的输入码表,个性化的输出方式,有利于汉语的个性化表达。

以下对本发明作进一步说明。

一、双分汉字

双分汉字,是一种汉字拼音化信息化过渡文字(建议方案)。在形体上,它是汉语拼音与汉字(或其形义特征)的结合体,或为汉字部件(或其形义特征)的结合体;在功能上,它将汉字、汉语拼音与汉字输入编码融为一体:在应用上,它具有拼写样式的多样性,以适应汉字拼音化实践的需要;在技术上,它为信息技术和文字改革实践,提供一种相互兼容的具有技术属性的文字形式。如汉字“树”,它的双分汉字,具有①shu4(树)、②shu4`树(树)、③shu4`木对(树)、④shu4`mu-dui(树)、⑤shu4`木(树)、…、⑥`木对(树)等多种样式。这些样式,都能用于汉字信息处理。所谓“双分”,一是指它可以具有读音和形义特征两个部分,二是指它描述形义特征的主要方法是“汉字两分”。“双分汉字”的名称,可以在汉字拼音化实践中更新。其主要特征是:(1)具有读音部分和形义特征部分,(2)或只有形义特征部分;(3)字词拼写与所有汉字具有确定性;(4)采用标准ASCII码字符记录和传输汉语;(5)或将标准ASCII码字符与汉字(或其形义特征)相结合记录和传输汉语;(6)或将汉字部件(或其形义特征)横排书写记录和传输汉语;(7)将信息技术与文字改革实践相结合。双分汉字,作为汉字拼音化信息化实验工具,它具有:(1)开放性。在形式和内容上,既能吸收,又能扬弃。它的每个部分(包括分隔符号)都可以根据实践需要定义取舍。(2)确定性。字词拼写,与汉语及汉字相互对应,具有确定关系。(3)灵活性。可根据应用场合和使用对象的不同,选用(或自动生成)不同的实用样式。(4)稳定性。以某一部分的规范性,作为灵活应用的前提。(5)技术性。将汉字拼音化与汉字信息技术相结合,将汉语符号系统赋予技术属性。

双分汉字,具有读音部分和形义特征部分。读音部分,描述汉语读音,供人(或机器)阅读。形义特征部分,描述与同音字词的区别特征(在必要时使用),助人(或机器)理解,供人欣赏。

双分汉字的“读音部分”,是汉字拼音化规范的直接应用。当前,就是按照《汉语拼音方案》和《汉语拼音正词法基本规则》的规定,拼写字词及记录汉语。音节拼写,可采用汉语拼音的全拼、双拼以及其它样式。全拼,是汉语拼音的标准样式。音节中各个字母全部写出。双拼,将声母、韵母或字母(或其组合)用1个字母代码表示,1个音节,最多2个字母,是全拼的简化样式。音节拼写的其它样式,包括现有的简拼,或今后可能出现的新样式。声调标在基本音节后面,用数字表示或用字母表示。这里,用数字“1、2、3、4”表示汉语四声。声调标记,在实际应用中,也可以省略。音节拼写,尽量减少符号应用,尽量采用基本音节样式。汉语拼音,只有《汉语拼音方案》具有权威性和合法性。采用汉语拼音其它样式标注的汉字读音,可以转换为《方案》的样式;如暂不转换,可在一定范围内,作为双分汉字的特殊过渡形式;本说明,不作进一步叙述。非汉语读音的汉字,如“日韩汉字”,可以用汉语拼音标注当地的规范读音,或不标读音,只采用形义特征描述,在一定范围内使用。

双分汉字的“形义特征部分”,是对汉字传统的继承和发扬。形义特征部分的作用,主要是描述汉语中同音字词在字形和字义上的区别特征。这些特征,表现在汉字的形态、结构类型、部件(或笔画)组合与字词联系等方面。描述这些特征,就是找出字词与别的同音字词的区别,是实现字词拼写与所有汉字字词具有确定性的根本方法。形义特征部分,具有开放性,即特征的描述方法和选用数量不受限制,可以根据实际需要确定,在使用中具有很大的灵活性。这种灵活性,又以一定规范为基础。形义特征的规范描述,以字形特征为主,字义特征为辅,在特征数量上力求尽“数”。形义特征的灵活选用,以不出现歧义为前提。尽量减少特征描述的数量,使双分汉字努力向单纯的汉语拼音靠拢。形义特征的灵活选用,还可借助于已有的信息技术。一种简易做法是:①自动记录已输入双分汉字;②将各项特征存放于数据库表;③将正在输入的双分汉字与已有记录对照;④如出现雷同,给出提示,并提供规范描述;⑤经确认后,自动补正现在(或先前)输入的双分汉字。利用形义特征部分,还可以描述一些信息字符现象。如,“xiao`《∶·)”,表示“笑”。描述形义特征的方法,主要有:汉字两分、笔画代码和联词取字等。

汉字两分,是根据汉字在“字形”方面的特征来描述汉字。它既是汉字特征描述方法,又是汉字拆分方法。它从汉字的结构形式、部件(笔画)组合、文字意义、逻辑关系和审美习惯等方面,把汉字分成两个部分。其中,结构形式和部件(笔画)组合,是汉字两分的主要思路。将汉字两分,先选出的叫“选出部件”(或叫做“选出部分”,简称“选出”),余下的就叫做“剩余部件”(或叫做“剩余部分”,简称“剩余”)。选取的顺序是:①按书写先后(或笔顺)选取;②或按“成字优先”、“取大优先”的规则选取。汉字两分的一般规则包括:①相离可分、②相连可分、③成字优先、④取大优先和⑤意连不分。其规则定义为:①相离可分,是指汉字在结构上存在相互分离的几部分,就可两分;②相连可分,是指汉字在结构上可看作由几个部件连接而成,就可两分:③成字优先,是指优先考虑两分为成字部件的方案;④取大优先,是指优先考虑两分为结构最大的部件;⑤意连不分,是指笔意相连的几个离散笔画,看作一个整体,如“爫”,不拆分。这些规则,在具体应用中需要综合考虑。汉字两分得到的“选出”和“剩余”两部分,有读音的,用其读音作为代码,无读音的,用其书写笔画作为代码(或用其它形义特征代码表示)。汉字两分举例:①“甜”,看作“舌”与“甘”;“霰”,看作“雨”与“散”;按结构类型两分;“甜”,左右结构;“霰”,上下结构。②“弗”,看作“弓”与;“井”,看作“二”与:按部件组合两分。③“乂”,看作“丿”与“”;“十”,看作“一”与“丨”;按笔画组合两分。④“白”,看作“丿”与“日”;“丰”,看作“三”与“丨”;按笔画与部件组合两分。⑤“微”,看作“彳”与:“荒”,看作“艹”与“巟”;按文字意义两分;把“巟”看作字。⑥“乙”,独笔字,看作“乙(有笔画)”与“″(无笔画)”;按逻辑关系两分;可用字母“w”表示无笔画。⑦“山”,看作“丨”(选出部分)与“凵”(剩余部件);按逻辑关系两分;笔画的有无,部件的选出和剩余,是一种逻辑关系。⑧“爵”,看作和;“器”,看作和“犬”;按审美习惯两分;“爵”分成上下均等两部分;“器”不分成“哭”与“吅”。汉字两分,可以克服现有单字拆分的缺点。如“微”字,以自然码为例,按部件对应,可以拆分为“彳、山、一、几、攵”等5个部件,拆分较细;编码最多取3码,丢掉2个部件,结构表达不全;部件代码需要记忆。汉字两分,将“微”字拆分为“彳”和,两个部分,实现了汉字拆分最大化和汉字结构全面表达。在汉字两分中,象“彳”、“山”、“一”、“几”、“攵”等部件,都能用读音作为代码。如有必要,汉字两分可以逐级进行。如“福”,可先拆分为“礻”与“畐”两部分;“畐”,又可拆分为与“田”两部分;,还可以拆分为“一”与“口”两部分;“福”的全部基本部件为:“礻、一、口、田”。汉字两分采用“成字优先”规则,目的是使汉字拆分后,部件尽量能认,尽量采用部件的读音作代码,以利于汉字拼音化。但识字水平(多少),存在个体差异。在具体应用中,还要考虑,尽量拆分为“一般能认汉字”(近似GB中的一级汉字)。象“鬲”,就不属于“一般能认汉字”。这种成字部件在“汉字两分”中有近200个(在GB范围内),约占部件总数的10%。可以这样处理:①保留其读音代码,供认识者使用;②提供笔画代码(或其它形义特征代码),供不认识者使用;③或对其继续拆分,取下一级部件作为代码;④在双分输入法中,可采用“汉字(和部件)候选”等现有技术加以解决。在“汉字两分”中,有时会出现“同读”现象,即部件的音节(或基本音节)与汉字的音节(或基本音节)相同。对于“同读”,可作如下处理:①保留现有部件的读音代码,对其进行下一级两分,再增加1个新代码;②舍去现有部件的读音代码,对其进行下一级两分,提取1个新代码。两分部件的读音代码,可以表示为汉语拼音的全拼样式,或双拼样式,或其它样式。对成字部件中的多音字,取其“一般读音”作为代码。所谓“一般读音”,就是在多音字的读音中,较通行的一个读音:具体表现为,使用频率高,组词记录多;本说明暂将《新华字典》中标注为“”的读音作为“一般读音”。双分汉字的部件,可以叫做双分部件(或两分部件)。双分部件用读音作代码,可实现部件的“同音归并”,有利于汉字简化。

笔画代码,根据汉字或部件的书写笔画的“特征”来描述汉字。它由基本码和特征码组合而成。这里列举两种。一、小笔画代码(简称“笔画代码”),用10个代码来表示笔画“特征”。(1)“数字代码”样式:①将基本笔画分为“横竖撇捺折拐”六种;其中,“折”为运笔向顺时针转,“拐”为运笔向反时针转:“折”与“拐”分列,是考虑到它们包含的笔形太多;用“1、3、5、7、9、0”数码表示,叫做基本码。②以笔画与其它笔画有无交叉作为“特征”,凡是“横竖撇捺”笔画上有其它笔画交叉的,用“2、4、6、8”数码表示,叫做特征码。两者组合,“1、2、3、4、5、6、7、8、9、0”,这十个数码就叫做“横竖撇捺折拐”的“数字代码”。按书写顺序,用它给字符编码。如“ナ”,笔画代码为“26”,“丆”,笔画代码为“15”。(2)“字母代码”样式:数字代码中的数码“1、2、3、4、5、6、7、8、9、0”,如用字母“g、h、f、j、d、k、s、l、a、m”替代,即得到“字母代码”。如上面的“ナ(26)”,字母代码为“hk”,“丆(15)”,字母代码为“gd”。字母代码,比较适合标准键盘使用。字母代码,也可用一组其它字母替代。二、大笔画代码,用25个字母代码来表示笔画“特征”。①将基本笔画分为“横竖撇捺折”五种,分别用数码“1、2、3、4、5”表示,叫做“基本码”;这里的笔画“折”,包括前面述及的笔画“拐”在内;②根据笔画与别的笔画的“交连”情况,分为“独、首、中、尾、交”五种状态,又分别用数码“1、2、3、4、5”表示,叫做“特征码”。这五种状态定义为:“独”,不与别的笔画相交连;“首”,起笔与别的笔画相连接;“中”,笔画中部与别的笔画相连接;”尾”,笔画尾部与别的笔画相连接;“交”,笔画与别的笔画相交叉。将基本码与特征码相组合,就得到25种大笔画代码。如“儿”,大笔画代码为“3151”,“几”,大笔画代码为“3252”。每种大笔画代码,又可用1个字母符号表示。大笔画代码的数字组合与对应字母及其键位定义,见“双分汉字与双分输入法的键盘定义”部分。两种笔画代码,从字符笔画上直接读出,不需要记忆;代码的相应笔型可以标志在键盘上。

联词取字,是根据汉字在“字义”方面的特征来描述汉字。常用汉字的60%都可以组成常用双字词组。平均每个单字,至少与7个常用双字词组相关联。这些单字,平时以联词方式应用。如需单独输入,则先输入该字的读音,作为读音部分,再输入另一字的读音,作为形义特征部分;如取联词的后一个字,则在字末加“~”,表示简省。(1)某字在词组前,如“伟”,写作“wei3`da4”(“伟大”的“伟”):(2)某字在词组后,如“密”,写作“mi4`yan2~”(“严密”的“密”)。联词取字,存在“一字多码”现象,但并不影响理解和拼写的确定性。因为,常用词组的重码率不高,低于20%;有重码的词组,还可以增加形义特征描述的长度。联词取字,适用于常用字词的单字字义特征描述。单字的联词取字拼写,还可以作为另一字词的形义特征,形成联词取字的循环叠套格式,供信息处理使用。

双分汉字对汉字形义特征的描述,还可以采用其它方式。(1)结构类型。以汉字的结构类型作为汉字的形义特征。汉字结构类型,一般有左右结构、上下结构、杂合(包围)结构等三个大类。它可以分别用数码“1、2、3”表示。每个大类中,又有多种样式,将其排序,又分别用数码“123…”表示。如“霞”字,属上下结构(“2”)中的第4种样式,记作“24”。(2)字形特征。形近汉字(或部件),在字形形态上存在细微区别,也可作为汉字形义特征。如“囗、口”有大小不同、“日、曰”有长扁之分。将这些“大、小、长、扁”作为形义特征,可以分别用其声母“d、x、c、b”表示。(3)笔画差异。相同的笔画,在书写中也有“长短”差异,“平竖”不同。如“土、士、未、末”等,存在笔画的“长短”差异。可以用“长短”的声母“c、d”表示。(4)交连部位。相同笔画,在书写中与别的笔画相交连,也有各种不同的细微区别。如交连部位,有“首、中、尾”的区别。“首”,指笔画的开头;“中”,指笔画的中部;“尾”,指笔画的末端。如,“刀、力”,书写笔画相同,但交连部位不同,一个是“中首”交连,一个是“中中”交连。这种“首中尾”区别,可以用拼音字母“s、z、w”表示。(5)笔画细分。相同笔画大类,如“折”,包含很多具体的笔画。如“勹、”等部件的第二笔,在汉字输入笔画分类中,同属“折”类,但它们的笔画名称不同。可用汉字笔画的名称表示这些汉字部件,并用来作为汉字的形义特征。“勹、”,笔画名称分别是“撇横折钩”、“撇横钩”、“坚撇横折钩”。可将笔画名称用其声母表示,如“撇横折钩”,表示为“phzg”,作为部件代码。(6)部件命名。一些结构偏旁(部件)没有名称,可给这些偏旁(部件)统一命名,以便于用读音编码(或自然语音)输入。如(“敖”字旁)、(“寒”字头)等,没有统一命名,就不便于用读音描述。若给予“ao”、“han”等读音代码,有时就比笔画代码方便。(6)规范应用。如不要求“拆分最大化”,可利用现有汉字的研究成果,如规范部件、五笔画等,对汉字进行形义特征描述。这些“其它”方式的形义特征描述,可用于特殊情况,比如,对两个形近部件或相同笔画作精细描述。可用数字或字母作代码;相同的代码符号,在不同的前提下,表示不同的区别特征。

双分汉字的拼写原理。双分汉字的一般样式为:〔读音部分〕`〔形义特征部分〕。读音与形义特征两部分间用分隔符号“`”隔开(也可定义为别的符号,或不用符号隔开)。读音部分,前面是字词的汉语拼音,后面是汉语声调。音节拼写,遵照《汉语拼音方案》和《汉语拼音正词法基本规则》的规定。形义特征部分,用汉字、汉字部件或其它字符,描述汉字形义特征;每个特征间用分隔符号“-”隔开(或不用符号隔开,或定义为别的符号,如“()、·、+”等)。形义特征的取用,根据需要确定。(1)单字拼写。如“霸”字,读音为“ba4”,声调代码为“4”,形义特征取全部部件,为“雨、革、月”,代码是其读音,相应为“yu、ge、yue”,其全码样式(即写出所有形义特征代码)的双分汉字为“ba4`yu-ge-yue”(霸),或“ba4`yu-(ge-yue)”(霸);形义特征,取1个部件,如取“雨”,代码是其读音“yu”,其简码样式(即写出部分形义特征代码)的双分汉字为“ba4`yu”(霸)。单字的形义特征也可表示为汉字、汉字部件或其它字符样式,如“霸”字,其全码样式为“ba4`雨(革月)”(霸),简码样式为“ba4`雨”(霸)。(2)词组拼写。如“前进”,读音为“qianjin24”,声调代码为“24”,形义特征取全部部件,为“、刖、井、辶”,代码是其读音或笔画代码,相应为“sdg、yue、jing、sas”,其全码样式的双分汉字为“qianjin24`sdg-yue-jing-sas”(前进),或“qianjin24`(sdg-yue)-(jing-sas)”(前进);形义特征,取1个部件,如取“月”,代码是其读音“yue”,其简码样式的双分汉字为“qianjin`yue”(前进)。词组的形义特征也可表示为汉字部件样式,如“前进”,全码为“qianjin24(刖)-(井辶)”(前进),简码也可看作“qianjin`月”(前进)。(3)双分汉字的拼写,也可由输入法提供。其简便的做法是,利用现有汉字输入技术,建立双分汉字码表,通过输入汉字或其代码,反查双分汉字的拼写编码,可得到双分汉字的多种样式的拼写编码。由“双分汉字”可直接读出双分输入法编码,如“ba`yu”(霸)和“qianjin`yue”(前进),其双拼输入编码是“ba`yu”(霸)和“qmjn`yt”(前进),或省略分隔符号,为“bayu”(霸)和“qmjnyt”(前进)。双分汉字的读音部分,可以表示成“全拼”或“双拼”样式,以及其它样式。在汉语拼音中,韵母“ü”,在需要写成“ü”时,可用字母“v”代替。双分汉字的拼写,除一般样式外,还可以有多种灵活的拼写样式,以适应汉字拼音化实践的需要。

双分汉字的分隔符号与汉语拼音的隔音符号。两者的表示符号,可以分别定义,也可以统一定义。分别定义,双分汉字的分隔符号,在读音与形义特征之间,用符号“`”表示;在多个形义特征之间,用符号“-”表示;与汉语拼音的隔音符号相区别;也可以定义为别的符号。统一定义,将双分汉字的分隔符号用汉语拼音的隔音符号“’”表示。文字符号的定义,需要文字改革实践的检验,所以,双分汉字的符号定义,具有灵活性。

双分汉字的拼写样式。双分汉字具有开放性结构,前后两部分,可以不断吸收汉字拼音化成果,可以根据实践需要定义为多种样式。双分汉字,按格式的结构和拼写字符的采用,可以分为典型样式、特殊样式和简化样式。典型样式,读音部分(含声调)和形义特征部分齐全;拼写字符为单一的标准ASCII码字符。特殊样式,是双分汉字的特殊应用,在格式的结构或拼写字符的采用上不同于典型样式。简化样式,是对典型样式和特殊样式的简化应用。双分汉字,按拼写字符的采用,可以分为全字符样式、字符与汉字(或部件)组合样式、汉字(或部件)组合样式及数字代码样式。字符样式,即单一的标准ASCII码字符,包含字母、数字和符号。字符与汉字(或部件)组合样式,在字符样式的基础上,还增加了汉字(或部件)字符的采用。汉字(或部件)组合样式,用单一的汉字(或部件)字符写成。数字代码样式,用数字作为代码来表示双分汉字,或由别的样式,经过“字/数”转换得到。这里的字符样式、字符与汉字(或部件)组合样式、汉字(或部件)组合样式及数字代码样式,是不同的样式类别,不具有(字符与字母、数字等)文字意义上的包含关系。双分汉字实用样式的多样性,遵从自身的形态演化规律,并不影响拼写的确定性,它给汉字拼音化实践提供了多种选择,它给实际应用以较大的灵活性。使用者,可根据自身情况,选用适合自己的拼写样式,进入汉字拼音化实践。

1.典型样式  格式为:字词=〔读音(含声调)〕+〔形义特征〕

(1)全拼格式  Wei4 renmin22`ds fuwu24`yue(为人民服务);采用汉字两分,对字词进行形义特征描述,标声调,形义部分的“ds”为“人”的笔画代码;“yue”,“服”字的选出部件“月”的读音代码;

             Wei4 renmin22 fuwu24(为人民服务);“联词应用”,标声调:近似汉语拼音。

(2)双拼格式  Wz4 rfmn22`ds fuwu24`yt(为人民服务);“双拼”,汉语拼音的紧缩拼写样式;

             Wz4 rfmn22 fuwu24(为人民服务);双拼,“联词应用”。

2.简化应用  对典型样式与特殊样式的活用,其前提是,某一部分必须确定。读音部分,当前,可只简略声调;形义特征部分,可根据需要,简约形义特征描述。当形义特征逐步减少,双分汉字将逐步向汉语拼音靠拢。在不出现歧义时,还可省略分隔符号。本说明书中,在读音部分和形义特征部分之间,有“+”号的格式表达式,其分隔符号具有“用”与“不用”两种选择;无“+”号的格式表达式,其分隔符号只有“用”或“不用”一种选择。格式中的部件(或特征)序号“n”,表示取至最末1个部件(或特征)。双分汉字的“联词应用”,近似于汉语拼音。下面,以双拼样式为例,读音部分不带声调。

(1)〔读音〕+〔形义特征代码〕格式  如,Wz rfmn`ds fuwu`yt(为人民服务)。

(2)〔读音〕+〔有读音的部件〕格式  如,Wz rfmn fuwu`yt(为人民服务)。

(3)〔读音〕格式如,Wz rfmn fuwu(为人民服务);双拼,只有读音部分,已近似汉语拼音。

(4)〔读音〕〔形义特征〕格式  如,rfmn人民(人民);省略分隔符号。

3.特殊样式用形义特征部分区分同音字词、词义,定义词性,记录方言、文言,给难字注音,应急表达,或在形义特征部分使用汉字、部件或其它字符、描述汉字结构等。如:

①〔读音〕+〔汉字〕格式如,yt`刖(刖),mi`冖(冖),xnug11`新生(新生),或拼写为  yt刖(刖),mi冖(冖),xnug11新生(新生),省略分隔符号;用于给难字注音、文言拼写,也可用来进行识字教学和推广普通话,或改进现有的机器(语音)阅读。

②〔读音〕+〔字词区别〕格式如,gsui(公事),gsui`式(公式);用词组中某字或某部件作为突出形义特征,将词组与别的同音词组相区别。使其在语境中,不出现歧义。

③〔读音〕+〔词义区别〕格式如,nzxn(内心,心里头),nzxn`jh(内心,几何概念,用“jh”表示“几何”);在形义部分对词义范畴加以说明,将词组与别的同音词组相区别。

④〔读音〕+〔词性区别〕格式  如,klgr`mc(开关,名词,用“mc”表示“名词”),klgr`dc(开关,动词,用“dc”表示“动词”);同是“开关”,但词性不同:在形义特征部分标明词性。

⑤〔读音〕+〔联词特征〕格式  如,xn`tb(“心头”的“心”),或,tb`xn~(“心头”的“头”);“联词取字”,在联词应用中定义单字。取联词的后一字,须加一字符“~”,表示该字。

⑥〔字词读音〕+〔字词意义〕格式如,giga`bubmiuli(尴尬);有时,会遇到“会说不会写”的尴尬。如,“尴尬”,不会写,若认为是“不便处理”的意思,就直接在形义部分加入“不便处理”的汉语拼音(双拼)“bubmiuli”,起到应急表达的作用。

⑦〔语音或方音〕+〔注释〕格式如,gege`jclo(角落);方音、方言具有特定的语言风格。如出现汉字或汉语拼音不便表达的情况,可采用“标注语音,在形义部分用普通话注释”的办法来解决。

(8)〔读音(标声调\不标声调〕格式  如,ziybwhgo4222\ziybwhgo(自由王国);采用双拼加联词应用,词形整齐,又近似汉语拼音。

(9)`〔部件1〕+〔部件2〕,或`〔部件1〕+〔部件2〕+…+〔部件n〕格式如,`亻故(做),目2(冒),`疒丙3(病);省去了读音部分,是双分汉字的部件横排样式。`〔部件1〕+〔部件2〕。是汉字的双分写法,将合体汉字转换为左右结构。用数字“2”表示该字原为上下结构,用数字“3”表示该字原为杂合结构。也可用等字符表示原汉字结构,如,`亻故(做),目(冒),`疒丙(病)。其全字符样式可作为汉字双分输入的形码。

(10)〔读音〕+〔部件组合〕+〔结构类型〕,或〔读音〕+〔部件1+部件2+…+部件n〕+〔结构类型〕格式如,ba`口八(“叭”,左右结构),vi`口(“只”,上下结构):对汉字部件及结构类型进行细致描述:结构字符等,或其它相应代码,又可作为汉字字模合成数据的代码;这种拼写样式,可用于汉字字模的合成。格式中,前者可不必将部件尽“数”描述。

(11)〔读音〕+〔选出〕+〔剩余〕+〔结构〕+[〔读音或笔画代码〕+〔选出〕+〔剩余〕+〔结构〕]2+…+[〔读音或笔画代码〕+〔选出〕+〔剩余〕+〔结构〕]N格式用其表示双分汉字,或用其作为汉字代码;将汉字逐级两分,精细描述。如,“福”,第一级两分,看作“礻”和“畐”,左右结构,写作;第二级两分,“畐”,看作和“田”,上下结构,写作;第三级两分,看作“一”和“口”,上下结构,写作;“福”的全部两分过程表示为:“福”=“礻”+“畐”++[“畐”++“田”+]+[+“一”+“口”+]。若部件选用顺序确定,等式右边,各级两分中的“读音或笔画代码”部分,可以省略。如,“福”=“礻”+“畐”++[+“田”+]+[“一”+“口”+]。

(12)〔读音〕+〔特征1+特征2+…+特征n〕格式  比格式(10)减少了结构类型描述,但“特征”比“部件”内涵要多。对汉字的形义特征进行全面描述,特征取用力求尽“数”,可用于改进现有汉字代码。

(13)〔读音〕+〔信息字符组合〕格式  利用双分汉字,描述一些信息字符组合的“文字”现象。如,“xiao`《∶·)”,表示“笑”。

(14)数字代码格式  用数字代码来表示双分汉字;或由其它格式经过“字/数”转换得来。可作为一种数字输入编码使用。也可作为双分汉字的机器代码使用。

双文混用。双分汉字与汉字混用(或汉语拼音与汉字混用),看起来缺乏规范,实则是一种互补和过渡,是继承与发扬的表现。如句子,“黄he zhi水  tian上lai。”(黄河之水天上来。),似比“黄河之水天上来。”简约,有节律。如词组,“黄he”(黄河)、“贡xian”(贡献)、“发`贝才”(发财)和“发fen图qiang”(发愤图强)等,既简化了汉字书写,又增加了字词拼写的确定性。

双分汉字的使用。双分汉字,在读音拼写上,与使用汉语拼音一样,只是在出现歧义(不确定拼写)时,才增加形义特征描述,对同音字词加以区别:在形义特征描述上,与使用汉字一样,形义特征,是对汉字形体的继承和简化。双分汉字与汉字具有确定的对应关系,在使用中,汉语的词汇、语法和修辞等规则不变,可直接应用。只识汉字,不懂拼音者,可先采用字形特征描述,如选用汉字部件横排样式,进入双分汉字。只会拼音,不识汉字者,可先采用联词应用、联词取字和标记声调等方式进入双分汉字。既懂拼音,又识汉字者,最好直接选用标准ASCII码字符样式,进入双分汉字。不识字者,也可以利用双分汉字录入和理解信息,进行自助式学习。在双分输入法帮助下,不论以何种方式进入,都能够灵活应用双分汉字。双分汉字实用样式的多样性,并不影响拼写的确定性。利用现有汉字信息技术,可以辅助双分汉字的学习和使用。(1)输入汉字,学用双分汉字。给双分汉字建立一个码表,利用现有输入法的编码反查功能,可得到双分汉字拼写代码。(2)采取输入提示,帮助正确使用双分汉字。利用现有输入法的提示功能,对同拼字词,简码应用等给以提示。(3)利用数据库表,建立个人字词库,对字词的形义特征进行提示,提供选用。

双分汉字,在输入和输出方面,可以实现“多种样式输入”和.“多种样式输出”。如,一个汉字,可以有多种输入编码样式;一个输入编码,可以输出为不同样式的双分汉字。

双分汉字的自身形态演化。双分汉字的典型样式,是汉语拼音与汉字(或其形义特征)的结合体,在文字形态上,具有自身特点,其读音和形义特征部分,可以在使用中不断演化。以汉字“糊”为例。(1)汉字:糊(糊),双分汉字的特殊样式,可看做简省了读音部分。(2)拼音`汉字:hu2`糊(糊),形义特征为整个汉字,可看作是给汉字注音。(3)拼音`汉字部件组合:hu2`米-古-月(糊),形义特征为汉字的全部部件组合。(4)拼音`选出部件-剩余部件:hu2`米-胡(糊),形义特征为双分汉字的“汉字两分”样式。(5)拼音`部件1:hu2`米(糊),形义特征演化为1个部件;该字只选1个形义特征时,在GB范围内,没有出现同码字。(6)拼音:hu2(糊),双分汉字又一特殊样式,可看做简省了形义特征部分;该字没有形义特征描述,在GB范围内,出现20多个同码字。(7)拼音,不标声调:hu(糊),只有基本音节,可以在无歧义语境中使用。(8)基本音节变形。用基本音节的字符拼写形态变化,区分高频同音字词。如,“胡、湖、糊”等,如有必要,可以通过音节变形来表示。经过从(1)到(6)的演化,汉字“糊”,由汉字变成了拼音;同样,经过从(6)到(1)的演化,拼音“hu2”,由拼音变成了汉字。将(1)到(5)的形义特征部分,转换为字符代码,就是双分汉字的标准ASCII码字符样式。从(1)到(6),是形义特征部分的形态演化,双分汉字的读音未变,汉字形体随形义特征的简约不断得到简化,字词拼写的确定性随形义特征的增加不断增强;从(6)到(8),是读音部分的形态演化,读音与拼写将逐步分离;其实用意义,需要经受汉字拼音化实践的检验。读音部分与形义特征部分的形态演化,可以同时进行。利用双分汉字的自身形态演化,可为汉字拼音化实践,提供一种新的思路。现有汉字信息技术,可以利用这些特点,实践汉字拼音化。

双分汉字,实现字词拼写与所有汉字字词具有确定性。现有汉语拼音的主要缺点,就是字词拼写与汉字字词存在不确定性。为克服这一缺点,其做法是:采用形义特征描述,使同一读音的字词,具有各自不同的特征代码。描述汉字的不同形义特征,最简单的做法,就是根据区分同音字词的需要,逐步增加形义特征描述的数量,使其不出现重复。再将所有字词的读音与形义特征相结合,就实现了字词拼写与所有汉字字词具有确定性。其具体效果如下:(1)以汉字两分和笔画代码,描述汉字形义特征。在GB范围内,不标声调,给4800多个(占总字数67%以上)常用字附加1个形义特征,给1950多个(占总字数26%以上)常用字附加2个形义特征,给16个字附加3个形义特征,就能实现全部单字的确定性描述。(2)联词应用加字形特征描述。常用汉字的60%都可以联词应用,即将常用汉字组成常用双字词组,拼写为单纯的汉语拼音样式,加以应用。这种联词应用,使字词拼写的确定性(不标声调),由单字应用的20%以下,上升到80%以上。在16800条双字词组中(不标声调),有82%的词条可以联词应用,给3000多条词组(占总数的18%)附加1个形义特征,给8条词组附加2个形义特征,就能实现全部词组的确定性描述。(3)采用标记读音,联词取字的办法,可实现常用汉字的确定性描述。做法是:用基本音节,确定416字;用标记读音和声调,确定1282字;用联词取字,不标声调,确定4357字;其余采用联词取字,标记声调确定。(4)用〔读音〕+〔汉字部件组合〕+〔结构类型〕,或〔读音〕+〔特征1+特征2+…+特征n〕等多种办法,可实现对所有汉字的完整描述。所有汉字都是由部件(或笔画)组成的;将汉字逐级尽量拆分,可得到一系列部件(或笔画)组合;一字不同于它字,就在于它的部件(或笔画)组合不同;将这些形义特征,精细描述,并符号化,就可以作为所有汉字的代码。(5)双分汉字的各部件编码具有唯一确定性。双分汉字有近2千个双分部件,这些部件,与双分汉字一样,附加1至2个形义特征,就能实现唯一确定性描述。这为双分汉字的“以部件为编码单位”,输入汉字和部件横排输出等应用,提供了条件。

双分汉字,实现用标准ASCII码字符记录和传输汉语。双分汉字,采用形义特征描述,实现字词拼写与所有汉字字词具有确定性,为汉字拼音化创造了条件。将形义特征描述,拼写(或转换)为字符样式,再将韵母字符“ü”,在需要写作“ü”时,用字母“v”代替(也可定义为其它字符),双分汉字,就具有了标准ASCII码字符形态。在汉字信息处理中,使用全字符样式的双分汉字,就实现了用国际通用的标准ASCII码字符记录和传输汉语。这一实现,①将减少汉字代码的种类和数量,②实现所有汉字的代码表示,③使汉字输入编码具有文字功能和④有利文字改革。在双分汉字的标准ASCII码字符样式与汉字(或汉语拼音)之间,可以有多种过渡形式。这些过渡形式,为汉字拼音化实践提供了多种可能。比如,一个“汉”字,可用标准ASCII码字符表示为:han`ssg(汉)①;还可用双分汉字其它样式表示为:han`氵(汉)②、han`氵又(汉)③、han`汉(汉)④、`氵又(汉)⑤等样式。

双分汉字的可行性与合法性。双分汉字是否具有可行性,能否取得合法性,取决于它的实用性。首先,双分汉字具有实用性。(1)双分汉字能对应移用于使用汉字或汉语拼音的地方,还能使用于不能使用汉字或汉语拼音的地方。(如用“xiao`《∶·)”,表示“笑”。)(2)会拼音,就能使用双分汉字;不会拼音,如通过编码反查,也能使用双分汉字。在现有输入方法帮助下,不识字也可使用双分汉字。(3)双分汉字的“〔读音〕+〔汉字〕”样式,有利于推广普通话和汉字拼音化实践,具有潜在的社会效益。(4)双分汉字,符合文字改革方向,是汉字拼音化的实用工具,是对汉字、汉语拼音与汉字输入编码的综合应用,既有利于文字改革实践,又有利于汉字信息处理,是现实应用与长远规划的综合考虑。(5)利用现有信息技术,可以增强双分汉字的实用性。看起来,双分汉字增加了字词的拼写长度,在短期内,还增加了纸张及版面的占用,其实,这是一种长远的文字改革投资,具有持久的社会经济效益。利用“代码输入”、“输入提示”和“简码实时应用”(根据语境提供简码)等方法,可以使双分汉字的应用比汉字和拼音都方便。其次,双分汉字在形态上已大部分合法化。在典型样式中,汉字是合法的,汉语拼音是合法的,把两者放在一起,也应是合法的。汉语拼音在少数字词的拼写上存在不确定性,采用双分汉字,对其进行形义特征描述,是弥补其不足。在其它样式中,其读音部分,是汉语拼音的直接应用,具有合法性。其形义特征部分中,采用的汉字与大多数部件,具有合法性。笔画代码(或其它个别代码),未具合法性,但具有实用性,在一般情况下,应用不多。形义特征,是对现行规范的补充,它的实用性,将为争取其合法化创造条件。在实际应用中,尽量不用或少用形义特征描述,就能使双分汉字尽量向单纯的汉语拼音靠拢。双分汉字,在实践过程中,对使用样式的选取和具体字词的拼写,应实行“法定优先”的原则。

采用双分汉字,改进汉字代码。用双分汉字作汉字代码,可以有多种样式,下列几种可供实践选用。(1)〔读音〕+〔特征1+特征2+…+特征n〕格式。利用汉字的形义特征组合(特征取用力求尽“数”),对汉字进行精细描述。(2)〔读音〕+〔部件1+部件2+…+部件n〕+〔汉字结构类型〕格式。利用汉字的部件组合,对汉字进行精细描述。汉字结构类型,定义了汉字的字模合成数据。它还可作为汉字合成字模的代码。(1)、(2)两种编码格式,均能对所有汉字进行编码。生成的汉字代码,具有文字功能。可按高频字、常用字、非常用字等不同,定义特征取用的数量。“特征”的内涵大于“部件”。如读音部分不考虑声调,96%的常用汉字采用1至2个形义特征,就可以实现唯一确定性描述。采用双拼样式,不用分隔符号,最大码长10码,7码以下占96%,最多用4个特征,压缩编码,平均码长小于4.5码。(3)`〔部件1+部件2+…+部件n〕格式。没有读音部分,形义特征部分,只有汉字部件。采用汉字部件编码的组合,对汉字进行精细描述。可以只用少量汉字部件,将汉字表示为双分汉字的部件横排样式,进行输入和输出。(4)〔读音〕+〔选出〕+〔剩余〕+〔结构〕+[〔读音或笔画代码〕+〔选出〕+〔剩余〕+〔结构〕]2+…+[〔读音或笔画代码〕+〔选出〕+〔剩余〕+〔结构〕]N格式;若部件选用顺序是确定的,后面各级两分中的“读音或笔画代码”部分,可以省略,即为〔读音〕+〔选出〕+〔剩余〕+〔结构〕+[〔选出〕+〔剩余〕+〔结构〕]2+…+[〔选出〕+〔剩余〕+〔结构〕]N格式。采用双分汉字的这种格式,对汉字进行逐级两分,并将两分结果,表示为全字符样式,作为汉字编码。此编码有如下特点:①汉字与部件,只要还能继续两分,就一直两分下去。对汉字的所有结构部件及结构类型进行全码描述。这种描述,由前往后可看作是“逐级两分”,由后往前可看作是“逐级合成”。②可对汉字的结构部件及结构类型进行简码描述。任一汉字,当第一级两分后未出现重码,就不进入第二级两分;当第二级两分后未出现重码,就不进入第三级两分;逐级循环拆分,至无重码为止。这是对全码描述的简化。③可对所有汉字进行编码描述。一字不同于他字,在于汉字(及部件)的读音不同,在于部件(或笔画)组合及结构不同。将一字的读音、部件及结构等,全面尽“数”描述,就可避免雷同,实现编码对汉字的唯一确定性描述。④此编码可实现用简单汉字(或部件)编码生成复杂汉字(或部件)编码。⑤此编码的好处还在于:便于用汉字部件横排表示汉字;便于用汉字部件字模合成汉字字模。格式(4)的编码举例。如,“霞”,读音为“xia2”,一级两分为“雨”、“叚”,上下结构,写作;“雨”,读音为“yu3”,可以二级两分为与,杂合结构,写作,也可不再分;“叚”,读音为“jia3”,二级两分为与,左右结构,写作,笔画代码为“9198”,也可表示为字母“agal”,三级两分为“コ”与“又”,上下结构,写作;至此,“霞”的离散部件全部两分完毕;“霞”的全部逐级两分表达式为:“霞”=“xia2”+“雨”+“叚”++[“yu3”+++]+[“jia3”+++]+[“ag”+“コ”+“又”+]。将其转换成双分汉字的字母符号样式,其中字符转换为数字代码“24、35、11、21”,其全码为:“霞”=xia2-yu3-jia3-24+(yu3-gfaj-ssss-35)+(jia3-agfgg-agal-11)+(agal-ag-you4-21);其简码为:“霞”=xia2-yu3-jia3-24+(yu3-gfah-ssss-35),或“霞”=xia2-yu3-jia3-24;表达式中的“24、35、11、21”,为结构类型形义特征代码。各部件的代码具有唯一确定性。双分汉字代码,若输出为标准ASCII码字符,机内码、字模库与西文代码相同。若输出为其它样式,则有几种情况:(1)汉字。机内码、字模库与现有汉字编码一样。(2)双分汉字的部件横排样式。双分汉字,部件在2000个以内。采用大结构部件,便于组字与编码的联想。机内码、字模库,其汉字部分,可少到2000种。(3)合成汉字。在速度允许的前提下,可以用基本部件(几百个)合成所有汉字。机内码、字模库,其汉字部分,可少到几百种。

采用双分汉字,逐步克服汉字“三难”。给汉字标注读音,解决“难读”;将汉字形体简约,改变结构形式,有利识记和书写,克服汉字“难写”、“难记”。在汉字不能准确记录汉语时,可采用双分汉字来记录汉语。实现汉字拼音化,才能最终解决汉字“三难”。以下提出一些实践样式。(1)给独体字标注读音,使其易读。在GB中,独体字约占4%。独体字大多是合体字的部件,在字形上相对简单,书写和识记相对容易。标注读音,可标声调,也可不标声调。如:①yi2`夷(夷),yi4`乂(乂),标记声调;或,yi`夷(夷),yi`乂(乂),不标声调。②wu`戊(戊),xu`戌(戌),shu`戍(戍),形近字标读音。(2)合体字,采用双分汉字的“读音+形义特征”表示,使其易读、易写、易记。形义特征,可用部件加结构类型描述,也可以只用部件描述。应用样式的选择,以有利于克服汉字“三难”为准。①suanl`木全1(栓),shuangl`雨相2(霜),xiangl`厂相3(厢),标声调,结构类型(大类)用1个数字表示,“1”表示左右结构,“2”表示上下结构,“3”表示杂合(包围)结构。②suan`木全(栓),shuang`雨相(霜),xiang`厂相(厢),不标声调,不标结构类型。③suan`木全(栓),shuang`雨相(霜),xiang`厂相(厢),结构类型用字符表示,比较直观。④`木全(栓),`雨相(霜),`厂相(厢),不标读音。⑤`木全(栓),`雨相(霜),`厂相(厢),不标读音,不标结构类型。以上各种样式中,形义特征是采用汉字部件描述的,也可以将其转换为汉语拼音字母描述,使其向汉字拼音化靠近。形义特征中的汉字(或部件),有读音的,用其读音的汉语拼音字母表示,无读音的,用其笔画代码表示,即可完成这种转换。如,⑥suan`mu-quan(栓),shuang`yu-xiang(霜),部件代码全列。⑦suan`mu(栓),shuang`yu(霜),取部分部件代码。⑧suan(栓),shuang(霜),在无歧意的语境中使用,这时,双分汉字已近似汉语拼音。

利用双分汉字,简化汉字形体。多部件组合的汉字,可用双分汉字表示为如下样式:“读音+部件1+部件2+…+部件n”(1)。在实际应用中,双分汉字只用1个(或2个)部件作为某字的形义特征,就可以实现该字的确定性表达。这样,前面的表达式(1),将简化为:“读音+部件1(或+部件2)”(2)。从表达式(2)可以看出,双分汉字在使用中简化了汉字形体。并且这种简化,不影响拼写的确定性,也不增加现有汉字的总量。在GB中,有80%的汉字可表示为“读音+部件1”样式,并具有拼写的唯一确定性。就是说,采用双分汉字,有80%的常用汉字,最多用一半的结构部件,就能正常使用。将汉字部件,用其读音代码表示,还可以实现部件的“同音归并”,使汉字的结构描述更加简化。在GB范围内,采用部件同音归并后,有70%的汉字,只用1个部件特征,就可实现唯一确定性表示,并且只有部件的读音代码,给汉字拼音化创造了条件。双分汉字的形义特征描述,将使汉字的形体识记、书写,逐步走向特征化、轮廓化和符号化,进而实现汉字拼音化。

双分汉字的部件横向排列样式。汉字部件,在汉字的部件组合中具有一定的结构形式,一般有左右结构、上下结构、杂合(包围)结构等三个大类。每个大类细分,共有几十种具体形式。双分汉字,以汉字两分方式描述汉字,现有汉字的结构形式有二十多种。如将汉字部件一律横向排列,可以使汉字在结构上得到简化。这种简化是可行的。GB中,左右结构的汉字占66%,将其横排,识认不受影响;杂合结构占8%,其中的40%采用横排后,识认不受影响;上下结构占25%,其中有93%稍加联系,也能方便识认;其余部分,加注结构代码,予以说明,仍能识认应用。在应用中,是否横排,以实用为准。如:①左右结构:qin2`木禽(檎),qin3`钅(锓),qin4`氵心(沁);或写作:`木禽(檎),`钅(锓),`氵心(沁)。②上下结构:qing1`月2(青),qin2`艹斤2(芹),qin2`玨今2(琴);或写作:`月2(青),`艹斤2(芹),`玨今2(琴),数字“2”表示上下结构;或写作:`月(青),`艹斤(芹),`玨今(琴),加结构字符。③杂合结构:`疒丙(病),`走己(起),`是匕(匙),不加结构代码,也不影响识认;或写作:`疒丙(病),`走己(起),`是匕(匙),加结构字符等。

双分汉字的双拼代码定义。在双分汉字中,汉字或部件的读音可以写成汉语拼音的双拼样式。双拼样式中,声母、韵母或字母(或其组合),用键盘上的1个字母代码表示。双拼代码,应根据汉字拼音化实践需要定义,以便于吸收汉字拼音化成果。本说明,为双拼代码定义提供一种实践方案。在本说明中,①韵母“ü”,在需要写成“ü”时,用字母“v”代替;②韵母“ê、er、ueng”,在普通话中无声韵配合,属于零声母音节,暂不单独定义键位;“ê”,如需单独应用,可用字符“e’”表示;“ueng”,假如有声韵配合需要,用“u-eng”字母组合表示,并将每一字母组合部分,转换为相应的双拼代码,如“u-g”,不受现有双拼格式束缚;定义字符“ng”,是为了与注音符号“兀”相对应;③假如有新产生的音节,在没有定义键位前,可采用音位接近的拼写样式,或形态接近的拼写样式,表示为“x-y…-z”样式(每个字符代表1个字母或其组合),并转换为相应的双拼代码,以应付需要:④零声母音节,韵头“i、u、ü”的变换,遵循《方案》规定,余下的韵腹和韵尾部分,用对应的双拼代码表示;如,“ian”,单独应用,变换为“yan”,其双拼代码为“yj”(y-an),而不是“m”(ian)。其具体定义为:“A”,代表韵母“a”;“B”,代表声母“b”,韵母“ou”;“C”,代表声母“c”,韵母“iao”;“D”,代表声母“d”,韵母“uang、iang”;“E”,代表韵母“e”;“F”,代表声母“f”,韵母“en”;“G”,代表声母“g”,韵母“eng”和字母“ng”;“H”,代表声母“h”,韵母“ang”;“I”,代表声母“ch”,韵母“i”;“J”,代表声母“j”,韵母“an”:“K”,代表声母“k”,韵母“ao”;“L”,代表声母“l”,韵母“ai”;“M”,代表声母“m”,韵母“ian”;“N”,代表声母“n”,韵母“in”;“O”,代表韵母“o、uo”;“P”,代表声母“p”,韵母“un、vn”;“Q”,代表声母“q”,韵母“iu”;“R”,代表声母“r”,韵母“uan、van”;“S”,代表声母“s”,韵母“iong、ong”;字母“T”,代表声母“t”,韵母“ve”;字母“U”,代表声母“sh”,韵母“u”;“V”,代表声母“zh”,韵母“ui、v”;“W”,代表字母“w”,韵母“ua、ia”;“X”,代表声母“x”,韵母“ie”;“Y”,代表字母“y”,韵母“uai、ing”;“Z”,代表声母“z”,韵母“ei”。双拼字母代码可直接标志在键盘上,不需要记忆。

双分汉字有利于汉语语音输入和输出技术的应用。在汉语自然语音输入中,汉语的同音字词不易区分,会影响到输入的确定性。双分汉字的形态演化规律,提示了语音与形义特征的关系。如在语音输入的同时,辅助以字词形义特征,可以提高语音输入的准确率。其做法可以是:①在语音输入的同时,用键盘(或笔)输入字词的形义特征。②在语音输入时,“读入”字词的形义特征。将字词的形义特征用语音表示。无读音部件,可以给予统一命名,或直接读笔画代码。采用双分汉字,还有利于语音输出技术(如语音合成、语音阅读等)的应用。双分汉字与汉语(及汉字)对应关系的确定性,有利于提高汉语语音输出的确定性,如解决“一字多音”等。双分汉字的读音部分,为语音输出技术的应用提供了方便。利用双分汉字的读音部分,可实现“以音节为单位”合成汉语,“以音节为单位”阅读文稿。

利用双分汉字,推广普通话,辅助识字教学,实践汉字拼音化。①利用双分汉字的形态演化规律,改进现有的汉语拼音和识字教学。②双分汉字的“〔读音〕`(汉字)”,或“(读音)(汉字)”样式,如“al啊”(啊),克服了现有汉字的注音不便,它将汉字与汉语拼音结合为一体,可用于推广普通话和进行识字教学。③双分汉字的“(读音)`(部件1部件2)”样式,如“al`口阿”(啊),将汉字“啊”分成两个部分,在加强读音的基础上,又突出了汉字结构及部件的识记。④双分汉字的“(读音)`(部件1代码-部件2代码)”样式,如“al`kou-a”(啊),双分汉字的全字符样式,有利于实践汉字拼音化,使少儿会拼音,就会汉语(汉字)输入。不会拼音的少儿,也可依样输入双分汉字,在语音提示下,拼音、识字和阅读。在识字教学中,对不识汉字的少儿,可先读双分汉字的读音部分;在大量的阅读中,逐步掌握形义部分的汉字或汉字部件;在大量阅读的基础上,学习写话作文。

利用双分汉字在文字、输入和输出方面的特点,可为信息安全技术提供一种新思路。(1)文件加密。其特点在于:①记录语言的文字样式是新的,并且可以定义选择。②文字的输入码表是专用的,可以定义选择。键盘键位可以定义。③字体文件是专用的,可以定义选择。用于汉字合成的部件字模是专用的。④输出的方式具有多样性,并且可以定义选择。(2)信用识别。利用双分汉字在文字及输入和输出方面的个性化可定义特征,作为个人的信用标志。比如,一封电子邮件,如与当事人没有信用联系,就没有对方的信用码表,只能是一堆乱码,将被自动清除,可避免对当事人的噪信搔扰。(3)网络安全。网络的发展,需要信息技术的标准化;但网络的安全,却需要信息技术的个性化和信用化。双分汉字可作为这种个性化和信用化的实践工具。(4)病毒防治。现有病毒的出现,随时都在提醒我们,通用的机内编码和微程序,潜伏着极大的危险。信息接收应以信用为前提;机内代码应该个性化。双分汉字的个性化可定义特色,可作为这方面的尝试。在现有信息安全技术的支持下,双分汉字,将为其提供一种新选择。

双分汉字的出版物,与现有出版物的根本区别,就在于它的技术性。这种技术性,一个不识字的人,可以使用它进行机器阅读和学习。

双分汉字,可为残疾人提供方便。盲人,不便于“选字输入”,可用它对形义特征的精细描述,准确表达汉语。聋哑人,可用它在语音标注方面的特点,方便地进行(机器)语音交流和手语表达。

二、双分输入法

双分输入法,是双分汉字自身的输入方法及其在现有汉字输入方面的应用。于是,有关双分输入法的叙述,包括两个部分,一是现有汉字的输入,二是双分汉字其它样式的输入。现有的汉字信息处理,在软件技术方面,已相当完备,这里,仅就双分输入法的编码特点,加以叙述。双分输入法的输入编码,可由双分汉字直接读取(或去除分隔符号,或进行压缩,将其简化)。如,“码”字,可以有“ma`shi”(码),或“mashi”(码),或“ma”(码)等不同样式。不了解双分汉字者,也可通过“汉字两分”,提取汉字的输入编码。双分汉字实用样式的多样性,使双分输入法具有多种编码格式,给实际应用提供多种选择,可以从不同角度进入双分汉字状态,实现汉字及双分汉字的其它样式的输入。

(一)现有汉字输入

现有汉字是双分汉字的特殊样式。将现有汉字的输入方法单独叙述,是假定使用者不了解双分汉字,并且主要从现有的汉字输入的角度加以叙述。这里,通过“汉字两分”方法的应用,对双分输入法的汉字输入加以说明。为叙述方便,在“双分汉字”中已述及的内容,尽量不再重复。

汉字输入的编码原理。根据“汉字两分”规则,将汉字分成“选出部分”和“剩余部分”(简称“选出”和“剩余”)。每部分用其读音(或笔画)的代码表示。读音代码,可以是汉语拼音的全拼样式、双拼样式或其它样式。笔画代码,采用10个数字(或字母)表示笔画的特征。成字部件,尽量选用“一般能认汉字”,其多音字的读音代码,采用“一般读音”表示。如部件与汉字“同读”,为缩短代码,也可以将其“同读”代码舍去,选用其下一级拆分的新代码。编码的一般格式为:汉字编码=〔读音〕+〔选出部分〕+〔剩余部分〕(右边各项可定义取舍)。读取的汉字编码,用于标准键盘,就用字符表示;用于数字键盘,就用数字表示。〔读音〕与〔选出部分〕之间,〔选出部分〕与〔剩余部分〕之间,用符号隔开,也可不用符号隔开。单字编码,①按汉字的书写先后(或笔顺)读取编码;②也可按“成字优先”、“取大优先”的规则读取编码;③以一般格式“编码=〔读音〕+〔选出〕+〔剩余〕”为基础,拼写编码;其读音为汉字或词组的实际读音;④难字,提供形码;难字形码=〔选出〕+〔剩余〕。词组编码,以双字词组编码为主,一般格式为:词组编码=〔读音部分〕+〔部件部分〕。编码的“读音部分”,①双字词组,采用“声韵声韵”格式;三字词组,采用“声声声韵”格式;四字及四字以上词组,采用“声声声声”格式,第4码,取最末1个字的代码;②三字以上的词组,也可采用“声韵1声韵2…声韵N”格式,每字双拼,声韵齐全,最多取6字,第6字,取词组的最后1字。词组编码的“部件部分”,在需要时使用。如有需要,可按单字顺序,提取代码(如每字提取1个代码,或每字提取多个代码)。下面是编码举例。以GB为讨论范围,部件的读音代码为双拼样式。单字,在“汉字两分”中,合字占96%以上,独字不足200个,独笔字只有几个。(1)合字编码。将合字两分,如“霸”字,拆分为“雨”和“”两个部分:“霸”字,读音为“ba”;“雨”的读音为“yu”,“”,再行两分,为“革”与“月”,其代码为“ge-yt”;其全码为“ba′yu-ge-yt”(霸),码长11码;省去分隔符号后,编码为“bayugeyt”(霸),码长8码。部件“”,也可用笔画代码表示;笔画代码这里取前两笔,即“hj”(“横”与“竖”,有“交叉”);于是,“霸”字的另一编码为“ba′yu-hj”(霸);省去分隔符号后,编码为“bayuhj”(霸)。“霸”字的压缩码为“bay”(霸),码长为3码。如“霸”为难字,不知读音,其形码为“yu-ge-yt”或“yugeyt”(霸),码长8码或6码。(2)独字编码。将独字两分为“笔画与部件”,或“笔画与笔画组合”;如“白”字,拆分为“丿”和“日”两部分;读音为“bl”;“丿”的笔画代码为“d”,“日”的读音代码为“ri”;其全码为“bl′d-ri”(白),码长7码;省去分隔符号后,编码为“bldri”(白),码长5码。“白”字的压缩码为“bl”(白),码长2码。如“白”为难字,其形码为“d-ri”(白),笔画与部件组合;或为“dfagg”(白),全笔画代码。(3)独笔字编码。独笔字编码,看其笔画的“有”与“无”;如“乙”字,将其看作“乙”(有笔画)和“ ”(无笔画,用“w”表示)两个部分;“乙”的读音为“yi”;其全码为“yi′yi-w”(乙),码长7码,省去分隔符号后,编码为“yiyiw”(乙),码长5码。“乙”字的压缩码为“yi”(乙),码长2码。(4)双字词组编码。双字词组编码,采用“声韵声韵”格式,如“人工”,编码为“rggs”(人工);若有重码,增加1个(或2个)部件代码:第1个字是“人”,如取笔画“丿”,代码是“d”,词组编码为“rggs′d”(人工);若还有重码,第2个字是“工”,如取笔画“一”,代码是“g”,词组编码为“rggs′dg”(人工)。在常用双字词组中,最多取2个部件(或笔画)代码,就能保证汉字编码的唯一确定性。双字词组中,部件代码的取用举例,也适用于其它多字词组。(5)三字词组编码。三字词组编码,采用“声声声韵”格式,如“人工湖”,编码为“rghu”(人工湖),第3字取整个基本音节。(6)四字(及以上)词组编码。四字(及以上)词组,采用“声声声声”格式,第4码,取最末一字声母,如“人工降雨”,编码为“rgiy”(人工降雨)。三字(及以上)词组的编码,也可采用“声韵1声韵2…声韵N”格式,如“人工降雨”,编码为“rfgsjdyu”。

“汉字两分”,将GB范圉内的汉字分成近2000个部件。其中,成字部件近1400个,非成字部件近600个。成字部件中,常用汉字约占90%(其中“一般能认汉字”又占90%),非常用汉字约占10%;多读音汉字100余个,约占5%。非成字部件中,传统结构部件仅占16%,其余为汉字两分的“剩余部分”,约占84%:传统结构部件大多有读音(包括“古读”):“剩余部分”中,包含有读音部件的约占50%。在“汉字两分”部件中,有读音或经过处理后具有读音代码的部件共有1700多个,约占全部部件的87%;无读音部件约250个,约占13%。

有读音部件,用其读音作代码。读音可用汉语拼音的全拼、双拼或其它样式表示。多音字,用“一般读音”表示。独体字,在标出读音的时候,为减少重码,可增加笔画代码描述,码长可准备到6码。非常用汉字在用读音作代码的同时,也可以准备其笔画代码,供使用者查用。无读音部件,可用其笔画代码表示:编码码长可准备到6码,在具体格式中,可以只选用2或3码。无读音部件,也可给以命名,使其能用读音代码表示。无读音部件中的“剩余”部件,大多包含有读音部件,可用其读音表示该“剩余”部件的代码,或在读音代码后面附加笔画代码,码长3码,与“有读音部件”相区别。所有部件,都可用笔画代码表示。取每个部件的前5笔和最末一笔编码,其确定率为80%;取每个部件的前3笔编码,其确定率为16%;取每个部件的前2笔编码,其确定率为3.5%。

汉字编码,字符样式与数字样式(或字符样式)之间,可以相互转换。简称为“字/数”转换,或“数/字”转换,或“字/字”转换。这种字符与数字(或字符)的相互转换,可以实现,同一编码,应用于标准键盘、数字键盘或其它形式的键盘。字符编码转换为数字编码后,汉字编码的无重码率将有所下降。这种变化,与字符编码的平均击键次数有相关性。即字符编码的平均击键次数越接近最大码长,数字编码的无重码率将越高。于是,“字/数”转换,建议用每种格式的基础编码,即该格式的代表性编码。数字编码转换为字符编码,没有这种情况。这种“字/数”或“数/字”转换,并不改变原有编码的输入使用方法。所谓其它形式的键盘,可以是两键、三键,或多键,都可以通过“字/数”转换,实现可用的编码配置。“字/字”转换,可自助定义和转换双拼(或其它)样式代码。其实现程序属一般技术。

汉字输入的实用格式。双分输入法,提供多种汉字编码组合,可实现不论以何种样式,都能输入汉字,满足各种不同需求。汉字编码呈现离散分布,在同一编码格式下,由于字序、部件长度和分隔符号的取用等安排不同,其具体编码也就有“大同小异”。下面将要叙述的各种编码格式,是某种编码思路的概括,是几种编码样式的综合叙述。

1.音形结合编码  双分输入法音形结合编码的一般格式:单字编码=〔汉字读音〕+〔选出部分〕+〔剩余部分〕。“读音”代码,双拼为1或2码,全拼为1至6码;“笔画”代码,部件可取至2或3码,独字可取至4或5码。在一般格式的全码状态,读音代码,一般只能取双拼样式,因为码长有时会受到操作系统的限制。“读音”代码与“选出”代码之间,“选出”部分与“剩余”部分之间,附加分隔符号,以突出编码的读音或部件组合关系,使编码具有文字功能。

①编码=〔读音〕′〔选出〕+〔剩余〕格式;“读音”代码,取双拼样式,为1或2码;“笔画”代码,部件可取至2码,独字最多取4或5码。基础编码(未作任何调整,有代表性的编码),全码,无重码率92%(在GB范围,全部记录7271条,以下相同)。最大码长7码,平均击键6.89次。特点是,用分隔符号,突出了读音,使编码具有文字功能。全码,“字/数”转换后,无重码率在77%以上。其压缩编码,“以字符为单位”,从1码开始,逐渐增加码长,进行唯一性筛选,将其进行压缩,并进行无重码处理,可实现最大码长6码,平均击键4.41次。“字/数”转换后,不作任何调整,无重码率将下降至47%,在GB范围内,缺少实用意义。

②编码=〔读音〕〔选出〕+〔剩余〕格式;与格式①相比,除没有分隔符号“′”外,其余相同。基础编码,全码无重码达92%。最大码长6码,平均击键5.89次。其压缩编码,“以字符为单位”,将其进行压缩,进行无重码处理,可实现最大码长5码,平均击键3.58次。“字/数”转换,与格式①近似。

③编码=〔读音〕+〔选出〕+〔剩余〕格式;“读音”代码,取双拼样式,为1或2码;“笔画”代码,“选出”部分可取至2码,“剩余”部分不限制,独字最多取4至5码。如最大码长做成8码,无重码,平均击键6.00次;“字/数”转换,无重码率为95%。如最大码长做成6码,无重码率为98%,平均击键5.95次;“字/数”转换,无重码率为92%。对其“以字符为单位”进行压缩,压缩编码,无重码,平均击键3.60次;“字/数”转换,在GB范围内,无实用意义。

④编码=〔读音〕+〔选出〕+〔剩余〕+〔对“剩余”再次两分〕格式;“读音”代码,取双拼样式,为1或2码;“笔画”代码,可取至2码,独字最多取4至5码。编码的特点是:“以部件为单位”进行压缩:按“读音”,“选出”,“剩余”的顺序,逐渐增加码长,每次增加1或2码:当取用“剩余”后,仍有重码,则对“剩余”部件进行第二次两分,并进行压缩。编码无重码。最多10码,大于8码的记录只有9条。平均击键4.47次。“字/数”转换后,无重码率为59%。

⑤编码=〔读音〕+〔单字笔画〕格式;“读音”代码,取双拼样式,为1或2码:“单字笔画”代码,按单字的书写笔顺取码,最多取4或5码。无重码率84%。最大码长6码,平均击键5.98次。“字/数”转换后,无重码率为68%。

⑥编码=〔读音〕+〔选出笔画〕+〔剩余笔画〕格式;“读音”代码,取双拼样式,为1或2码;笔画代码,“选出”与“剩余”每部分最多取4码,独字最多取6码。无重码,最大码长10码,平均击键9.04次。“字/数”转换后,无重码率为98%。其“以字符为单位”的压缩编码,无重码,最大码长8码,平均击键4.06次。“字/数”转换后,无重码率为53%。

⑦编码=〔读音〕+〔流行形码部件代码〕格式;将汉字的形义特征,用流行形码的部件代码描述;以利于熟悉流行形码的使用者进入双分汉字状态。如,“读音”与“五笔画”结合。

⑧编码=〔读音〕无形义部分,实为音码样式。直接输入汉字的汉语拼音。其原理是,通过“基本音节”,定义400多字;通过“基本音节加声调”,定义1200多字;通过“联词取字(不标声调)”,定义4300多字;其余通过“联词取字(标记声调)”定义。会拼音,就能使用。可以进行“字/数”转换。

2.形码  双分输入法的形码,给不会汉语拼音者提供方便。它的一般格式为:单字编码=〔选出部分〕+〔剩余部分〕。“选出”与“剩余”的形义特征描述,可采用读音代码,也可采用笔画代码。读音代码,如采用双拼样式,码长1或2码:笔画代码,码长最多6码。

①编码=〔选出〕+〔剩余〕(读音与笔画代码)格式;将汉字分成“选出”和“剩余”两个部分,每部分用其读音或笔画代码表示。基础编码,全码,无重码率80.47%。每部分最多取3码。全码码长最多6码,平均击键4.39次。“字/数”转换后,无重码率为52%。将其“以字符为单位”进行压缩,无重码率86.03%,码长最多5码,平均击键3.84次。

②编码=〔选出〕+〔剩余〕,(4+6)格式;按部件的书写笔顺,取用笔画代码,“选出”部分最多取4码,“剩余”部分最多取6码,简称“4+6”格式。基础编码,全码无重码率为95.88%。码长最多10码,平均击键8.31次。将其“以字符为单位”进行压缩,无重码率为99.46%,码长最多10码,平均击键5.99次。当其“剩余”部分编码由1码逐渐增加,编码长度与无重码率的关系为;6码,64.16%;7码,85.35%;8码,95.37%;9码,98.87%;10码,99.46%。“字/数”转换后,无重码率不变。

③编码=〔选出〕+〔剩余〕,(4+6m)格式;与格式②近似,只是“选出”与“剩余”部分的最后1码,取用书写笔画的最末1码。其压缩编码,无重码率为99.53%,编码长度最多10码,平均击键5.95次。

④编码=〔选出〕+〔剩余〕(5+5)格式;“选出”部分最多取5码,“剩余”部分最多取5码,简称“5+5格式”。基础编码,全码,无重码率94.51%。最大码长10码,平均击键8.48次。将其“以字符为单位”进行压缩,无重码率为99.28%,码长最多10码,平均击键6.23次。当其“剩余”部分编码由1码逐渐增加,编码长度与无重码率的关系为:6码,56.07%:7码,79.46%;8码,92.50%;9码,97.90%;10码,99.28%。“字/数”转换后,无重码率不变。

⑤编码=〔选出〕+〔剩余〕(3+6)格式;“选出”部分最多取3码,“剩余”部分最多取6码,简称“3+6”格式。基础编码,全码,无重码率87.78%。最大码长9码,平均击键7.77次。将其“以字符为单位”进行压缩,无重码率为97.83%,码长最多9码,平均击键5.73次。当其“剩余”部分编码由1码逐渐增加,编码长度与无重码率的关系为:6码,71.48%;7码,87.68%;8码,95.14%;9码,97.83%。“字/数”转换后,无重码率不变。

⑥编码=〔选出〕+〔剩余〕(3+3)格式;“选出”部分最多取3码,“剩余”部分最多取3码,简称“3+3”格式。将其“以字符为单位”进行压缩,无重码率为71.48%,码长最多6码,平均击键5.39次。

⑦编码=〔选出〕+〔剩余〕(2+6)格式;“选出”部分最多取2码,“剩余”部分最多取6码,简称“2+6”格式。基础编码,全码,无重码率72.64%。最大码长8码,平均击键6.90次。将其“以字符为单位”进行压缩,无重码率为89.38%,码长最多8码,平均击键5.42次。当其“剩余”部分编码由1码逐渐增加,编码长度与无重码率的关系为:5码,50.58%;6码,71.21%;7码,82.97%;8码,89.38%。“字/数”转换后,无重码率不变。

⑧编码=〔选出〕+〔剩余〕(2+4)格式;“选出”部分最多取2码,“剩余”部分最多取4码,简称“2+4”格式。将其“以字符为单位”进行压缩,无重码率为71.21%,码长最多6码。

⑨编码=〔选出〕+〔剩余〕(2+3)格式;“选出”部分最多取2码,“剩余”部分最多取3码,简称“2+3”格式。将其“以字符为单位”进行压缩,无重码率为50.58%,码长最多5码,平均击键4.85次。

⑩整字笔画输入编码  整字笔画输入,作为“汉字两分”的特殊样式(即选出笔画和剩余笔画样式),是汉字输入的辅助样式。它以汉字书写笔画的字母或数字代码,按笔顺读取汉字的输入编码。其5+1格式,取单字的前5笔加最末1笔,基础编码,未作压缩处理,无重码率在56%以上,码长6码。其3+3格式、取单字前3笔和末3笔(输入难度增加),基础编码,未作压缩处理,无重码率达72%以上,码长6码。与传统笔画输入相比,增加了笔画代码的字母样式。

(11)`〔难字(或部件)笔画代码〕+〔难字(或部件)其它代码〕格式;在输入汉字的同时,提供难字(或部件)的其它编码,供学习查用。比如,“咅”,非常用字,读音为“pou3”,笔画编码为“sgsdgfag”,将其按笔画输入,出现“咅”字后,在编码的末尾将显示其读音代码“pou3”。“咅”字的全部编码为“`sgsdgfag-pou3”。如编码长度有限制,则缩短笔画编码,读音代码采用双拼样式。笔画编码与读音代码之间用符号分开。编码前可以加用符号“`”,以与其它编码相区别。

(12)大笔画代码编码  大笔画代码,是对笔画“交连”特征的进一步描述,可以移用于采用小笔画代码的地方,能提高笔画编码的唯一确定性。可供专业人员使用。

3.屏幕提示输入  双分汉字的屏幕提示输入,是“汉字两分”技术特色的具体应用。汉字输入,曾有“整字输入”的形式,因其选字不易,应用不广。双分输入法,利用“汉字两分”,将GB范围的所有汉字,分成两个部分,每部分只有几百个部件,可以实现汉字的“双分”输入。“屏幕提示键”的应用是已有技术。双分汉字的屏幕提示输入,可以有两种格式。

①〔读音〕+〔选出〕+〔剩余〕格式;先输入汉字的读音代码,这时,在屏幕的提示键上,将显示候选的“选出”部件;选出候选的“选出”部件,并键入该提示键的代码,在一般情况下,就完成了1个汉字的输入;如键入“选出”部件后,“提示窗口”未出现需要的汉字,这时,在提示键上将显示候选的“剩余”部件;选出候选的“剩余”部件,并键入该提示键的代码,就完成了1个汉字的输入。其特点是,简单,易学,大多数汉字的输入,只用3键完成。在词组输入状态,利用提示键上的候选部件区分同码词组。

②〔选出〕+〔剩余〕格式;先输入“选出”部件的读音或笔画代码,这时,在屏幕的提示键上,将显示候选的“剩余”部件;选出候选的“剩余”部件,并键入该提示键的代码,就完成了1个汉字的输入。部件代码,可准备到6码。其特点仍然是,简单,易学,但击键次数,比格式①增多。在词组输入状态,利用提示键上的候选部件区分同码词组。

4.双字词组编码  汉语具有双音化趋势,在常用词组中,双字词组数量较大。双字词组编码,遵循词组编码的一般格式:词组编码=〔读音部分〕+〔部件部分〕。

(1)音形结合编码

①词组编码=〔词组读音〕+〔单字1取1个特征〕+〔或单字2取1个特征〕格式;用16800个双字词组编码。字母样式,将基础编码压缩,不等长码,可实现全部词组编码具有唯一确定性:每词组平均击键3.98次。

②词组编码=〔词组读音〕格式;即“声韵声韵”格式:用28600个双字词组编码。字符样式,最大码长4码,无重码率76%。数字样式,最大码长4码,无重码率24%。

(2)笔画形码编码

这里,用28600个双字词组编码。无重码率,数字样式与字符样式相同。

①词组编码=〔单字1取3个笔画〕+〔单字2取3个笔画〕:全码最多6码,可唯一确定性描述11344个词组,占28600条记录的39.66%;也可做成“3+x”格式,即单字1取3码,单字2从1码开始,逐渐增加码长,不等长编码,并进行唯一性筛选,可实现全部词组无重码。

②词组编码=〔单字1取4个笔画〕+〔单字2取4个笔画〕;全码最多8码,可唯一确定性描述21935个词组,占28600条记录的76.70%。也可做成“4+x”格式,即单字1取4码,单字2从1码开始,逐渐增加码长,不等长编码,并进行唯一性筛选,可实现全部词组无重码。

(3)联词输入  以双字词组为例。其它词组,以此类推。

①(基本音节1)+(声调+1)+(基本音节2)+(声调2)样式;先输入某字的基本音节,如无该字,输入该字的声调,仍无该字,再输入与该字联词应用的第二个字的基本音节,如还无该词组,继续输入第二个字的声调;如仍无该词组,则“翻页”选词输入。

②(基本音节1)+(基本音节2)+(声调1)+(声调2)样式;先输入词组中各汉字的基本音节,再输入各汉字的声调。如无该词组,则“翻页”选词输入。

5.另一种数字输入格式为:编码=〔读音代码+拼音字符序号〕(或+〔形义特征代码+拼音字符序号〕)。先键入读音部分,再键入形义特征部分。如句子“nihk(您好)”,先键入“nihk”的数字代码“6445”,然后键入“nihk”各字符在按键标志上的顺序序号“2322”,就得到“nihk”的数字编码“64452322”。形义特征部分,根据语境需要决定取舍。这里的“顺序序号”是指,字符在某一数字键上的位置排列,如数字键“1”,代表字符“ab”,“a”的序号为“1”,“b”的序号为“2”。

以上,对现有汉字的多种输入编码格式,特别是形码,进行了详细的叙述,可归纳一些有用的提示。①可以根据编码字词的数量,选用码型(即编码格式),预计大致的无重码率,有利于汉字输入的确定表达。②编码长度与无重码率和码位(即可供编码的个数)具有相关性。码长越长,无重码率越高,提供的码位越多。这种相关性,在同一码型内能够转换,具有实用意义。利用以上提示,使用者可以采用自助方式,设计个性化的汉字输入码表。人们的习用语汇不尽相同,并且数量相当有限;字词使用频率因人而异:经常使用的单字不多:需要适合自己个性的汉字输入码表;双分输入法为使用者提供了自助设计的条件。

双分输入法编码的一种个性化实现。①使用数据库表,随时不断地收集个人的习用字词,并进行字词统计筛选和使用频率排序。②根据个人习用字词的数量,喜欢的输入样式,选择合适的码型。③利用已有的双分输入法码表,导入字词的编码数据。④利用码型提供的码位,或采用数据库字段的“唯一性设置”,筛选导入的字词编码。⑤利用系统提供的“输入法生成器”,生成个人的字词码表。具体举例如下。如你现有的习用单字在3500个以内,以后一个时期,也不超过6000个,习用语汇只有几千条,你可以选用形码的2+3格式。它能实现3500个单字的无重码输入,最大码长5码,平均击键4.85次。它有可能并未覆盖你的习用单字,你可进行后面的“唯一确定性”筛选和“无重码处理”。“无重码处理”,最简易的实现,就是增加形义特征描述,应用于特殊情况。利用数据库表,导入形码2+3格式的字词数据,进行“唯一确定性”筛选,按使用频率排序,导出数据,生成码表文本文件。利用现有系统的“输入法生成器”,生成个性化的输入码表。如你今后的习用字词数量增加了,如字词重码率过高,你可以增加部件2的取码码长,选用2+4格式、2+5格式或2+6格式,就可以满足需要。输入的方法和原来一样,无重码率得到保证,平均击键次数,最多增加0.60次。如你今后的习用字词数量减少了,用不了这么些字词编码,也可以反过来,选用2+2格式。

一种幼儿实施方案。利用计算机,采用双分汉字的〔读音〕+〔汉字〕格式,将拼音、识字和信息输入相结合,为学前幼儿提供一种智力启蒙形式。不识字幼儿,可以比照双分汉字的字母和笔画,进行计算机输入;在计算机的语音和图像提示下,学习拼音和汉字。已有双分汉字基础的幼儿,可以在计算机辅助下,进行组词、造句和写话等发散思维训练:可以在大量阅读的基础上,学习写话作文。随着识字水平的提高,汉字的形义特征描述,逐步从笔画上升到部件;全码有利于识字,简码有利于输入。双分汉字的作用,就是让幼儿从小就将拼音、汉字和信息输入看作一回事,提前几年掌握拼音、识字和信息输入技能。

(二)双分汉字其它样式的输入

双分汉字,除了现有汉字样式外,还具有其它多种样式。这些样式,按表达式的拼写字符,归纳为四种,全字符样式、字符与汉字(或部件)组合样式、汉字(或部件)组合样式和数字代码样式。这里,对其输入方法加以叙述。

①全字符样式  双分汉字的全字符样式输入,可采用两种方法。一是,用ASCII码字符直接输入,可输出为汉字、双分汉字的全字符样式,或其它样式。二是,用代码输入(如双拼代码),可以减少击键次数。如,词组“hanzishuru`you-zi-che”(汉字输入),这里,选用了3个形义特征,“又、子、车”,采用全字符样式输入,需要击键21次。采用代码输入,比如用“声声声声”代码,只需击键4次。代码输入,需要相应的码表。

②字符与汉字(或部件)组合样式也有两种输入方法。一是,字符,用ASCII码输入;汉字或部件组合,用代码输入。二是,全部采用代码输入。代码输入,需要相应的码表。如,词组“fenfatuqiang`奋发图强”(奋发图强),采用代码输入,比如用“声声声声”代码,只需击键4次。

③汉字(或部件)组合样式  这种样式,采用代码输入。需要相应的码表。如,“`发贝才”(发财)、“`木目又寸”(相对),采用代码输入,直接输入“发财”,“相对”的汉字输入代码,就可实现这种样式双分汉字的输入和输出。

④编码=〔读音〕+〔各部分代码〕+〔字模合成数据〕或编码=〔各部分代码〕+〔字模合成数据〕格式  这种格式,直接输入汉字的读音和输入各部分代码,或只输入各部分代码,再输入汉字的字模合成数据,在实现汉字输入的同时,在应用程序帮助下,还可以实现用部件字模合成汉字字模,输出为字模合成汉字样式,或汉字部件横排样式。

⑤部件连续输入  将一个汉字的各个组成部件,用各个部件自身的编码连续输入,实现用较少数量的部件码表,将汉字输入和输出为双分汉字的部件横排样式。这种格式,可以减少汉字字模的数量。

⑥数字代码输入  直接键入数字键代码。不细述。

双分汉字的分隔符号与汉语拼音的隔音符号的输入。在汉字输入状态,这些符号已作为输入编码的码元,要将它们作为标点符号输入,可以①切换到英文输入状态输入;或②应用现有技术对其输入字符进行识别,区分输入的是码元或是标点符号,并自动配备给出。

双分输入法的使用。双分输入法的使用特点,就是,在一个编码思路下,提供多种应用选择,并不增加使用难度。其典型格式的应用,与汉语拼音输入一样,只是在出现重码时,增加形义特征描述,输入其代码。不会拼音,只识汉字者,可选用适合的形码。只会拼音者,不识汉字者,可选用适合的音码,并可辅助以联词取字、联词应用等样式。不识字者,还可将双分汉字文本“依样”输入,在语音提示下,理解、学习和使用双分汉字与双分输入法。利用“逐渐提示”和“汉字(部件)候选”等方式,可以实现非“一般能认汉字”与无名部件不用记忆。双分输入法,利用现有软件技术,可以实现“习用字词统计”、“动态频率调整”、“用过提前”等辅助功能。双分输入编码的一种简便应用,就是,生成自己满意的码表文件,加入到现有操作系统的输入法管理程序中。

三、双分汉字的输出

双分汉字可以输出为全字符样式,汉字,字模合成汉字,或双分汉字的其它样式。需要配备相应的输入码表、字模库。①全字符样式,输出为标准ASCII码字符,字模库可以做到最小。②汉字,可以保持现有输出方式不变,其字模库不变;也可以将常用汉字(或自定义范围)采用现有输出方式,其余非常用汉字,输出为字模合成汉字,可以减少字模库的数量。③字模合成汉字,是采用部件字模合成的汉字,字形与现有汉字相比,其部件字型具有标准化特征,字模库可以做得很小。④双分汉字的其它样式。部件横排样式,字模库的汉字部分,可以只有汉字部件的字模。字符和汉字(或部件)的混合样式,字模库可以根据需要定义。双分汉字的各种输出样式,可以根据需要定义,并配备相应的汉字输入码表和字模。

四、合成字模

现有的汉字字模,是“按字编码”,即一个字做一个字模,字模数量大。汉字的输出(显示或打印),需要庞大的字模库支持。汉字数量大,且“字无定数”,不能(也不可能)对所有汉字实现“按字编码”。若实行“按部件编码”,即一个部件做一个字模,采用部件字模来合成汉字字模,或采用基本部件字模来合成复杂部件字模,将精减字模的数量,实现新造字模规范化和字模风格个性化。这种用部件字模合成的汉字字模(或部件字模),叫做合成字模。用这种合成字模输出的汉字(或部件),就叫做合成汉字(或合成部件)。

合成字模,不同于现有操作系统中的“造字程序”。看起来,两者都能生成字模,但在功用、意义、方法和样式上,存在本质区别。比如,在字模库容量上,一个是增大容量,一个是减少容量。现有的“造字程序”,①不是用规范的部件字模,或个性化的部件字模,按照定义的合成数据生成汉字字模;②不能在应用程序中实现汉字字模合成;③不能减少汉字代码及字模的数量;④不能将所有汉字(包括新造汉字)显示为合成汉字样式,或具有个性化风格的合成汉字;⑤不能改进现有的输出(显示或打印)方式;⑥但它可以作为研究合成字模的辅助工具。下面,以汉字点阵与双分汉字,对合成字模加以说明。

(1)部件字模的制备。制备部件字模,最简便的做法,就是对已有汉字字模进行拆分。汉字是由部件合成的。将汉字字模,按部件组成进行拆分,可得到一系列部件点阵图形。将这些点阵图形归类、整理,使其图形最大化,字形标准化,就能生成规范的部件字模。利用双分汉字的“汉字两分”规则,可以方便地实现对汉字字模的拆分。在GB范围内,汉字字模“两分”,将生成约2000类部件字模。其中,成字字模约1400类,非成字字模约600类。利用现有技术中的“造字程序”,可以方便地实现非成字字模的规范化,并自动将其编码,存入字体文件。

(2)字模合成数据。字模的合成数据,包括合成字模所需的①部件字模,以及这些部件字模的②图形大小和③位置坐标。其一般表达式,可以写为:合成数据=[部件1,…,部件N]+[(高,宽)1,(横,纵)1]1+…+[(高,宽)N,(横,纵)N]N。式中,“[部件1,…,部件N]”,表示所需部件的代码;“(高,宽)N”,表示部件字模的大小;“(横,纵)N”,表示部件字模的位置;“[(高,宽)N,(横,纵)N]N”,表示某一部件的合成数据;可以将部件1至部件N的合成数据集合,按汉字结构分类描述,或用代码表示。已收录汉字的合成数据,可在已有点阵图形中,据实量取。未收录汉字和新造汉字的合成数据,可以①采用现有的“造字程序”,先用规范字模造字,然后在点阵图形中量取合成数据;②或直接定义部件字模及其合成数据。部件字模的图形大小和位置坐标,可以分部件描述,也可以按汉字的结构类型,分类整体描述。前者,叫做部件数据;后者,叫做结构类型数据(简称结构数据)。结构数据的理论依据,是汉字偏旁结构的固定性。比如,左右结构,占常用汉字的60%以上,其具体样式,在“汉字两分”中,一般分为3个大类。在图形大小上,有的是左右各半,有的是左右不同。对于确定的单字,左右两个部件,各自的位置和大小,是固定的。将这3类左右结构细分,还可以有6种样式。据资料,汉字的结构类型有几十种。“汉字两分”,结构类型(在GB范围)有二十几种。把这些结构类型标准化、数字化,或配上易记的代码,用来表示某类汉字的合成数据。合成数据的描述,图形大小和高宽区别,可以用倍率(或百分比)作单位,如,是规范字模的几倍(或百分之几);位置坐标,可以用比例(如百分比)作单位,如,点阵的左上角为(0%,0%),右下角为(100%,100%);长度也可以用坐标表示。合成数据举例。如,“相”字,左右对称,属于左右结构的第1类(可用表示);包含“木”和“目”两个部件,用双分汉字的全字符样式表示;部件大小,若规范部件字模的高和宽定义为100%,这两个部件的高和宽,可以定义为(100%,50%);部件位置,以部件字模的左上角坐标表示,“木”定义为(0%,0%),“目”定义为(50%,0%);“相”字的合成数据=[mu′hjds,mu′faggg]+[(100%,50%),(0%,0%)]+[(100%,50%),(50%,0%)];这里的“[(100%,50%),(0%,0%)]+[(100%,50%),(50%,0%)]”,是一种结构数据,可以用字符及代码表示:如表示为或“11”,“相”字的合成数据=[mu′hjds,mu′faggg]+[11]。合成数据,可以由个人定义,生成个性化字模。

(3)合成数据的取用。字模的合成数据,可以从键盘直接输入,也可以从键盘输入双分汉字代码,通过机内查表得到。这张“表”,反映汉字与部件的合成关系,包括所含部件、部件图形大小、位置坐标等数据,以及这些部件的机内编码。这种“机内查表”,可采用现有的汇编(或别的)程序实现。现有技术中,汉字字模是这样取用的:将汉字编码,转换成机器内码,字形检索程序根据给定内码访问字库,取出相应的汉字字模。字模合成数据的取用,可以采用如下方式;①输入“双分汉字”编码→查表,得到部件组成与合成数据→内码→取出各部件的字模及合成数据。②输入“双分部件”编码→内码→取出部件字模。③一种简易实现,直接从现有的点阵图形中量取。

(4)字模合成的一般原理。①取得部件点阵数据。②取得字模合成数据。③将各部件的点阵图形缩放到规定大小。部件图形,需要缩放至规定的高宽要求。④在“空白点阵”(全是“0”)中,将缩放后的部件图形按规定位置坐标放置。⑤将按规定放置后的各部件的点阵代码进行加法运算。⑥若各行代码没出现“进位”,或“进位”符合要求,说明相互位置合适。⑦若某行代码的“进位”不符合要求,则对相关部件的图形进行坐标平移试验,使其符合“进位”要求。这里的“进位”,是指点阵中代码为“1”的点,相互重合(相加),即相互分离的两个部件,出现重合。⑧将各部件图形进行迭加,实现字模合成。用基本部件字模合成复杂部件字模的方法,与用部件字模合成汉字字模的方法相同。只是增加了循环合成环节。以上步骤,可以在非中文环境下,通过QBASIC程序实现。

(5)合成字模的应用。合成字模的应用,需要配备相应的使用环境。①利用合成字模,改进现有造字方式,实现新造字模规范化,个人使用(字模)个性化。利用现有的“造字程序”,采用规范的部件字模和标准化的合成数据,可以生成规范的汉字字模;采用个性化的部件字模和个性化的合成数据,可以生成个性化的汉字字模,供个人使用。新造字模的代码,可用双分汉字的“(读音)+(部件组合)+(结构数据)”样式表示。②利用合成字模,在应用程序中实现特殊功能。比如,在英文的QBASIC应用程序中,利用合成字模,实现在屏幕任一位置,合成并显示定义大小的合成汉字。又比如,在特定的应用程序中,显示加密文件。③利用合成字模,改进现有汉字的输出(显示或打印)方式。合成字模的真正意义,是改进现有汉字的输出方式。但是,这一目的的实现。需要相应的汉字操作系统的支持(此处不作进一步叙述)。④字模个性化。选用某一书体的标准部件(或笔画)字模,以汉字书艺的间架结构法式,约百种,确定其相互位置和图形大小,进行迭加合成,生成具有个性风格的字模。将书艺与字模合成相结合,将改变“众人一体”的汉字形体现况。其简便的实现方式,就是利用“造字程序”生成一系列个性化字模备用。⑤汉字的合成输入。利用合成字模,生成一种新的汉字输入形式。将现有的“汉字编码”输入,改进为“部件编码”输入。从键盘直接输入汉字基本部件和结构类型,拼合汉字字模,供显示和打印使用。输入编码,可作为文字代码,用于文本的存储。比如,需要输入一个“仁”字,左右结构,左小右大,结构类型代码为“12”,则直接输入“亻”、“二”代码和结构数据“12”,则显示和打印将输出合成汉字“仁”。其输入编码,可以写作“`rf-er-12”,作为“仁”字的代码,并用于“仁”字的文本存储。汉字的合成输入,需要一个相应的操作系统,才能圆满的实现。在现有的操作系统中,汉字的合成输入,可以在特定的应用程序中使用。⑥移用于现有的印刷制版工艺。将现有的整字字模,改用合成字模,文字形态为合成汉字样式。

汉字字模是用“部件合成”,还是“按字编码”,应根据需要确定。可以将“按字编码”与“部件合成”相结合。常用汉字(或习用字)采用“按字编码”,非常用汉字(或非习用字)与新造汉字,采用“部件合成”,将实现用有限的“字模”,显示和打印所有汉字。也可以采用“极端用法”。汉字字模只装入几十种基本部件字模。全部汉字的显示和打印,全部采用合成字模。合成字模,可以临时生成,也可以用后存储,个人备用。合成汉字,可以采用双分汉字作为代码,便于文本存储。利用合成字模,在宏观上,可以实现所有汉字的字模表示;在具体使用上,只需要配备少量的个人习用字模;将节省社会资源。合成字模的基本部件,可以标志在键盘的键面上,

五、双分汉字及双分输入法的键盘定义

汉语拼音中,韵母“ü”,在需要写成字符“ü”时,可用字母“v”代替。双分汉字的分隔符号与汉语拼音的隔音符号,可以分别定义,也可以统一定义。其分别定义为:双分汉字的分隔符号,在读音与形义特征之间,用IBM标准键盘的41号键字符“`”(字符的ASCII码值为96)表示,在形义特征之间,用IBM标准键盘的12号键字符“-”(字符的ASCII码值为45)表示:或采用其它符号表示。汉语拼音的隔音符号,用IBM标准键盘的40号键字符“`”(字符的ASCII码值为39)或其它字符表示。其统一定义为:双分汉字的分隔符号与汉语拼音的隔音符号,统一为汉语拼音隔音符号,用IBM标准键盘的40号键字符“`”(字符的ASCII码值为39)或其它字符表示。在数字键盘中,为减少符号定义,将分隔符号与隔音符号统一为隔音符号,用数字键“0”表示。中文标点符号的定义,与操作系统一致。

1.标准键盘的键位定义

原标准键盘的规范设置不变。全拼代码的定义,与标准键盘的原有定义一致。这里,只叙述双拼代码和笔画代码的定义。“XX号键(XX)”系IBM标准键盘的键位编号,括号内是字符的ASCII码值。

(1)双拼代码的键位定义:16号键(81),代表声母“q”,韵母“iu”;       17号键(87),代表字母“w”,韵母“ua、ia”;18号键(69),代表韵母“e”;                   19号键(82),代表声母“r”,韵母“uan、van”;20号键(84),代表声母“t”,韵母“ve”;       21号键(89),代表字母“y”,韵母“uai、ing”;22号键(85),代表声母“sh”,韵母“u”;       23号键(73),代表声母“ch”,韵母“i”;24号键(79),代表韵母“o、uo”;               25号键(80),代表声母“p”,韵母“un、vn”;30号键(65),代表韵母“a”;                   31号键(83),代表声母“s”,韵母“iong、ong”;32号键(68),代表声母“d”,韵母“uang、iang”; 33号键(70),代表声母“f”,韵母“en”;34号键(71),代表声母“g”,字符“eng、ng”;    35号键(72),代表声母“h”,韵母“ang”:36号键(74),代表声母“j”,韵母“an”;         37号键(75),代表声母“k”,韵母“ao”:38号键(76),代表声母“l”,韵母“ai”;         44号键(90),代表声母“z”,韵母“ei”;45号键(88),代表声母“x”,韵母“ie”;        46号键(67),代表声母“c”,韵母“iao”;47号键(86),代表声母“zh”,韵母“ui、v”;    48号键(66),代表声母“b”,韵母“ou”;49号键(78),代表声母“n”,韵母“in”;        50号键(77),代表声母“m”,韵母“ian”;

(2)笔画代码的键位定义:30号键(65),字符“A”,代表“折”;      31号键(83),字符“S”,代表“捺”;32号键(68),字符“D”,代表“撇”;      33号键(70),字符“F”,代表“竖”;34号键(71),字符“G”,代表“横”;      35号键(72),字符“H”,代表“横叉”;36号键(74),字符“J”,代表“竖叉”;    37号键(75),字符“K”,代表“撇叉”;38号键(76),字符“L”,代表“捺叉”;    50号键(77),字符“M”,代表“拐”。

双拼代码指代的声母、韵母和字母,笔画代码和隔音(及分隔)符号对应的笔型和符号,都标志在标准键盘的键帽上,或标志在键帽旁。

2.数字键盘的键位定义

汉语拼音字母的键位定义,已有国家推荐标准。这里,是另一种定义样式。两种样式之间,可以通过基础码表进行“字/数”转换。

(1)汉语拼音字母:

数字键“1”,代表拼音字母的“a、b”;       数字键“2”,代表拼音字母的“c、d”;

数字键“3”,代表拼音字母的“e、f”;       数字键“4”,代表拼音字母的“g、h、i”;

数字键“5”,代表拼音字母的“j、k、l”;    数字键“6”,代表拼音字母的“m、n、o”; 

数字键“7”,代表拼音字母的“p、q、r”;    数字键“8”,代表拼音字母的“s、t、u”; 

数字键“9”,代表拼音字母的“v、w、x”;    数字键“0”,代表拼音字母的“y、z”。

(2)双拼代码:

数字键“1”,代表双拼代码的声母“b”,韵母“a、ou”;

数字键“2”,代表双拼代码的声母“c、d”,韵母“iao、iang、uang”;

数字键“3”,代表双拼代码的声母“f”,韵母“e、en”;

数字键“4”,代表双拼代码的声母“g、h、ch”,字符“eng、ng、ang、i”;

数字键“5”,代表双拼代码的声母“j、k、l”,韵母“an、ao、ai”;

数字键“6”,代表双拼代码的声母“m、n”,韵母“ian、in、o、uo”;

数字键“7”,代表双拼代码的声母“p、q、r”,韵母“un、vn、iu、uan、van”;

数字键“8”,代表双拼代码的声母“s、t、sh”,韵母“iong、ong、ve、u”;

数字键“9”,代表双拼代码的声母“zh、x”,字母“w”,韵母“ui、v、ia、ua、ie”;

数字键“0”,代表双拼代码的声母“z”,字母“y”,韵母“ing、uai、ei”。

(3)笔画代码:数字键“1”,代表“横”;      数字键“2”,代表“横叉”;    数字键“3”,代表“竖”;数字键“4”,代表“竖叉”;    数字键“5”,代表“撇”;      数字键“6”,代表“撇叉”;数字键“7”,代表“捺”;      数字键“8”,代表“捺叉”;    数字键“9”,代表“折”;数字键“0”,代表“拐”。

数字代码指代的声母、韵母和字母,笔画代码和隔音(及分隔)符号的相应笔型和符号,标志在键盘的键帽上,或标志在键帽旁。

3.大笔画代码的数字代码组合与对应字母的键位定义  大笔画代码的键位定义,将数字键盘与标准键盘一起叙述。标点符号定义与系统一致。隔音(及分隔)符号定义,如前述。基本笔画“横竖撇捺折”五种,分别用数码“1、2、3、4、5”表示;“交连”特征“独、首、中、尾、交”五种状态,也分别用数码“1、2、3、4、5”表示。将笔画和特征结合在一起,如“横独”、“竖交”等,组成笔画的特征代码。叙述如下。笔画特征“横独”,用数字表示为“11”,用字母表示为“G”;笔画特征“横首”,用数字表示为‘12”,用字母表示为“F”;笔画特征“横中”,用数字表示为“13”,用字母表示为“D”;笔画特征“横尾”,用数字表示为“14”,用字母表示为“S”;笔画特征“横交”,用数字表示为“15”,用字母表示为“A”;笔画特征“竖独”,用数字表示为“21”,用字母表示为“H”;笔画特征“竖首”,用数字表示为“22”,用字母表示为“J”;笔画特征“竖中”,用数字表示为“23”,用字母表示为“K”;笔画特征“竖尾”,用数字表示为“24”,用字母表示为“L”;笔画特征“竖交”,用数字表示为“25”,用字母表示为“M”;笔画特征“撇独”,用数字表示为“31”,用字母表示为“T”;笔画特征“撇首”,用数字表示为“32”,用字母表示为“R”;笔画特征“撇中”,用数字表示为“33”,用字母表示为“E”;笔画特征“撇尾”,用数字表示为“34”,用字母表示为“W”;笔画特征“撇交”,用数字表示为“35”,用字母表示为“Q”;笔画特征“捺独”,用数字表示为“41”,用字母表示为“Y”;笔画特征“捺首”,用数字表示为“42”,用字母表示为“U”;笔画特征“捺中”,用数字表示为“43”,用字母表示为“I”;笔画特征“捺尾”,用数字表示为“44”,用字母表示为“O”;笔画特征“捺交”,用数字表示为“45”,用字母表示为“P”;笔画特征“折独”,用数字表示为“51”,用字母表示为“N”;笔画特征“折首”,用数字表示为“52”,用字母表示为“B”;笔画特征“折中”,用数字表示为“53”,用字母表示为“V”;笔画特征“折尾”,用数字表示为“54”,用字母表示为“C”;笔画特征“折交”,用数字表示为“55”,用字母表示为“X”。

大笔画代码,相应的笔画和特征笔型,可标志在键盘的键帽上,不用记忆。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号