首页> 中国专利> ARM-Linux系统中文输入法汉字库生成方法

ARM-Linux系统中文输入法汉字库生成方法

摘要

本发明的ARM-Linux系统中文输入法汉字库生成方法,包括以下五个步骤:在Windows系统PC机中进行汉字采集;对初始化汉字库进行填充,生成初级汉字库;将生成的初级汉字库通过网络传输到ARM-Linux系统中,确定并标识无法识别的汉字;在PC机系统中对初级汉字库中ARM-Linux系统无法识别的汉字进行剔除;生成完整汉字库;本发明的ARM-Linux系统中文输入法汉字库生成方法实现了对L、S波段卫星移动通信便携式移动终端系统中的中文输入法的支持,除此之外,在其他缺少中文输入法的操作平台中,也可以利用该项目生成的汉字库,自行开发中文全拼输入法,为其系统提供中文输入支持。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-08-18

    未缴年费专利权终止 IPC(主分类):G06F17/22 授权公告日:20110105 终止日期:20151030 申请日:20091030

    专利权的终止

  • 2017-03-29

    专利权保全的解除 IPC(主分类):G06F17/22 授权公告日:20110105 解除日:20170126 申请日:20091030

    专利权的保全及其解除

  • 2016-08-24

    专利权的保全 IPC(主分类):G06F17/22 授权公告日:20110105 登记生效日:20160726 申请日:20091030

    专利权的保全及其解除

  • 2016-02-17

    专利权的保全 IPC(主分类):G06F17/22 授权公告日:20110105 登记生效日:20160113 申请日:20091030

    专利权的保全及其解除

  • 2011-01-05

    授权

    授权

  • 2010-04-28

    实质审查的生效 IPC(主分类):G06F17/22 申请日:20091030

    实质审查的生效

  • 2010-03-17

    公开

    公开

查看全部

说明书

技术领域

本发明涉及嵌入式ARM-Linux系统开发领域,特别是L、S波段卫星移动通信便携式移动终端的ARM-Linux系统中文输入法汉字库生成方法。

背景技术

目前,ARM板已普遍应用于手机、玩具等电器产品中。特别是嵌入式Linux技术与ARM板相结合,以其开放的源代码、低廉的价格、方便的开发环境受到了众多开发厂家的青睐。然而,在ARM系统上安装的嵌入式Linux系统中,虽然支持汉字字符的显示,但并未提供任何中文汉字的输入方法,以至,用户不能通过ARM系统输入任何汉字。显然,这样的平台完全不能满足L、S波段卫星移动通信便携式移动终端,对用户信息输入的功能要求。

在一些比较成熟的嵌入式系统和PC机上,均提供一种或者多种中文输入法,以方便用户输入中文信息。但是这些系统的中文输入法程序由于不能与ARM指令系统兼容,因此不能简单复制到ARM系统中直接使用。虽然在ARM系统上开发的程序中需要使用汉字提示时,可以通过PC机上编辑这些汉字,然后通过交叉编译器生成可执行程序文件后,拷贝至ARM系统。当程序在ARM平台上运行后,屏幕上就可以显示出这些汉字提示,但要在程序中直接输入汉字数据则无能为力了。显然,这种情况极大地限制了ARM系统在实际中的应用。

设计ARM系统上的中文输入法过程中,中文汉字库是中文输入法实现的基础,中文汉字库的设计关系到整个中文输入法的性能。优秀的中文汉字库应该在保证中文输入法正确的前提下,使中文输入法的设计与实现更加简单和高效。

在需要自己设计输入法的系统中,比如L、S波段卫星移动通信便携式移动终端使用的嵌入式Linux系统中,目前没有成熟的用于汉字输入的中文汉字库。

发明内容

本发明的目的是克服现有技术的缺陷,提供一种主要服务于L、S波段卫星移动通信便携式移动终端系统中的中文输入法支持的汉字库生成方法。

本发明的目的是这样实现的:

ARM-Linux系统中文输入法汉字库生成方法,本方法的ARM-Linux系统中文输入法汉字库通过以下五个步骤生成:

1、在Windows系统PC机中进行汉字采集:采集程序将按照内置的拼音组合规则,自动产生各种汉语拼音组合,并将组成这些拼音组合的字母自动发送到PC系统的中文全拼输入法程序,用程序模拟键盘按键信息输入,程序在运行期间将把拼音信息和捕获的PC系统中文全拼输入法输出的对应汉字编码信息一起保存在一个文件中,直到将所有的汉语拼音信息和汉字信息记录完成,程序将自动结束运行。

2、按照既定的汉字库格式初始化汉字库:以上述步骤1所得到的汉字采集文件为输入,按照ARM-Linux系统准备开发的中文全拼输入法的功能要求确定编码组织形式,对初始化汉字库进行填充,生成初级汉字库。

3、确定ARM-Linux中无法正常显示的汉字:将生成的初级汉字库通过网络传输到ARM-Linux系统中,然后,在ARM-Linux系统中,按照输入法可以访问的形式,将汉字库中的拼音和对应汉字自动遍历并在ARM-Linux系统显示出来,ARM-Linux中无法正常显示的汉字的十六进制编码为“EF BF BD”,将包括该编码信息的拼音和汉字信息保存成为一个新的文档;由于ARM-Linux中对任何无法正常显示的汉字编码都将统一用十六进制的“EF BF BD”表达,而能够正常显示的汉字编码则直接使用其对应的唯一一个UTF8编码表达,因此我们通过捕获显示汉字的编码,就可以非常容易地确定哪些汉字在ARM-Linux中不能正常显示。

4、剔除无法正常显示的汉字:将步骤3所得到的记录有ARM-Linux中无法正常显示的汉字文档信息通过网络传输回PC机系统,并以该文档和初级汉字库为输入,运行程序自动剔除在ARM-Linux中无法正常显示的全部汉字,同时重新生成一个全部由ARM-Linux中可以正常显示的汉字组成,符合步骤1所产生的文件格式的新文件,以便在下一步生成一个ARM-Linux环境中可用的汉字库。

5、按照既定的汉字库格式生成最终汉字库:以已剔除全部无法显示汉字的文件为输入,按照ARM-Linux系统准备开发的中文全拼输入法的功能要求确定编码组织形式,生成最终可以在目标系统中正常使用的汉字库,这样全拼输入法使用的汉字库生成完成。

由于在Windows环境下可以利用其丰富的资源进行方便的编程取得汉字信息和生成既定格式的汉字库,但只有在ARM-Linux环境下才可以正确的确定哪些汉字无法正常显示,即非法汉字。所以汉字库的创建流程分为在Windows环境下和ARM-Linux环境下的处理。

其中,在步骤1中所述程序模拟键盘按键信息输入时可利用汉语拼音的特点,将汉语拼音中的声母和韵母进行组合输入,输入拼音时将所有的声母作为声母源单元,将所有韵母都作为韵母输入源单元,每次输入的拼音都为一个声母源单元和一个韵母源单元的组合。汉语拼音中声母的个数为23个,其中双字母声母为3个,其余为单字母声母;韵母个数为35个,其中单字母韵母6个,双字母韵母13个,三字母韵母12个,四字母韵母4个,可以计算出需要输入键盘键码的次数为2268次。采用声母韵母组合输入拼音的输入正确率提高到了19.2239%,这比无序的输入字母进行汉字采集提高了1415倍。在主频为2.0GHz的普通PC机上处理如此多的键盘输入,经多次实验测得向缓存输入汉字和记录汉字到指定文件的总共时间约为5.5小时,共采集了456个拼音,这些拼音共记录了61609个汉字。由分析可知,在采集汉字的过程中本文提出的使用声母和韵母组合后采集汉字的方法提高输入的正确率,大大减少了采集汉字信息的输入次数,是一种优秀的汉字采集方法。

本发明的有益效果:

本发明的ARM-Linux系统中文输入法汉字库生成方法实现了对L、S波段卫星移动通信便携式移动终端系统中的中文输入法的支持,除此之外,在其他缺少中文输入法的操作平台中,也可以利用该项目生成的汉字库,自行开发中文全拼输入法,为其系统提供中文输入支持。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1是本发明的流程示意图。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

本实施例的ARM-Linux系统中文输入法汉字库生成方法,如图1所示,通过以下五个步骤生成ARM-Linux系统中文输入法汉字库:

1、在Windows系统PC机中进行汉字采集:采集程序将按照内置的拼音组合规则,自动产生各种汉语拼音组合,并将组成这些拼音组合的字母自动发送到PC系统的中文全拼输入法程序,用程序模拟键盘按键信息输入,程序在运行期间将把拼音信息和捕获的PC系统中文全拼输入法输出的对应汉字编码信息一起保存在一个文件中,直到将所有的汉语拼音信息和汉字信息记录完成,程序将自动结束运行。程序模拟键盘按键信息输入时利用汉语拼音的特点,将汉语拼音中的声母和韵母进行组合输入,输入拼音时将所有的声母作为声母源单元,将所有韵母都作为韵母输入源单元,每次输入的拼音都为一个声母源单元和一个韵母源单元的组合。汉字信息采集的时候,存储拼音和汉字信息的格式如下:文件的每一行开头为本行汉字的拼音组标号,后边为汉字拼音元,汉字拼音元为汉字加拼音的格式,如“啊:a0”,“啊”为汉字,“a”为拼音,“0”是“a”这个拼音在使用的输入法中对应的序号。取得拼音和对应的汉字信息之后,这些信息无法使中文输入法方便地使用,因此需要通过第2步将这些信息加工为指定格式的汉字和拼音对应关系。

2、按照既定的汉字库格式初始化汉字库:以上述步骤1得到的汉字采集文件为输入,采用Unicode编码形式,对初始化汉字库进行填充,生成初级汉字库。填充空的汉字库时,将采集汉字生成的汉字文件信息按行分解开来成为汉字信息单元,在每个单元的开头有一个组号,找到第一个组号为“0”的单元时,将该组拼音填入到第一个拼音入口的拼音信息中,记下来该汉字库中正文的位置,将该位置信息添加到拼音入口的对应结构。然后将该组的所有的汉字部分添加到汉字库中,并做好汉字个数的记录,最后将该汉字个数记录写入汉字库拼音入口的字数统计处。将这一组的汉字和拼音信息提取并写入汉字库以后,再判断下一组的汉字信息,此时如果组号不为“0”,则继续添加本组汉字信息到汉字库的正文部分,并将汉字字数统计信息进行更新。依照此操作,找到下一组组号为“0”的汉字信息单元,将拼音入口的序号向后移动一个,继续以上的操作。直到找到汉字采集文件的最后一个汉字。

3、确定ARM-Linux中无法正常显示的汉字:将生成的初级汉字库通过网络传输到ARM-Linux系统中,在ARM-Linux系统中,按照输入法可以访问的形式,将汉字库中的拼音和对应汉字自动遍历并在ARM-Linux系统显示出来,ARM-Linux中无法正常显示的汉字的十六进制编码为“EF BF BD”,将包括该编码信息的拼音和汉字信息保存成为一个新的文档。

4、剔除无法正常显示的汉字:将步骤3得到的ARM-Linux中无法正常显示的汉字文档信息通过网络传输回PC机系统,遍历初级汉字库,将ARM-Linux中无法正常显示的汉字文档中的汉字剔除,剔除非法汉字的同时,为了使下一步生成真正ARM-Linux可用的汉字库,应将剔除非法汉字后的文件按照采集汉字后生成的文件格式进行编辑。

5、按照既定的汉字库格式生成最终汉字库:以已剔除全部无法显示汉字的文件为输入,按照ARM-Linux系统准备开发的中文全拼输入法的功能要求确定编码组织形式,生成最终可以在目标系统中正常使用的汉字库,这样全拼输入法使用的汉字库生成完成。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号