首页> 中国专利> 盲文点位汉字编码及其与盲文之间的机器翻译方法

盲文点位汉字编码及其与盲文之间的机器翻译方法

摘要

本发明提出了一种盲文点位汉字编码,用六个方位符、第一结束符、第二结束符、“空”、“缺”、“满”组成的汉字序列来表示盲文,还提出了盲文点位汉字编码与盲文之间的机器翻译方法:每方盲文作为独立的符号,且上下文无关,直接将盲文替换成对应的盲文点位汉字编码;盲文点位汉字编码到盲文的机器翻译方法为,将盲文点位汉字编码到盲文的转换用不确定有穷自动机描述,然后用逆序拆分子集法对其进行确定化,最后编程实现。本发明将盲文转换为汉字序列,设计了盲文与点位汉字编码之间的机器翻译,实现了盲文在安装盲文字库和没有安装盲文字库的计算机之间自由迁移,使得盲文存储方式更加简便,也为盲文的语音识别与文语转换奠定基础。

著录项

  • 公开/公告号CN106021241A

    专利类型发明专利

  • 公开/公告日2016-10-12

    原文格式PDF

  • 申请/专利权人 河海大学;

    申请/专利号CN201610302219.6

  • 发明设计人 张居晓;曾晓勤;

    申请日2016-05-09

  • 分类号G06F17/28(20060101);G06F17/22(20060101);

  • 代理机构32224 南京纵横知识产权代理有限公司;

  • 代理人董建林

  • 地址 210098 江苏省南京市鼓楼区西康路1号

  • 入库时间 2023-06-19 00:39:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-16

    未缴年费专利权终止 IPC(主分类):G06F17/28 专利号:ZL2016103022196 申请日:20160509 授权公告日:20180814

    专利权的终止

  • 2018-08-14

    授权

    授权

  • 2016-11-09

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20160509

    实质审查的生效

  • 2016-10-12

    公开

    公开

说明书

技术领域

本发明涉及一种盲文点位汉字编码以及盲文点位汉字编码与盲文之间的机器翻译方法,属于计算机文字处理技术领域。

背景技术

据统计,截止2010年末,我国约有视力残疾者1263万人,世界卫生组织估计全世界有盲人4000万到4500万,而低视力人数是盲人的3倍,约1.4亿人。日益增长的残疾人人口和他们对信息迫切的需求是目前信息无障碍建设面临的严峻挑战。使用计算机进行信息处理是现代人的基本能力,但是目前普通计算机的人机交互设计较少考虑到视觉障碍人士的需求,计算机中没有安装统一的盲文字库,盲文文档在安装了盲文字库的计算机和没有安装盲文字库(或者安装了不同版本的盲文字库)的计算机之间不能自由迁移,造成盲人在计算机上使用盲文非常不方便。

计算机的人机交互技术包含输入与输出两个方面。盲人使用计算机时,输入阶段可用键盘、麦克风(语音识别)等输入设备将文字或命令输入计算机;输出阶段则是指将文字或其它信息通过语音等方式输出。日趋成熟的语音识别技术与文语转换技术,在智能手机、平板电脑上也广泛使用。

为了解决盲人使用计算机的人机交互问题,国内外研究者进行了大量研究,开发了大量的系统或者专业软件。输入设备或系统有键盘(针对盲人的输入法)、麦克风(语音识别技术:语音到文字的输入技术)和扫描仪(OCR技术:纸质文字转换为电子文档技术);输出设备或系统有点显器(文字到盲文输出设备)、盲文刻印机(文字到纸质盲文输出设备)和读屏软件(文语转换技术,文字到语音的输出技术)等。专门针对盲人设计的系统有:盲文字符OCR是将纸质盲文图片识别成盲文符号,再转换成汉字;使用键盘可以输入汉字,再把汉字转换为盲文;也可以使用键盘输入直接盲文,用点显器输出盲文,或者将盲文转换成汉字输出;点显器是能够将计算机中的文字(汉字和盲文)转换为盲文输出。目前国 内相对较成熟的系统是阳光软件,具有输入与显示汉字和盲文、盲文与汉字互转等功能。

盲人与计算机的交互技术是一项有重要意义的研究。除去普通人士也能用的语音识别、文语转换等交互技术,其他技术均要涉及一个基础工作——盲文字库。有了盲文字库的计算机才能输入、存储、显示盲文。现有的技术或应用中存在以下不足:

(1)盲文字库专用,非专用软件不能使用盲文字库。

盲文是盲人进行学习的一种文字工具,常规的计算机系统一般没有安装盲文字库。上述技术要么没有用到盲文字库,要么立足于自家专用盲文字库。出于知识产权考虑,目前国内盲文字库与软件是配套使用,脱离了相应软件,盲文无法输入、显示与使用,也不能兼容别家的盲文字库。

(2)没有安装盲文字库的计算机无法显示盲文。

要使用点显器、刻印机等设备时,其计算机必须安装有盲文字库,这点是毋庸置疑的。但当盲文文档编辑好后,依然不能在没有安装盲文字库的计算机显示盲文的点位,这样不便于盲文的文档存储、传输。

(3)盲文与中文的翻译应用效果不尽如人意。

盲文与汉字之间转换正确率无法得到100%。目前我国采用是现行盲文,每个汉字用两方盲文表示,一方表示声母,一方表示韵母。如声母m用盲文表示,韵母ei用盲文表示,所以汉字“美”,拼音为mei,盲文表示为发音相同的汉字“没”、“每”也都是这样盲文表示。现行盲文表示汉字时固有缺陷,使得盲汉或汉盲的转换正确率无法得到100%,效果比较好的也只能达到97%。而盲文阅读是摸读,也就是盲人依次摸一个个盲文点字,识别成声母韵母后转为汉字或词组,不能像普通人阅读语句能够依据上下文理解,就是盲人对盲文的容错率低。虽然转换正确率已经令人很满意,但是盲文阅读习惯与汉字不同,就算是个别盲文点字的错误也无法准确理解语义。拥有97%的准确率的盲汉转换系统没有实际应用就是这个原因。

(4)无法实现盲文与汉字、各种符号的混排与转换。

盲文表示的信息除了文字以外,还能表示数学、物理、化学、音乐等其他学科的符号或者表达式。前面的研究实现了盲文与汉字的转换(翻译)、数学符号与盲文的翻译转换,但未能实现其他学科符号的混排、存储、转换。

发明内容

本发明的目的在于克服现有技术的缺陷,提供一种盲文点位汉字编码及其与盲文之间的机器翻译方法,将盲文转换为汉字序列,实现了盲文在安装盲文字库的计算机和没有安装盲文字库(或者不同版本的盲文字库)的计算机之间自由迁移,实现了盲文与盲文点位汉字编码之间的机器翻译,使得盲文存储方式更加简便,具有更强的兼容性。

为了达到上述目的,本发明所采用的技术方案是:

一种盲文点位汉字编码,其特征在于,用六个方位符、第一结束符、第二结束符、“空”、“缺”、“满”组成的汉字序列来表示盲文,包括:

对盲文的六个点依次标号:六个点分别用数字1-6进行标号;

依次读取盲文并将其转换成汉字序列:如果盲文凸点数量为0个,则对应的汉字序列为“空”加第二结束符;如果盲文凸点数量为1-4个,则依次取盲文凸点的标号,将每个数字标号转为对应的方位符,然后在最后一个方位符后面加上第一结束符;如果盲文凸点数量为5个,则对应的汉字序列为“缺*”,其中,*为盲文的非凸点的数字标号对应的方位符,并在*的汉字后面加上第二结束符;如果盲文凸点数量为6个,则对应的汉字序列为“满”加第二结束符。

前述的一种盲文点位汉字编码,其特征在于,用数字1-6对盲文进行按序标号时,盲文的左边一列从上到下,依次记为1、2、3;右边一列从上到下,依次记为4、5、6。

前述的一种盲文点位汉字编码,其特征在于,所述六个方位符为汉字“一”、“二”、“三”、“四”、“五”、“六”,分别对应数字标号1、2、3、4、5、6;所述第一结束符为汉字“点”;所述第二结束符为汉字“方”。

前述的一种盲文点位汉字编码,其特征在于,盲文凸点数量为1-4个时,读取盲文凸点标号的顺序为,按照标号从小到大的顺序读取。

基于权利前述的盲文点位汉字编码的一种盲文点位汉字编码与盲文之间的机器翻译方法,其特征在于,包括:

盲文到盲文点位汉字编码的机器翻译方法:每方盲文作为上下文无关的符号,直接将盲文替换成对应的盲文点位汉字编码;

盲文点位汉字编码到盲文的机器翻译方法为:将盲文点位汉字编码到盲文的转换用不确定有穷自动机描述,然后用逆序拆分子集法(ROSS)对其进行确定化,最后编程实现盲文点位汉字编码到盲文的翻译,具体包括如下步骤:

A,构建第一不确定有穷自动机描述盲文点位汉字编码到盲文的转换过程;

B,定义逆序拆分子集法(ROSS)的3个原则:最大逆匹配原则、次序唯一性原则和终态不等价原则,所述最大逆匹配原则为:第一结束符和第二结束符前面的方位符,如果从后向前对应的数字标号满足从大到小的排列,则这些方位符均属于同一方盲文;所述次序唯一性原则为:第一结束符和第二结束符前面的方位符次序不可颠倒;所述终态不等价原则为:每个盲文点位汉字编码有只有一个结束符,且结束符只能为第一结束符或第二结束符;

C,利用上述的3个原则,对步骤A构建的第一不确定有穷自动机先进行逆序再进行拆分操作,得到两个子不确定有穷自动机:第二不确定有穷自动机和第三不确定有穷自动机,用子集法分别对第二不确定有穷自动机和第三不确定有穷自动机进行确定化,得到两个确定有穷自动机:第二确定有穷自动机和第三确定有穷自动机,描述盲文点位汉字编码到盲文的转换过程;

D,最后用程序实现第二确定有穷自动机和第三确定有穷自动机,完成对盲文点位汉字编码到盲文的翻译。

前述的一种盲文点位汉字编码与盲文之间的机器翻译方法,其特征在于,所述步骤C中对步骤A构建的第一不确定有穷自动机先进行逆序再进行拆分操作,简化成两个子不确定有穷自动机:第二不确定有穷自动机和第三不确定有穷自动机,用子集法分别对第二不确定有穷自动机和第三不确定有穷自动机进行确定化,得到两个确定有穷自动机:第二确定有穷自动机和第三确定有穷自动机,具体包括如下步骤:

C1,将第一不确定有穷自动机的所有箭头方向逆序,输入状态保持不变,终结状态变成初始状态,即第一结束符和第二结束符转为初始状态;

C2,用第一结束符和第二结束符为初始状态,拆分成两个分别以第一结束符和第二结束符为初始状态的子不确定有穷自动机:第二不确定有穷自动机和第三不确定有穷自动机;

C3,用子集法分别对第二不确定有穷自动机和第三不确定有穷自动机确定化并化简,得到:第二确定有穷自动机和第三确定有穷自动机。

与现有技术相比,本发明具有以下的有益效果:

(1)提出用点位汉字编码存储盲文,解决字库兼容性问题:

点位汉字编码使用汉字字库(GB18030),其兼容性与通用性都强于专用盲文字库,甚至在手机等智能电子设备都能使用。点位汉字编码还能够作为不同盲文字库的中间码,解决不同盲文字库的兼容性冲突问题。盲文转换成点位汉字编码后在没有安装盲文字库的电子设备上存储与使用,上述电子设备是安装有汉字字库的电子设备,包括但不限于计算机、智能手机、平板电脑。

(2)直接处理盲文文档,不用机器翻译:

现有技术中,盲文与汉字的机器翻译错误很难被发现,用本发明的点位汉字编码直接编辑处理盲文,可以采用专用盲文输入法直接输入盲文,再转为点位汉字编码存储传输,也可以汉字输入法输入点位汉字编码,再转换为盲文使用。本发明提出的点位汉字编码序列到盲文的机器翻译方法,盲文与点位汉字编码之间转换的准确率为100%。

(3)实现盲文与汉字、各种符号的混排与转换:

将盲文转换为点位汉字编码,就能将二维信息转为线性的汉字序列,就适用汉字的处理方式。在现有的技术中,能处理汉字就能处理盲文,在没有安装盲文字库计算机上显示为点位汉字编码,便于文档保存、传输;文档转移到有装有盲文字库的计算机能够实现点位汉字编码再转换成盲文。

同时,本发明还提出了盲文的注音概念,用点位汉字编码的语音序列作为盲文注音,使得原先仅具有符号特征的盲文也具有了读音特征,为盲文的语音输入 与输出提供了基础,丰富了盲人与计算机的人机交互技术,拓宽了人机交互的途径与应用领域,也为盲文的语音识别与文语转换奠定基础。

附图说明

图1是本发明的盲文点位标号示意图。

图2是本发明的盲文与盲文点位汉字编码对照表。

图3是本发明的描述盲文点位汉字编码到盲文的转换的不确定有穷自动机M。

图4是M1进行确定化后得到的确定有穷自动机DFA1。

图5是M2进行确定化后得到的确定有穷自动机DFA2。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

一种盲文点位汉字编码:用汉字“一”、“二”、“三”、“四”、“五”“六”、“点”、“方”、“空”、“缺”、“满”组成的汉字序列来表示盲文,如图1所示,根据盲文的基本特征,将盲文中6个点分别用数字1-6标记,顺序为从上到下从左到右。获取盲文凸点的点位信息,转为用汉字表示。依次读取盲文并将其转换成汉字序列:如果盲文凸点数量为0个,则对应的汉字序列为“空方”;如果盲文凸点数量为1-4个,则依次取盲文凸点的标号,将每个数字标号转为对应的数字汉字,然后在最后一个凸点标号的汉字后面加上“点”字;如果盲文凸点数量为5个,则对应的汉字序列为“缺*方”,其中,*为盲文的非凸点的数字标号对应的数字汉字;如果盲文凸点数量为6个,则对应的汉字序列为“满方”。

如凸点的数字标号分别1,3,5,则汉字序列“一三五点”为该盲文的点位汉字编码。

使用盲文时,可以用盲文的点位表示。例如表示拼音“bēng”,实际使用过程中也可以按照其点位,读作“一二点三四五六点一点”。在数学领域表示为“1”,读作“三四五六点一点”。

如图2所示,列出64个盲文与汉字编码的对照表,其中五个点用缺方表示,如表示为“缺六方”,不表示为“一二三四五点”。这样目的是减少盲文对应的汉字数,使得编码更加简洁。

一种盲文点位汉字编码与盲文之间的机器翻译方法,包括:

盲文到盲文点位汉字编码的机器翻译方法:因为每方盲文为独立的符号,且上下文无关,直接将盲文替换成对应的盲文点位汉字编码。

盲文点位汉字编码到盲文的机器翻译方法为:将盲文点位汉字编码到盲文的转换用不确定有穷自动机描述,然后用逆序拆分子集法(ROSS)完成对其进行确定化,最后编程实现盲文点位汉字编码到盲文的翻译,具体包括如下步骤:

A,如图3所示,构建一个不确定有穷自动机M描述盲文点位汉字编码到盲文的转换过程,M是一个五元组:M=(Χ,Ψ,f,S,Z),

其中Χ是一个有穷状态集,Χ={χii∈W},W={0,1,2,3,4,5,6,7,10,11,12,13,14,15,16};

Ψ是一个输入有穷汉字表,Ψ={一,二,三,四,五,六,点,方,满,缺,空},为简化表达,用字母依次替代,D={a,b,c,d,e,f,p,q,m,n,k},即Ψ={ψii∈D},其中D1=a,D2=b,D3=c,D4=d,D5=e,D6=f,D7=p,D8=q,D9=m,D10=n,D11=k;

f为转换函数,f(χii)=χj,其中(χi,χj∈Χ,ψi∈Ψ);

S为初始状态集,S={0};

Z为终结状态,Z={6,7}。

其实f是一个从Χ×Ψ*到Χ的子集的映射,如语义表达“一三点”和“三一点”可以是等价的,这样f:Χ×Ψ*→2Χ,2Χ表示Χ的幂集。

B,定义逆序拆分子集法(ROSS)的3个原则:最大逆匹配原则、次序唯一性原则和终态不等价原则。

最大逆匹配原则为:第一结束符和第二结束符前面的方位符,如果从后向前对应的数字标号满足从大到小的排列,则这些方位符均属于同一方盲文,例如:汉字点位编码“一二三四点”依据最大逆匹配原则转换为盲文而不转换为“一”或者其他形式;

次序唯一性原则为:第一结束符和第二结束符前面的方位符次序不可颠倒; 例如:汉字点位编码“一四五点”≠“四一五点”≠“五一四点”≠……;盲文的唯一编码“一四五点”,“四一五点”根据最大逆匹配原则,转换为“四”。

终态不等价原则为:每个点位汉字编码尤其只有一个结束符,且结束符只能为“点”或“方”。例如:“四方”≠“四点”,即“缺四方”≠“缺”。;

C,利用上述的3个原则,对步骤A构建的M逆序拆分子集法操作,具体步骤如下:

C1,将M的所有箭头方向逆序,输入状态保持不变,终结状态6和7变成初始状态。

C2,用6和7为初始状态,拆分成两个分别以6和7为初始状态的子不确定有穷自动机:M1和M2。

M1是一个五元组:M1=(Χ’,Ψ’,f’,S’,Z’),其中

Χ’是一个有穷状态集,Χ’={1,2,3,4,5,6};

Ψ’是一个输入有穷字母表,Ψ’={a,b,c,d,e,f,q,m,n,k};

f'为转换函数,f’(χji)=χii,χj∈Χ’,ψi∈Ψ’);

S’为初始状态集,S’={6};

Z’是终结状态,Z’={1,2,3}。

M2是一个五元组:M2=(Χ”,Ψ”,f”,S”,Z”),

其中Χ”是一个有穷状态集,Χ”={7,10,11,12,13,14,15,16};

Ψ”是一个输入有穷字母表,Ψ”={a,b,c,d,e,f,p};

f"为转换函数,f”(χji)=χii,χj∈Χ”,ψi∈Ψ”);

S”为初始状态集,S”={7};

Z”是终结状态,Z”={10}。

C3,用子集法分别对M1和M2确定化并化简,得到两个确定有穷自动机:DFA1和DFA2(如图4和图5所示)。用子集法对M1和M2确定化过程在此不作描述

D,最后用程序实现第二确定有穷自动机和第三确定有穷自动机,完成对盲文点位汉字编码到盲文的翻译。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号