首页> 中国专利> 管理电子形式的中文、日文及韩文语言数据的模组系统与方法

管理电子形式的中文、日文及韩文语言数据的模组系统与方法

摘要

本发明的实施例可以包含分类词汇数据的装置;准确描述结构分级数据的装置;收容具有不同数据结构的专有字典的装置;用以将来自分开词汇的数据汇集成聚集名单的装置;由收集来自特定用户的数据的装置;及手写识别、光学字元识别、及文字至语音及语音至文字转换的特定界面。实施例可以提供于数据描述、数据连接性及存取、数据表达、数据加强、及输入功能上的显著加强。输入装置可以为相同发明人所耦接至文字查看发明的电子实施法,以促成个别文字的查看。一个例示实施例可以包含语言服务中心,其与各种自然语言处理模组通过界面连接,使得模组的用户可以利用设于所述系统中的语言数据的资源。所得的系统可以显著最小化当使用日文、中文或韩文电子文字时,所典型遭受的挫折与不便。也揭示了一种营收共享及数据安全系统,用以鼓励竞争者使其数据可以为系统所使用,使得词汇数据提供者、OS提供者、LSC提供者、及用户可以互蒙其利。

著录项

  • 公开/公告号CN102016836A

    专利类型发明专利

  • 公开/公告日2011-04-13

    原文格式PDF

  • 申请/专利权人 沃伦·丹尼尔·蔡尔德;

    申请/专利号CN200880125477.5

  • 发明设计人 沃伦·丹尼尔·蔡尔德;

    申请日2008-11-25

  • 分类号

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人马景辉

  • 地址 美国马里兰

  • 入库时间 2023-12-18 02:05:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-03-13

    授权

    授权

  • 2011-06-01

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20081125

    实质审查的生效

  • 2011-04-13

    公开

    公开

说明书

本发明请求编号为60/990,123、于2007年11月26日提交、标题为“协助分类、搜索及检索的中文型字及文字偏旁的分类方法、装置及软件”的美国临时专利申请案;编号为60/990,166、于2007年11月26日提交、标题为“管理电子上下文中的中文,日文及韩文语言数据的模组方法”的美国临时专利申请案;及编号为No.60/991,010、于2007年11月29日提交、标题为“协助分类、搜索及检索的中文型字及文字偏旁的分类方法、装置及软件”的美国临时专利申请案的权利。以上各项经由引用被全部包括在此。

技术领域

本发明的例示实施例总的涉及加强电脑的语言功能及其他电子语言数据的方法与设备,更明确地说,是有关于管理电子形式的中文、日文、及韩文语言数据的系统与方法。

背景技术

中文、日文、及韩文(CJK)书写系统各个使用大量的文字,这些文字不是起源于中文就是在外表上模仿中文文字。为了这些理由,各种策略已经加以想出,以使得中文型字元可以使用具有有限按键的键盘输入至计算机(或查看)。这种传统输入手段典型称为输入法。输入法已经被设计用于各种的输入装置,例如键盘、触笔与绘图板、及数字按键等。

输入目标字的键盘为主的输入法的操作典型根据三种主要原理之一:1)键入一连串对应于目标字包含的形状的按键;2)键入对应于目标字的声音的一连串按键;或3)键入对应于构成目标字基本形式的一连串按键。一旦键入所述连串的按键,则一名单的候选字会被显示,例如在文字应用程序(例如文字处理器或电子辞典)或浮动输入窗。用户然后可以通过键入对应于想要的候选字的数字选择想要的候选字或词,并且字或词可以变成被书写文字的一部份。有时,传统系统使用构词(morphological)或语法信息,以想要减少候选名单或“猜想”想要的字元。

输入的其他形式包含:光学字元识别,其中在打印页中的文字被扫描并自动解译;手写识别,其中由手使用输入触笔来描绘文字,这时点识别软件自动解译手写笔划并将之转换为文字;及语音至文字转换,其中语音数据被转换为文字。也可以使用适当软件将文字转换为语音。

虽然有新的输入技术发开,但仍有大量的不够好的地方。本发明的一个或多个实施例针对这些在传统输入法与其他语言服务中的不足、问题及限制加以进行。

电子词典及输入方法大致并不会给用户对储存文字的专用词典的数据源有控制的机会。词汇数据的缺乏可能使得用户很难找到或输入专有名称及技术名称。地名、专有名称、及技术名词经常在这些专用词典中找不到并可能受挫而不想输入。

用于输入方法及电子词典的词汇数据源通常很有限并通常为贩卖者所预定。使用传统系统或输入方法,不可能组合来自不同贩卖者的数据源,也不可能选择在输入时所将要显示的数据类型。同时,传统系统不能容许具有不同数据结构的词汇数据源。条目典型被原样呈现显示为单文字块,如同在所链结的电子词典或输入法的原始词典中所包含。

传统词汇服务系统也缺乏模组性。明确地说,传统系统并不能迅速使一个人存取或链结至不同类型的第三方语言服务。因此,例如在输入法与字典,或在语音至文字模组与输入法之间,可能没有关联。

传统系统与方法提供很少甚至没有手段能快速检查于输入时的字的正确性。部份传统程序确实表示容易混淆的词或字,但所加深词被预先标示。人们并不能自由容易地存取其选择的字典或词典,也不能容易地由一个词汇源切换至另一个词汇源,以取得不同数据。传统系统通常允许通过部首或音标发音进行文字搜寻。以此方法搜寻文字很笨拙。对传统文字查看系统与方法的有效替代法是在与本案有相同申请日的由Warren Daniel Child所申请之共同申请专利案”中文型文字及文字偏旁的分类及检索的系统与方法”中加以讨论,该案于此被称“文字查看案”,并被并入作为参考。

传统系统与方法可以提供很少或不能容易由词类典型区分输入候选字。当面对很多同音异义字候选时,用户典型需要经由一长列候选名单以找出其想要的目标字。可能不能迅速地区别不类似的字,因为在不同类型名词(共用或专有)或词类,即使如此作将对用户选择想要文字有很大的助益。

在传统系统或软件中的新词(由用户所注册的词)登录功能通常不好。部份系统可能额定地提供用户有登录其本身使用词的能力。然而,所述程序经常很冗长,并且用户通常需要手动输入其词,并没有来自系统的帮助。

传统系统与方法典型对自动分析及登录功能提供不够好的控制。虽然部份系统指明未包含在其字典中的新文字组合,但它们通常并不能由词区分词组,并且未能使用户编辑其最后登录项。结果,冗长的候选词可能开始使系统杂乱,阻碍了文字输入的容易性。

在搜寻及输入时,传统系统与方法在音调标示上提供很少或没有弹性。中文输入法的外国用户经常困扰于搜寻与输入,因为他们不能确定一字或一词的音调;甚至母语者也因为音调真实性的辩证上的差异而有所困难。然而,不使用音调也有产生太多候选字的问题。例如,美国专利5,594,642案描述输入法框架,其允许有音调或无音调的输入,但并未描述如何完成,建议开发者处理所述问题。再者,所述5,594,642案的说明书也未提供如本发明的一个或更多个实施例所揭示的使用部份音调指定的有用方法的映图。

传统系统与方法对所用编码法提供很少甚至没有控制。同时,传统系统与方法可以对原始文以外的文字提供很少甚至不能控制。因此,例如,输入法及字典不能使用在屏幕上的鼠标并取得其有关的词汇信息。结果,虽然相当大量的数据可以被储存于传统系统中,但并不能迅速取得有关已经输入的文字的文字信息。此存取性上的缺乏可以是可能资源的一种浪费。

传统系统与方法可能未提供同质界面,使得外部自然语言处理(NLP)系统可共享词汇数据。因此,手写识别、光学字元识别、语音至文字转换、文字至语音转换、及键盘输入传统上均以个别系统加以操作,各个倾向于具有其本身数据储存。同时,不同于此处所述的实施例,传统系统与方法可能不会提供在OS开发者、词汇数据提供者、及(输入法)IM开发者之间营收共享的系统,以合作并共享实施合成系统所产生的营收,所述合成系统完成来自不同来源的不同形式的词汇数据的模组化合并。再者,传统系统与方法并未提供实施营收共享系统所需或所想要的一定级别的数据安全性。

发明内容

实施例可以容许简单及复杂数据结构;提供加强数据连接性、整合性及可取用性;防止数据盗窃;协助新字及词加入词汇数据源;及加强文字输入功能。再者,当实施为语言服务中心时,实施例可以与各种第三自然语言处理模组的界面,所述模组提供光学字元识别、手写识别、语音至文字转换、文字至语音转换等。营收共享及数据安全实施例可能鼓励词汇数据提供者及语音服务模组开发者,令其词汇数据及服务模组为系统所用,使得词汇数据提供者、模组开发者、OS提供者、LSC提供者、及用户可以互蒙其利。一个实施例还可提供加强的文字输入功能。

一个或更多个实施例提供:用以标示词汇数据分类的装置;用以模型化具有不同数据结构的专有字典的装置;将来自分开专有字典的数据收集为聚集集合的装置;为整合的目的,用以智能地准备、输入及内部结构化不同数据源的装置;收集来自参与用户的数据的装置;及用于手写识别、光学字元识别、键盘输入、及文字至语音及语音至文字转换的特定界面。一个或更多个实施例可以加入复杂及简单词汇数据结构;以智能方式,整合此等不同的数据源;提供对此数据的加强可取用性;改良数据表;及加强输入功能。输入装置可以耦接至本案相同发明人的文字查看发明,以促成个别文字的查看。一个或更多个实施例可以包含语言服务中心,其与各种自然语言处理模组通过界面连接,使得模组的用户可以利用设在系统中的丰富语言信息。所得系统显著地降低当使用电子格式之日文、中文或韩文时所经历的挫折及不便。

附图说明

图1A为词汇数据的分级模型例;

图1B为格式标签如何应用至图1A的模型,使得来自出版商的原始数据可以准备加入实施例中;

图2A显示例示数据结构;

图2B显示允许用户加入、移除、动作、去动作、及展现词汇数据进出词汇服务中心实施例的例示界面;

图3A显示用于允许用户指定来自专有字典的数据的词位所显示于输入候选窗的颜色,并表示是否有来自显示于输入窗的不同数据源的复制匹配的人类-计算机之间的图形用户界面;

图3B显示允许用户以词进行色码搜寻及输入候选字的例示人类计算机图形用户界面;

图3C显示在搜寻或输入复合字的例示补充词汇数据表示图;

图3D显示在用鼠标时的文字数据的例示表示法;

图3E显示依据例如部首或核心偏旁的分类特性的同音异义名单的例示集合;

图3F显示用于设定已用过字传递至用于储存的数据结构的速度的例示界面,及用于控制用于各种有关于输入法的各功能的键盘快速键的例示方法;

图4显示用于分析文字及搜寻未包含在任一数据源中的词的例示界面,其中下部份列出可以选择以输入指定专有字典或其他数据源的候选词顺序;

图5A显示一词的例示拼音输入及拼出中文的字的音特殊性的不同相关程度,使得音调数据具有附加栏,其表示各种可能性;

图5B显示指定予以被使用的编码类型的例示操作面板;

图6显示例示语言服务系统(或中心)实施例的各种部件图,包括在包含于其中的自然语言处理模组之间的主要界面及语言服务系统;

图7为实施方法或系统的一个或多个实施例的例示计算机系统的框图;

图8为用于准备、输入及积集词汇数据的例示方法流程图;及

图9为具有营收共享及数据安全特性的LSC的框图。

具体实施方式

平台及实施法

实施例可以实施于各种平台与操作系统上。实施法或编码的准确方式可以取决于若干因素,包含所用的软件开发语言及所使用的API(如果有的话)。例如,当此写入时,如果实施Mac OS X上的实施例,则较佳使用C与Objective-C与来自Carbon与Cocoa API的组合。其他平台上,也可能喜好其他语言及使用其他API。通过使用不依赖于平台的语言,例如Java,也有可能,使使用大量相同码以实施实施例,使得其可以在一个平台以上工作。解释实施例所不必的实施法细节已经被省略,因为熟习于平台设计者可以使用适当语言及API以各种方式来实施实施例。因此,以下的说明针对例示实施例的功能与特性加以描述与显示。熟习于本技艺者可以在特定平台及操作系统局限下实施实施例。软件码本身经常为特定平台所用,于此并未显示,但在此显示架构与设计细节以解释、描述和例示示例性实施例。

以下将参考图1至6加以描述各种实施例。以下所述的前五个实施例表示特性包含:1)加入简单及复杂词汇数据源的能力;2)加强数据积集及可取用性;3)改良数据显示性;4)加强数据内容;及5)改良输入功能。另一个实施例组合所有先前实施例的特性与功能成为语言服务中心,其与外部自然语言处理模组通过界面连接。另一个实施例包含营收共享、数据安全特性、及词汇数据架构以配合其他实施例使用,以使得系统或方法有商业价值。再一个实施例则提供导向非CJK(中日韩)语言的语言服务中心实施法。

可以了解的是,各种实施例已经为清楚起见分开表示与说明。较佳地,所有特性被如下所述组合于一个系统中。应了解的是,这些实施例是描述用于促进了解并非用于表示每一个实施例或实施例之组合。

实施例的操作取决于包含有多个可能语言服务模组被并入系统中的若干因素。例如,可以期待基本功能包含有如同电子字典中的查看文字及单字的能力。另外,似乎输入法将被加入所述系统中。基本语言服务的共同功能为搜寻及回复。

对于如韩文及日文的语言,典型启始一个搜寻的方法为输入对应于字或词的声音的顺序的字母,然后,在适当时机敲击空白键以呈现候选字。对于中文,职业打字员也可以使用根据文字形状的特征输入法。然而,因为此等方法需要更多训练,所以主要的用户均使用声音为主的输入法,此输入法与日文及韩文所用者有相同原理。实施例已经使得我们可以容易地以语音方式输入文字,为了这理由,在中文中不管用户是想要经由拼音或注音键输入并没有什么关系。此两方法可以为语言服务中心所容许。

词汇数据结构的类型

很多在计算机上所提供的传统输入法及其他语言服务的主要限制为可用数据的缺乏及对所用的数据源进行控制。因此,一个实施例建立一种能力以容许来自不同提供者并具有不同数据结构的各种词汇数据源。为了说明的目的,数据源可以以两种方式分类:简单(平坦)及复杂(分级)。简单(或平坦)数据结构的每个记录具有固定数量的规则栏位。相反地,复杂(或分级)数据结构,则每个记录展现有各种样式,在各记录内的组成部分重复不规则次数。

用于文字输入方法的最小架构将为两键栏,一栏包含词的标准拼法(所述词以母语书写的方式)及另一栏包含使用部份形式的罗马字化或其他拼字系统的对应语音描绘。这将表示基本平坦数据架构的例子。

基本“区块”数据架构可包含这二个最少键栏,加上包含有补充词汇信息的文字区块,如同在字典中可看到。被分化数据源可以包含最少两键栏,具有已经为信息分类(如下)所分析的其他词汇信息。再者,复杂数据源将展现在印刷字典中所找到的复杂类型。一个实施例可以容许所有数据源,而不管为简单或复杂,平坦或分级。

词汇数据分类及分类标示手段

包含在每一个字典中的数据可以对于每一个条目而变化很大。每一个条目可以记载一个或更多个词类、一个或更多个定义、核心意义及子意义、语源信息、发音导引等等。因此,数据的本质并不能迅速使之加入标准平坦文件中。相反地,准备用于电子内容的数据倾向于有很大限制,采用了基本平坦数据结构的形状,或对具有完美规则重复图案的拟分级结构有强力附著性。然而,为了能处理任意量的数据结构,有必要分类想要在数据结构中找到的信息类型。因此,表1列出在CJK字典中所常见的信息的分类,及表2列出共同设在CJK单语及双语词典中的信息分类。两表均包含每一分类的附属缩写码,与表示是否每一个分类似乎具有所述分类的多个(M)或单一(U)例。

表1:文字数据的示例分类

表2:词汇数据的简单模型化

准备予以并入语言服务中心的数据可以使用上述分类标示手段。换句话说,使用上述码作为各个数据元件的“标签”,也可能准确描述代表每一个单元数据的数据分类。

数据结构标示

因为复杂词汇数据结构可能迅速加入平坦文件,所以本实施例提供一种数据结构标示手段,用以描述复杂数据结构。该数据结构标示手段使得实施例加入来自不同字典及字典数据源的各种数据,使得它们可以同时使用于相同语言服务系统内,并无缝加入相同语言服务系统。

依据结构标示手段,识别两种基本数据类型:单一及多个。单一数据(指示为”U”)为包含单一值的任意变数(在实施中所使用的准确二进制数据类型并不重要,因为其可以为字串、整数、或其他数据类型)。多数据(指示为”M”)为任一输入值,其具有一个以上的值(其使用例如阵列、名单、组等的各种二进制数据类型加以实施)。

该模型也识别集合成组的数据。一组为一对两个或更多个类型的共同发生的信息。例如,在一个字的定义后,经常具有显示字上下文的样品句或词。在此时,定义及样品句将构成一组。再者,任意数据类型可以标示为选用(通过用户标题文件中的星号(如下))。哪个为本质上必要及哪个可选取决于相关字典。

在分级中的每一级可以加入在该级下的分开项的数目。如所示,图1A显示在假想汉英字典中的数据类型图。在图1A中,段落被大写,及在一个段落内的栏位以({})加以包围。在段落内的单一栏为小写,及具有多条目的栏为大写,而构成段落。在所示例子中,在分级中的最高层为部首段,最低为合成词。单一及多属性分别用“U”及“M”来表示。

标题文件及分析

为了使语言服务中心加入具有变化及复杂结构的不同数据,可以提供一标题栏,以描述用于予以输入的专有字典中的数据结构。图1B显示用于图1A的数据的样品标题说明。如所示,在分级中的每一级被一个数目来表示该级(1为最高),其后有括号包围的其构成属性。各个构成属性被指定为单一或多个。在实用上,可以指明一个实质实施数据类型(例如用于数目的NSInteger,或用于文字的NSString)。再者,实际上提供有格式标签,以显示数据分类如何标示于原始数据源中。在图中,实施数据类型及格式标签并未指明,因为这些将与平台有关,并将取决于数据被如何原始储存。再者,段落与构成变数可以被指明为选用(通过使用星号*)。经常以呈对或成群(例如定义及对应样品句)来的数据类型的组可以通过将其包围在括号内或其他适当手段内加以标示。(组并未示于图中。)

在内部上,使用适当数据结构储存各个U及M数据类型,而不管其为字串、整数、实数、二进制大对象、串列阵列、二进制树等。实施例的由标题文件解译数据结构使得该数据被内部模型化于系统内,进一步允许数据被正确分析,以进入该系统。

最后,在标题内的表示可以指示词汇数据源的整个数据结构(简单/平坦对复杂/分级)。同样地,专有字典的本质(同义词典(thesaurus)、双语字典等等)也可以表示,针对源及目标语言配合表示。用于有关词汇数据源的这种一般信息的准确发信手段可以变化或静止;用于实施例中,只要其附著至被各方所黏附的预建立格式即可。

数据准备

为了准备用于加入语言服务中心(LSC)实施例的数据,词汇数据可以被“标示”,使得LSC系统可以解译其输入数据。这使得LSC保持适当分析的词汇数据,使得其知道在每一个记录中,代表哪类型的数据分类。例如,简单“方块”结构包含拼字词、词音及有关字的无差异信息,各个词汇记录将具有以下概念结构:

a.键栏1标签(词音)

b.键栏2标签(字本身)

c.方块数据标签(其他)

对于无差异数据,很多栏表示器可以使用如上表所示的码加以标示。同时,也可以使用其他。所用的准确码形式可以改变,只要它们表示记录的哪部份正以明确方式被参考即可。

典型地,取决于财务配置如何处理,专有字典将为专有字典提供者或语言服务中心的提供者所提供。如同上述的标题文件将典型与数据一起提供,所用的数据介质取决于专有字典提供者。

数据储存

一旦专有字典被输入,则数据将使用其标题文件说明加以解译,及适当数据储存手段将被更新,如有必要则建立以收纳该数据。适当储存装置包含大量储存装置(例如磁或光盘)、电子存储器(例如RAM、快闪等)等。

图8为用于备制、输入、及转移词汇数据以用于实施例(例如下述之LSC)的例示方法流程图。在图8中,该方法开始并处理进行至步骤802。在步骤802中,词汇数据被提供为第一格式。词汇数据可以包含多个记录,各个记录具有多个组成部分。各组成部分对应于多个词汇数据类型之一,及每个组成部分被标示以对应于该格式之词汇数据类型的词汇标示码。处理进行至步骤804。

在步骤804中,提供用于词汇数据的标题部。标题部包含对具有多个数据结构标示码值的数据结构说明的参考。各个数据结构标示码值对应于多个词汇标示码之一,及该结构构成简单/平坦结构或复杂/分级结构之一。处理进行至步骤806。

在步骤806中,词汇数据被输入。处理进行至步骤808。

在步骤808中,从第一种格式转换所输入词汇数据至第二格式。该第二格式不同于该第一格式。为所输入词汇数据的各个文字偏旁赋予一个与该偏旁的词汇标记符码对应的数据结构标记符码值,由此转换该数据,使得各个文字偏旁的词汇数据类型可被识别,而该文字偏旁可按照其对应数据结构标记符码值被储存。处理继续进行至步骤810。

在步骤810中,被转换的词汇数据被储存,以为LSC或其他系统所用。此数据被储存为第二格式。在步骤810后,处理结束。可以了解,在图8所示的步骤可以整个或部份重复,以完成想出词汇数据准备、输入及转换工作。

参考图2A-2B描述的另一个实施例可以包含上述特性。

数据源的全面控制

图2A为例示数据结构图。在此图中,各个盒状元件构成数据库实体。每一个实体具有属性(等于数据栏)及显示链结至其他实体的关系。

如于图2A所示,程序库管理器(Librarian)实体被设置以追踪在全面层中的数据源。此实体最低程度地提供一个关系给数据源实体,表示其对于数据源具有一对多关系。该数据源实体提供专有字典(单语字典、双语字典、同义词典等)本质的数据,包含其文件类型(简单对复杂)、来源语言(日、韩、简体中文、繁体中文等),及目标语言(使用双语字典)。例如特殊领域(医学、计算机等)的其他信息也可以额外设在分开属性中。

图2B显示一个界面,其使得用户将词汇数据源加入系统和从系统删除,并激活、去激活、及展现词汇数据源(见如下的数据源激活与去激活)。该界面包含例如按钮、表、卷轴、等GUI元件,这些为现今应用程序所常见。为了执行激活,可能高亮对应于想要专有词典的行并压下激活按钮。一个类似程序将会有用于去激活并进入展现(demo)模式。例如名单项目的额外GUI界面也可以设置以完成等效功能。

所有需要以执行在数据模型内的词汇数据的分配所需的内部处理当然依实施方式而定,并取决于OS平台、所选的语言、及所用数据库技术。此数据的分配与移除本质上并不会为用户所关注。

多层数据对象

输入至语言服务中心并依据标题文件所分析的数据及上述数据分类标签(词汇或数据结构)被分配为多种数据对象,其形成多层结构的一部份。在此结构的顶层为主表实体。每一种语言有一个主表例,其相关于在该结构中的下一层的对象集合,即WordGroup(词群)对象。因为当由键盘输入CJK语言时,实施例提供于WordGroup买体,典型被输入一个词音,其对应于同音异义或几乎同音异义拼字实现。根据语言及所需精确程度的不同,由WordGroup实体所代表的同音异义精确性可加以改变,但是,例如对于中文,其典型地可能是不带声调的拼音,或者对于日文,为标准平假名表达。

本质上,词群下的下一层为词。因为来自各种词汇数据源的大量词汇数据正被使用,所以,我们可以期待在词汇数据源中,以所示字表示的大量重叠。为此理由,除了重建重叠包含很多相同键栏的记录外,也可以设通用词(GenericWord)实体。此实体包含基本字数据共享,而不管词汇数据源,并能与下一层数据源词(SourceWord)实体分开,其包含为特定词汇源所特有的数据。

通用词纪录可以包含各种属性,包含布尔以表示是否该词正激活于此系统中,一个或更多个拼字实现法,实体的词类的部份指示(词类为指明词的句法或其他行为的特定码)、字准确词音、及各种频率数据,其可以有用于表示字为输入法的候选字。注意特定词音为词音,其使用语音系统更准确读出或拼出该字。例如,在中文下,属性可以为总拼音、注音等等表示。

在图中,源字实体被提供作为此母通用字的子实体。虽然也可以实现其他数据模型同时保有整合标号及分级模型,但此方法只作例示目的。回想词汇数据源可以维持大量数据类型(简单/平坦对复杂/分级),源字元记录的属性可以表示为其表示的记录的类型。因此,包含简单或平坦数据结构的词汇数据源将在此栏中,其中这些含复杂或分级数据者将于此表示。

最后,取决于源字数据所发起的词汇数据源的类型,额外信息将可以储存于部份形式的数据结构中,取决于所指定结构而定。取决于所用的程序语言、平台及其他技术,各种实施方式也可能实现。

对抗数据盗窃的保护

理想上,安全特性被提供以防止内部储存数据的下载或输出,从而保护个别数据源贡献者的著作权(或其他知识产权)。此系统鼓励第三方语言数据源开发者提供相容语言数据源,而不怕其材料被拷贝或被偷。也可以防止用户尝试由个别词汇数据源贡献者偷取数据,或试着根据其他方法的工作而建立其数据源。此安全特性可以处理部份语言软件提供者的不情愿,从而将数据集合在一起。

文字查看

一个实施例可以提供一种手段,以追踪每一词的构成字。为此,提一个通用词实体。此实体与通用字具有多对多关系。在此建立各种详细或非如此详细的结构,但在所示例子中,通用词实体可以有对笔划、端点计数(见文字查看发明)、及来自(拼字)本身的文字的属性。其他数据可以设于该实体中或例如根据在源字实体(见图2A)上的其他实体。此实体对源字使用并联概念,即,其可以用以储存词汇数据有关特别是一个特定数据源的字。虽然未示出,但双语甚至多语数据可以以相同于另一语言数据相关于通用字例(见逆查看)的方式相关于该文字数据。

通过把词与其构成字连接至提供在文字分类与文字查看发明中的数据,用户可以存取在此系统中不能迅速使用的丰富数据。这种链路可以使用如同图2E所示的数据结构加以完成。具有文字查看发明的链结词汇数据具有提供另一手段以存取文字的明显优点,只有此时才经过个别字。这表示使用很多设在文字查看发中的查看特性,我们可以找到与一个特定字相关的词。用户也可以甚至被允许选择用以激活查看功能的键,例如在图3F中所示的较佳面板GUI。

同时应注意,虽然未于图中示出,但也可能包含具有文字的笔划为主的输入数据。在此时,根据笔划形状的输入方法也可以使用于整个语言服务中心。

由操作观点看来,也可以设定快速键或其他快取机制,从而对文字查看发明实施例中的高效及功能查看法与设备的类型提供存取。为了搜寻文字信息或找出不同或少用的字,如果文字查看发明实施例有关于实施例,则快速键或选单项的顺序可以触动面板(palette),以使得用户可以使用在文字查看发明实施例的任意手段来查看一个字,包含但并不限于通过部首、非部首偏旁、部首及非部首组合、笔划及端点计数。

来自另一语言的逆查看

本实施例所提供的语言服务的一个特性是,其使得用户可以由非目标语言查看一个字。因此,例如,针对简体中文的实施方式可以允许用户输入英文字并取回候选中文字。为了实现此功能,逆查看条目实体被设有单一属性意义。此实体对通用字实体具有多对一关系。此逆查看条目本质上关系于一种特定语言,并因此能收集在逆查看表例中,该逆查看表例可包含逆条目的集合(见图2A)。因此,系统可以容许各种语言进行输入与逆查看,及对于任一给定另一语言的所有逆查看条目被收集在一个集合中。GUI可以允许用户从一个标准搜寻或输入模式切换至经由另一语言搜寻或输入目标字的模式。

构词分析

典型地,很多语言服务模组,例如输人法及文字至语音或语音至文字转换器加入若干程度的构词分析。其理由为如果只有字的给定准则形式,则语言服务模组将不会识别出引用形式改变所影响变化的主体。理论上,至少两种方法可以用于构词分析:加入法及减去法。

在加入法中,所有引用形式与其词形变化表(字可以被变化的不同方式)一起列出。例如,在日文中,每个动词可以与其所采用的各种词形变化结尾一起列出。代名词将与经常发生时字首(particles)或后置词(postposition)一起列出。任何名词将与其本身涉及后置词列出。虽然此方法可视为容易实行,但这在取回速度上提出相当大的问题,因为250,000词位的基础专有字典可能容易使用此方法而剧增至几百万字。为了匹配,输入文字可以检查为加入法所产生的词形变化字的名单。此方法理论上可行,但因为所得字汇表的太大规模而似乎不实用。

相反地,在一种减去法中,使用衍生规则以识别各个词类的词形变化及衍生、决定其词干(stem)、并回溯其引用形式。以日文为例,ご及を被认为部份可能表示名词的挂名字头(prefix),及各种口头变化如た、る、ます、及て可被认为是字尾(suffix)。此时,将通过从被键入的输入移除可能缀词(affix)、指明词干、及将由词干转换为引用形式来指明可能引用形式。所衍生引用形式然后将检查激活字的集合(通用字例,令其激活布尔(Boolean)设定为真或是)。当具有相同词类的匹配在激活字的集合中找到,则这些匹配被转换回变化形式。在中文中的构词处理的类似例为识别在字后面所跟随的“之”(所有格)(的)及表示结果补语(得)而识别字的类型。

在本实施例中,假设足够文法信息有关于所用的专有字典,任一构词法(加入法或减去法)均可以被使用至该实施例中,以使得来自用户的输入可以被共相关至在实施例中所收集的词位。有关文法信息可以采两种形式:每一个词位所属的一个或更多个词类的识别,及显示可以由字干形成的衍生的衍生规则。在加入法中,可以产生由内部储存集合词位所导出的额外表,由此根据引用形式及词类码与一组文法可衍生规则产生衍生形式。当减去法时,可以应用一组文法规则分析来自用户的文字输入的可能缀词。可以指明可能引用形式,并且以类似于显示字作为候选字前的适当方式,缀词系被附加回到基础。

为了方便,构词分析(MA)的功能可以被认为由三个分开实体构成:构词分析器(MP),其将输入串与词素分隔;构词产生器(MG),其将变化加回到词干;及一组衍生规则(DR),其描述可以加入至某一级字的词形变化类型。见图6。

用户不一定会积极地考虑到构词分析这种特征。候选词语可以被简单地显示为对词态的添加或者减少函数,以由系统的词位集合中衍生引用形式,并然后,在用户选择目标字的候选名单中呈现词形变化候选。应指明因为此能力设在模组化功能中,所以,根据词形变化的形式,其等效应用至是否用户正使用系统以输入文字的字或查看在字典中之字。

多字输入的分析

一个实施例可以加入一个特性,以识别用户已经输入对应于一个以上的词的输入拼音字的情况。当用户输入一个以上字的等效值时,则该系统需要分析输入,以想要搜寻构成字。(实质上,为准确,当提及“字”时表示词位,其是将词汇实体看为一个单元。例如,短语或惯用语(例如中文成语)有时被以单一单元处理。)在标准构词分析时,加入及减去法理论上可能,但以数据储存效能的观点,减去法或许较佳。

因此,当用户使用对应于部份目标文字的字串时,启始一个搜寻以匹配输入至该语言的字。如果根据包含在该输入文字中的词音,并未经由标准搜寻找出一个准确词匹配,及如果经由词素的减去法并未找出匹配,则可以对输入字的子串进行搜寻,以看是否有引用的匹配组合形成或者引用形成有构词词形变化。因为此步骤更费时,所以,可能最好在开始上述形态分析的较简单步骤后才进行。

如同构词分析,多字识别可能不会为用户所主动想到,而是一种在输入或搜寻时简单“发生”的特性。如果用户输入等于两个或更多个字的音韵顺序,则多字辨识特性使得输入法依序指出各字的候选。该程序为其中如果启始搜寻并未对整个输入顺序指明一个匹配,则对输入顺序的子串进行搜寻。

专有字典的颜色编码

另一实施例可以加入上述特性与下述特性的组合。此实施例可以使得用户色彩编码词汇数据源,使得在搜寻或输入时的候选字数据可以依据其所导出的源数据的词汇源加以色彩编码。这可以使得用户以其来源快速识别正确候选字。此功能当例如用户正使用包含字的特殊字典时特别有用,字典中的同音异义字可以通过来源词汇字典而被迅速与目标技术字区分。同样地,如果来源只包含专有名词,则其可以同样地在出现于候选窗口时被迅速识别。

为了使这些功能可用,分开窗或面板可以作为将颜色与各个相关语言有关的词汇数据源相关的手段(图3A)。例如,预设一个通用词汇字典型地被颜色编码为黑,及用户将可能选择其他颜色用于特殊或特定领域的词汇。这种特殊领域可以包含医学、计算机科学、生物、语言,等等,这种可能领域基本上不限。以该方法使用颜色编码来完成对于不同词汇源的搜寻结果的比较。为了将一个颜色相关于一个特定语言数据源,人们选择该数据源并使用颜色选择手段,以一种颜色与其相关。图3A显示一个界面,其提供该选择手段。

词类的颜色编码

再者,假设所用语言数据源包含恰当栏位,一个实施例可以允许用户以类型区分候选词及字。例如,用户可以由专有名词区分常用字,或者词类。这些区分法可以以各种方式加以完成,包含但并不限于字型、颜色、粗体、及斜体。有一种类型以上的词位被显示为彩色组合,或以类似方法加以区分。完成此类型选择的例示界面如图3B所示。为了将颜色与字类型相关,可以由若干可能分类中选择,然后,选择个别分类的颜色。应了解的是,字类型可以因语言而有所不同,在图中所示的字类型更好地对应于英文(同CJK语言中任一种相比),但所示只为了亲缘性的原因。

显示额外词汇信息

另外,当找出一组匹配与用户所注音输入的同音异义字,用户具有由个别词汇显示相关字典链结的选择,使得用户可以在按钮的碰触下,看见输入目标语言或国外语言的解释(图3C)。前一方法使得母语用户决定哪一个复合字有正确上下文与想要意义,而后者方法有利于语言学习者,其想要用其母语来读输入。因为字典信息被链结至实施例,但可能为第三方所供给,所以,理论上对于可供给的词汇细节并没有数量限制。实际上,取用其他信息的选择应容易实施(如通过按下一个快速键)。再者,如果词汇源允许这种区别,则在简单与详细解释设定间有一个选择。最后,也可选用一种手段,以选择显示哪一个词汇分类(信息领域)。图3C显示一个界面,其提供用户额外的语言信息。实质实施法可能提供比图中所示更复杂的数据。

鼠标经过(mouseover)效应

通过将输入模式切换至鼠标经过模式,词汇数据的相同集合可以应用至已经被键入屏幕上的鼠标显示器上,这对目标语言的学生及学习者是重大功能。(鼠标经过表示在屏幕上移动游标于某物上,通常,可能需要触发键来激活在鼠标操作时的数据显示,但也可不必然如此,因为功能键可以用于在正常及鼠标经过游标行为之间切换。)当被触动时,一个弹出窗将具有词汇信息,使得用户可以在屏幕上的任何相容文字中轻易地查看字,而不管其是否由用户输入的。有可能通过结构化在系统中所集合的词汇数据,而查看属于鼠标经过目标的词汇数据。例如,也可能通过逆查看项实体(图2A)观看第二语言的翻译;及通过链结通用字例至通用词例,而可能查看相关文字数据。

操作时,为了显示已经被键入文字中之有关字的信息,用户可以简单地键入诸快速键的一个顺序,或者,选择一个选单项,其执行相关字信息的取回。图3D显示弹出信息可能看起来的简化例,但数据的准确细节取决于与系统的文字数据相关的词汇源而定。图3E显示一群依据例如部首或核心偏旁的分类特性的同音异义列表。尤其,图3E显示首先以核心偏旁分群,其次以残留笔划进行分群,以数字-字母格输入作为使用格坐标。

通过数据源的字的激活与去激活

参考图2A,可以看出源字实体具有“在使用中”的属性。此布尔(Boolean)属性使得人们可以提取(询问)所有具有特定名称的字数据,并在一批次中激活或去激活该集合。用户可以使用如图2B中的界面,选择使能或无效在该系统中的词汇数据源的任意数量。有各种理由使得我们想要如此。例如,在包含很多不同技术数据源的完全成熟的系统中,载入少用的例如医学字典信息可能对他无益,因为其职业可能需要他去下载计算机相关文件。

以准则来抑制候选字

因为通用字及源字例具有各种相关属性,所以有可能限制候选字的表现为某一类型,或者,在候选表现时抑制某种字类型。因此,如果用户想要只搜寻或输入专有名词,或地名、或人名,他可以使用某类型的GUI以限制该搜寻。这将使得我们可以呈现出非常短的候选名单。同样地,为了加强效能,用户可以简单地将极少使用的字卸载,指明某一关闭频度。在技术上,对于可以指明的字类型并没有限制,全都取决于包含在该名单中的词汇数据而定。

快速键、浮动盘、或选单项均可以作为一种工具,以提供用户限制某一特定字类型的搜寻。任意提供此作用的工具均可以使用。一旦模型化被实施,则此特性为特定数据存取能力实施例的副产物,并且在传统系统或方法下,可能无法完成。

候选名单的进一步细分

当用户键入他正寻找的字的读音时,在CJK语言中,由于有大量同音异义字存在,所以CJK输入法中常常有大量候选名单。特别是当用户想要以注音方式输入单字时,如果没有音指定时,在日文中之复合字(多字元字)或中文中之复合字。将名单整个卷动可能极端笨拙,因为线上输入窗口不可避免地一次只能呈现一行数据。典型地,以频度顺序排列此数据,但对于最常用字例外(其将在名单前面),这种数据对于找出目标字并无益。因为由于其固有数据结构弹性,所以,实施例可以使用额外数据资源,所以,有可能替代使用额外有关字的数据,以细分字并将其显示于分开的窗,把它们以用户的选择方式进行垂直排列。因此,例如,所有词可能被以词开始字的部首的顺序被安排成行。因为用户熟悉于部首的大略顺序,及因为部首将被显示,所以,他们的眼光将被对焦在正确部位上。在“部首行”中,字可以以频度加以排列。虽然使用启始字的部首可能为次分长候选名单的多个逻辑选择,但也可以使用另一个可能准则,其为开始字元的核心偏旁的{stroke.endpoint}值,或者整个字的stroke.endpoint值、或甚至字的总笔划。

候选名单的进一步细分及再显示是通过将词汇数据再分布为分级互相关数据实体,例如以平常不会进行的方式将字数据与复合字相关而完成的。较佳地,当候选的数量大于通常显示在候选窗中的数量(通常约10)时,令此特性自动触发。再者,也可以提供一种手段,使得用户选择名单进一步细分的准则。当以部首细分选择字时,在系统词位内容的预处理可以通过交叉参考词位名单与字、名单与其部首分类来完成。

图3F显示以外表再分布的候选字例,定义准则为在同一作者的文字查看发明中描述的核心偏旁概念。

新字登录的严谨控制

除了上述特性外,实施例可以提供手段以自动追踪在前面文字输入期间所输入的字,并忍别未经由词汇搜寻找到的新字,而是个别输入作为分开字。为了用户方便,呈现为候选供用户输入字典的字及复合字(形成词的字顺序)将被以两栏位的名单呈现给用户:一个是字,及另一个是其音韵输入,使得用户可以选择接受部份、所有或全不接受输入至用户补充字典的候选,如有必要修改数据。或者,也可以提供额外栏位,使得用户可以依据用作补充词汇的词汇所建立的结构,输入词类、定义、外国语言等效、或部份其他词汇信息。图4显示一个界面,其可以用于选择包含于补充词汇中的字。因此,新字组合不只可以追踪,同时也可以随后列出,使得用户可以修改或改良它们,或提供相关词汇数据,由此正式选择是否在用户词汇中永久包含新颖组合。用户的此层次的控制有时可以比自动处理更有效,该自动处理会使用错误结合事实上不是词的字。

用户驱动数据加强

词汇数据提供者及贩卖者很少更新其数据。结果,常常新的字及专有名称不能为现行使用的专门字典所识别。为了针对在新字形成、专有名称、及其他名词及其加入至可接受字典之间的时差,此实施例提供能力以将用户数据集合至一个中央位置,由此允许语言家检测在其输入数据中的图案并更新公用用户字典。也可以设立鼓励,以允许用户参与该计划。用户可以以各种手段,选择下载或安装公用用户数据。也可以自由忽略并不激活公共用户数据。有关于此数据的严格保密性可以被确保。因此,用户关心其文字内容被盗用,例如,政府机关或高科技公司使用特殊保密条款,因为它们不想要披露给公众,以享有更新其基础字典的优点,而不会揭露其本身所集合之新字。

在操作中,为了控制同音异义字在用来存储它们的数据结构内传递的速度,用户可以使用如图3F所示的GUI。为了将条目加至用户定义词典,当完成输入之后,用户可以选择一个选择项或其他触动,以自动回搜前面的字输入并决定哪些字并不是系统中的词位集合的一部份。(这些字为逐文字输入,或使用其他输入装置,例如触笔,这并不对应于词位集合中的顺序)。所得可能新字的名单可以被显示使得有选择手段,用于选择是否在该名单中包含每一个字。指定给条目的字被置放于用户专有字典中,以选择指定例如词类、字类型(专有或常用)(未示出)。另外,有可能依据本实施例,拷贝为任一手段(不是为用户所简单键入)取得的文字,并搜寻未包含在系统的专有字典中的字。以相同方式下,这种字可以为用户所拒绝或接受。

允许用户数据被检测的用户可以令其数据自动上载至指定网站或其他URL。一旦接收了一定量的数据,则语言学家可以寻找常用输入顺序,以形成新字或专有名词。对于通用可接受的字则然后被载入公共用户数据文件,以供多个用户使用。不想要使用此数据的用户则选择停止。将新词位加入系统可以自动被激活,及所有其他功能同样地透明地发生。

音调表示或拼字准确度的选择

在传统输入方法中,用户通常必须选择是否以有音调或无音调输入字元,或者,用户通常没有选择,因为是否输入音调的决定是由开发者所作出的。除了将数据集中到一个词汇总集之外,在一个实施例中,可基于原始输入(其包括声调数据)产生额外的“隐藏域”(参见图5A),以提供不同程度的中文声调,这样即使用户没有完全掌握声调系统,其在输入错误声调的情况下也有很大的可能性找到目标词。这可以通过提供包含相同注音构成的其他栏,但删除不同音节的音调来完成,使得任一可能组合被认为对该字有效。用户可以选择他想要键入哪程度的音调特殊性,及其他功能也可以使得用户可即时改变音调要求。即时功能在当太多候选字被开始选择时是特别重要的。为了完成此功能,阴影表是以部份及没有音调指定而建立的;完全表示是由词位的收集所维持的。一种特别重要特性为有关来自连音的常见混乱,其中连续两个第三音调的音节将发出相同与第二及第三音调音节的组合的声音。出于这种考虑,一个实施例可专门提供诸如第三声-第三声及第二声-第三声顺序的误差幅度,这样如果输入错误的声调顺序,用户也能看到替换选择,且如果未发现匹配,则自动提供替换选择。

为了选择音调指定的程度,吾人可以触动选单项、按钮、或其他GUI,以显示对话框或其他手段,其中用户可以指定想要的音调表示的程度。图5A显示字系如何不使用音调、部份音调、或全音调指定法加以指定。当确保其所认知的音调时,此弹性使得用户例如使用全音调表示法,因此,最小化候选名单的大小。但当音调认知不确定时,用户只可以指明少数全频谱音调(每一音节有一个音调),由此仍有很好机会找出该字。此功能由GUI所提供,经由GUI用户可以为中文输入选择全部、部份或无音调指定。无线按钮(未示出)可以是提供此界面给用户的一种方法。

指定编码的能力

可以提供选单项、喜好板、或其他选择手段,以使得用户指明在当前设定时所用的编码与语言。因此,对于简体中文输入可以使用GB或万国码(Unicode);对于繁体中文,可能为选择Big5或万国码。对于日文,则可能在万国码或移位JIS,或JIS标准的部份其他形式之间选择。对于韩文,同样地,提供在万国码与另一标准之间选择。图5B显示一个界面,其使得用户完成这种选择。为了选择编码,用户可以下拉一个有关于输入手段的选单并选择指定用于该语言的编码。在实施法的情况中,处理一个以上的东亚为主的语言时,对于每一种语言设定不同预设值。此特性从未在现今输入法中提供过。

额外特性

额外特性可以提供在实施例中。例如,较佳提供快捷键用于输入,以使得用户可以指定快捷键,用于输入长专有名称或稀有字等。同样地,实施例也可以提供手段,以决定用户使用该系统或方法时,在同音异义字中的字指明速度。

一个模组化语言服务中心实施例可以加入在先前实施例中描述的上述功能与特性的任意组合,施加此等特性及功能至所有四个CJK描述语言程序(除了一个特定特性可能无关于该书写系统),使之容易在所有三种语言及所有四个书写系统间进行切换。(注意中文有简体与繁体输入文字,这就是为何三种语言有四个描述语言程序)。因为上述概念可以应用至使用中文型文字的任意语言,所以可以使用相同LSC系统,例如,对于说日语者使用中文、或说英语者使用中文、或说中文者使用日文。另外,该方法与系统可以与其他书写系统或符号图形系统一起使用。通常,该系统与方法可以与想要该系统与方法的功能的任意语言一起使用。

额外NLP模组的加入

至此,该实施例已经针对经由输入法的文字输入,这是传统上以键盘输入加以实现。然而,本实施也可以加入其他自然语言处理(NLP)系统,例如用于语音合成(文字至语音)、语音辨识(语音至文字)、手写输入、及光学字元辨识的系统。结果为语言服务中心,其整合来自各种NLP系统的数据。因为为这些分开NLP系统所用的数据的本质,所以必须使用分开的界面,以连接至语言服务中心。连接NLP系统至LSC的可能界面被显示于下表中:

  系统类型  主要界面  连接至LSC  手写辨识  字  经由CLI**  光学字元辨识  字  经由CLI  语音合成  变化字  经由MA***  语音辨识  变化字  经由MA  输入方法  变化字  经由MA

LSC:语言服务中心

**:提供文字查看发明功能的文字查看模组

***MA:构词分析器

使用自分开词汇数据源收集的词位的收集作为语言服务中心的核心程序(core kernel)的优点是来自系统的其他部份的数据可以被使用以加强其他模组的功能。例如,当使用光学字元辨识软件扫描文字时,通常OCR软件允许用户编辑可能错误的字解译的文字部份。数据系统整合允许想要校正OCR错误的用户使用手写辨识模组来找出正确字,或使用为文字查看模组所提供的笔划端点查看策略(见图6)。或者,用户可以使用标准文字输入(经由输入法模组)同时滤除一个特定词类,或使用其他过滤器。同样地,如果以手输入文字,如果手写辨识软件并未识别字,则也可以使用另一个手段以输入该字。

语言服务中心也可以有利于数据提供者,因为它们可以使用系统的一部份,以看在他们正要发展的模组中是否遗失哪一个元件。例如,根据各种源的词位的加总收集将很大,并可能用于指出具有不良辨识能力的文字至语音或语音至文字转换模组中的不足。因此,本实施例可以提供一种手段,以指明在两个分开自然语言处理模组间的匹配与遗失关系。

LSC界面:字及音位

完成该弹性模组化程度的关键之一为确保两个界面(单一字元串流及变化字串流)被清楚界定并附著至所有参与模组上。因此,在语音至文字转换模组可能包含其本身字典的字的同时,如果它们简单提供可以随后为设在语音服务中心的构词分析器所解译的音素流,则会更有效。语音至文字转换模组的实施细节可以不关心LSC提供者,只要界面规则被清楚界定与附著。

互补触控板/素描板

最后,理想硬件架构可以通过加入双功能触控板/素描板加以实现,使得当操作于绝对坐标模式时,触笔可以用手来输入字,及当操作于相对坐标模式时,触控板可以进行正常光标控制。这使得用户特别容易使用手写辨识模组。键盘按钮或其他手段应被设置,使得在相对与绝对操作间之切换更快速与容易。

另一种实现同一结果的选择为放置分开的触控板在正常集中式触控板的右及左侧。这些外接触控板将于连接至触笔时被激活,并将仅用于绝对坐标模式,即使用触笔输入字。

第三方案为设计触控板事件回应系统,使得触控板输出被取决于事件应答器加以不同地解译。因此,如果在屏幕上的激活区是在文字查看模组中的字输入接收部,触笔输入将被解译为在绝对坐标中。否则,将解译为相对坐标,即正常光标控制的坐标。

无论如何,部份形式的触控板-素描板输入将互补输入法模组的标准键盘驱动输入,由此使得在聚集词位收集没有词或字的情况中可能容易地找出该词或字。

在操作时,语言服务中心的提供及在不同自然语言处理模组间的连接操作将参考图6加以描述。

图6显示语言服务中心(LSC)的元件的整体架构。更明确地说,语言系统600包含具有词位604、文字查看模组606、构词分析器608、衍生规则610及构词产生器612的LSC602。连接至LSC602的是多个字典(或词汇数据源)614-618。也连接至LSC602的是光学字元辨识模组620及手写辨识模组622,两者均可以被用于使用LSC602产生供查看的单一字元624(例如万国码字元)。语音分析器626、输入法模组628及语音合成器630被耦接至LSC602并可以用于提供变化字(例如顺序的音位)给LSC602。所示部件只用于一种语言,当然用于每一种语言的LSC也包含相同或类似部件。如图所示,专有词汇的内容(标示为”字典”614-618)被整合入词位集合。

对于外部自然语言处理模组有两个主要界面:单一字元(使用通用码-编码),及变化字(在一些音位标示形式中表示为一连串的音位)。OCR及手写辨识模组620及622与单一字元通过界面连接,表示它们想要一个一个地指明个别字元。因为直接链结文字查看模组,所以任何需要为这些模组所解译的校正可以有效地执行。模组可以被实施为软件、硬件或两者的组合。

其他界面、变化字完成至语音分析模组630及语音分析模组的连接。通过取出文字(未示出)、使其经由LSC的构词分析器(更明确地说,分析器与衍生规则)、然后回到合成器以从音位转换至可听声音,来执行语音合成。相反地,语音分析模组626将表示顺序的音位,分析器由输入文字用衍生规则,指明个别引用形式并寻找在系统的词位集合中的匹配词汇。产生器取得匹配词汇并再变化候选字给用户看。

系统的优点在于LSC本身并不必处理有关语音分析或语音分析的细节,只要对应模组读取或提供变化字作为音位的顺序。同样地,LSC并不必要关心本身的用以实现光学字元或手写辨识的各种算法或神经网络,只要这些模组提供以个别字元顺序表示的解译。假设它们符合如图所示的界面,则两组外部模组可以得到由LSC所提供的丰富数据。

图7显示用于实施一个或更多个实施例的例示计算机系统。图7的计算机系统700包含处理器702及存储器704。处理器可以包含单一微处理器,或包含多个微处理器,用把计算机系统构造为多处理器系统。存储器704部份储存由处理器702执行的指令及数据。如果本发明的系统整个或部份实施为软件,包含计算机程序,则存储器704可以用于储存在操作时可执行的代码。存储器704可以包含动态随机存取存储器(DRAM)与高速缓冲存储器。

图7的系统还包含大容量储存装置706、一个或更多个外围装置724、一个或更多个输入装置710、一个或更多个便携储存介质驱动器712、计算机可读取介质714、图形子系统720及显示器708。为了简明起见,示于图7的元件被描绘经由单一总线716进行连接。然而,这些元件也可以经由一个或更多个数据传送装置加以连接。例如,处理器702及存储器704可以经由本地微处理器总线连接,以及大容量储存装置706、外围装置724、便携储存介质驱动器712、及图形子系统720可以经由一个或多个输入/输出(I/O)总线进行连接。典型以磁盘机或光盘机实施的大容量储存装置706是非挥发储存装置,用于储存由处理器702所用的数据与指令。在另一个实施例中,大容量储存装置706储存计算机程序,其实施本发明的方法。本发明的方法也可以储存于处理器702中。

便携式储存介质驱动器712配合便携式非挥发储存介质一起操作,例如软盘,或其他计算机可读取介质,以相对于图7的计算机系统输入及输出数据及代码。在一个实施例中,本发明的方法储存于便携介质中,并经由便携式储存介质驱动器712被输入至计算机系统700中。外围装置724也可以包含任意类型的计算机支持装置,例如输入/输出(I/O)界面,以加入额外功能至计算机系统700。例如,外围装置724可以包含网络接口卡,用以将计算机系统700通过接口连接至网络、调制解调器等等。

输入装置710提供一部份的用户界面(UI)。输入装置710可以包含字母数字键盘,用以输入字母、数字及其他按键信息,或定点装置,例如鼠标、轨迹球、触笔或光标方向键、或影像捕捉摄影机或OCR。这些装置提供用于通过接口连接或执行本发明的方法的额外手段。为了显示文字及图形信息,图7的计算机系统700包含图形子系统720及显示器708。显示器708可以包含阴极射线管(CRT)显示器、液晶显示器(LCD)、其他适当显示装置、或用以显示的手段,以使得用户可以观看本发明方法的执行。图形子系统720接收文字及图形信息并处理信息以输出至显示器708。显示器708可以被用于显示元件界面与/或显示为用户界面的一部份。显示器708提供本发明方法的实际用途,因为本发明的方法可以直接及实用地经由使用显示器708及输入装置710加以实施。图7的系统700也包含音频系统722。在一个实施例中,音频系统722包含声卡,其接收来自可以在外围装置724中找到的麦克风的声音。另外,图7的系统包含输出装置718。适当的输出装置示例包含喇叭、打印机等等。

图7的系统也包含网络接口726,耦接至网络728(例如因特网)。远端用户或系统730可以由网络存取执行于处理器702上的分类与取回方法。

在图7的计算机系统中所包含的装置可典型地在通用目的计算机系统找到,并用于表示这种计算机元件的较宽类型,并为本领域所公知。图7的系统显示一个平台,其可以用于实际执行本发明的方法。各种的其他平台也可以采用,例如由苹果计算机公司所购买的基于麦金塔(Macintosh)的平台,具有不同总线架构的平台、网络平台、多处理器平台、其他个人计算机、便携式平台(例如手持电子字典、翻译机等等)、工作站、主机、导航系统等等。

配合计算机系统700的其他实施例还包含使用其他用于监视的显示手段,例如CRT显示器、LCD显示器、投影显示器等等。同样地,也可以使用存储器704以外的类似类型的存储器。除了元件界面外,其他界面装置也可以使用,包含字母数字键盘、其他按键信息或任意定点装置,例如鼠标、轨迹球、触笔、光标或方向键。

另一个实施例包含一种计算机程序产品,其是储存介质,其内储存有可以用于对计算机进行编程以执行本发明界面连接方法的指令。该储存介质可以包含但并不限于盘片类型,包含软盘、光盘、DVD、CD ROM、磁光盘、RAM、EPROM、EEPROM、磁或光学卡或任意类型的储存电子指令的介质。

在任一计算机可读取介质内储存有用于控制一般目的/特殊计算机或微处理器的硬件的软件,用于使得计算机或微处理器与人类用户或利用本发明结果的其他机制互动。此软件可以包含但并不限于装置驱动程序、操作系统、及用户应用程序。最后,此计算机可读取介质还包含软件,用于执行与本发明界面连接的方法。

用于执行上述电子字典或LSC的方法的用户装置或系统可以是便携式电子装置,例如以下之一(或一个以上之组合):网络为主的装置;无线计算机手机(例如苹果的iPhone(R));个人数字助理(PDA),如黑莓机(R)、Palm(R)计算装置等;手持计算机;便携式电子字典;膝上型计算机(或其他类型之便携计算机,如平板计算机);智能电话;例如数字相机或数字摄影机的介质记录器;数字介质播放器,例如iPod(R)、mp3播放器、电子书读卡机、手持游戏平台;个人导航装置;整合装置等等。用户装置可以为桌上型计算机,例如IBM相容个人计算机(PC)或苹果麦金塔(R)。通常,任何已知或随后开发的装置或装置组合均可以执行上述功能,并与本发明实施例一起使用。

本发明的软件实施例可以购买(或取决于应用程序提供者而免费附送)并经由有线或无线网络下载给用户。苹果的AppStore是下载软件至便携式装置的系统例。

营收共享/数据安全概要

一个实施例也可能合并由不同数据提供者所提供的专有字典或词汇数据库并包含不同数据结构,以用于模组化语言服务系统中。开始时,这将出现困境,通常,不同词汇数据或NLP模组的提供者为竞争者。为何这些人要把他们的数据或模组集合于一个系统中?此问题可以通过本实施例的四个特性加以解决,这些特性使市场更活络。1)上述的数据描述模型(包含说明码)及分析系统(包含标题文件),以使得具有各种结构的数据被加入一个系统中,并加入有对应的应用架构以显示来自第三方的词汇数据。

2)经由来自不同源的数据文件的加密及锁定而实现数据安全;

3)一次购足及展现功能,使得各种词汇数据源可以为用户所用;及

4)互利财务-营收共享系统,可以使得LSC实施例财务上吸引LSC系统的授权者及词汇数据的贩售者,使得两者利用把LSC包含到OS及使得不同源的词汇数据可用,而取得各种好处。

这些元件的特有组合,使得输入方法系统的数据共享模型可行。下面描述这些关键方面中的三个-即,数据安全、一次购足及展现功能、及互利财务(营收共享)。

图9为具有营收共享及数据安全特性的例示LSC图。更明确地说,系统900包含LSC602,其除了上述有关图6的元件外,也包含词汇数据安全模组902、激活码模组904、词汇数据库存取模组906、一次购足(或电子商务)模组908、及营收共享模组910。也一起连接至LSC602的有具有图形用户界面914的用户系统912。用户系统可以整合LSC并可以本地连接或为远端连接。图形用户界面可以用于显示各种上述用户界面屏幕及元件。连接至LSC的也有OS提供者916及词汇数据源提供者918,其可以由LSC602的营收共享模组910接收营收共享信息。各种元件的操作系讨论如下。

数据安全

因为来自不同词汇数据提供者的数据将被取得并为在相同计算机上的用户所用,所以,重要的是词汇数据源提供者感到安全,不会危及其数据的安全。否则,字典制作者可能非法将来自另一字典制作者的数据加入其本身的数据库。一个实施例通过提供以下的特性而保护数据安全:

1)在给定计算机上的每一个LSC系统具有特有ID,该特有ID绑定于使用其的计算机上。

2)加入该LSC系统的每一个词汇数据源具有其本身ID及密钥,并与在系统上的其他词汇数据源有区别。

3)除了用户字典外(包含用户本身指明并被加入系统的字),安装在系统中的词汇不能被拷贝及使用于另一系统,因为它们的安全密钥将与该计算机的LSC特有密钥配对结合(marry)。

4)当未使用时,所有词汇数据文件可以例如使用blowfish、two-fish或其他加密算法进行加密。

5)只要LSC使用词汇数据文件,该词汇数据文件就被锁定,使得它们不能被外部程序或用户所观看。

因此,在任何时间,词汇数据文件可以被加密(当未使用)或锁定(被使用时)。再者,它们不能被从一个计算机拷贝至另一个计算机,因为它们只有在提供开始安装时的特有存取密钥才会工作。此密钥是被第一次展现使用或第一安装(如果展现选择未使用)时被提供。

一次购足及展现能力

本来,用户可能不愿意立即在额外输入方法字典上花费大量金钱,如果他们没有感觉增加一个专有字典将如何改良数据输入及其他LSC系统功能。在同时,在现行商业实务中,词汇数据源可能难找,因为它们来自不同源并可能不会一直为电子格式且可取用。

为了针对此可能缺点,“一次购足”能力可以提供,使得所有符合本LSC系统的词汇数据源可以在一个位置找到,例如在跟随著OS安装软件的安装CD上,或在一个专用于提供词汇数据源下载的网站找到。属于该用户想要语言的词汇源可以被加密格式下载。

如果用户想要展现(demo)词汇,则提供“配对结合密钥(marriagekey)”给该计算机,表示词汇文件将不会为另一计算机所使用。随后,LSC设备解码该文件并将之加入词汇收集中,但用于该专有字典的源字被指定以一个去激活日期(deactivation date)。一旦去激活日期到达,则该专有字典不再被使用,其实体被由词汇集合中移除。如果用户选择购买该专有字典,则该专有字典会给予以再激活密钥,并由该时点起,其可以永久被用于该计算机上。

任意数量的标准加密算法均可以用于本方法中,以加强数据安全,该实际实施法将与平台相关。理想上,所有数据库将具有分开密钥,使得在该密钥被发现的不太可能的事件中,不会危及其他密钥的安全。然而,可以迅速看到加密可以足够确保,使得黑客攻击成为不可能。因此,使用blowfish还是two-fish算法并不重要,只要提供足够安全以防止词汇数据被偷窃即可。因为激活及去激活(后-展现)码由安装数据的计算机所独有,所以,不可能使人们分享激活或去激活码。

同时,任意其他类型的NLP模组也可以在一次购足系统中取得。模组必须符合上述LSC界面。因此,各种文字至语音、语音至文字、输入方法、手写识别、及光学符号识别模组可以以此方式取用。

营收共享

为了使LSC系统的准备与管理满足OS提供者及词汇数据提供者,可以准备各种财务配置。然而,较佳地,对于每一个词汇购买者,OS提供者将收到小额权利金百分比,以协助补偿授权LSC系统的价格。词汇提供者将给予小额权利金百分比。LSC系统授权者也可以为该OS提供者所直接付款或接收每一个专有字典购买的类似权利金百分比。“双羸”财务或营收共享将为OS制作者提供鼓励,以加入LSC及专有字典提供者提供其数据。再者,如果外部NLP模组开发者附著至该界面。

付款方法与付款保证

付款理想上在因特网上进行,使得他们可以取得用于该专有字典的永久激活码。也可以免费提供暂时展现码,但它们只提供有限次使用与取用能力,并具有中断其有限次使用的手段。理想上,当完成购买时,专有字典提供者及OS提供者及LSC系统提供者均被通知,使得其中不会有权利金分配的争议。

为了安全及确保三方之任一方不会有耍诈,当用户付款专有字典时,确认码可以由所有三方来提供。分开确认码的使用确保每一方可以在专有字典被购买时被通知,因而,确保每一方将知道它们正接收它们同意的利润份额。

在操作时,用户由网络或安装CD下载或安装专有字典模型。然后,选择展现(如果想要的话)该产品,在其上提供展现激活密钥。在此时,词汇数据被“配对结合”给系统上的特有LSC。来自下载专有字典的字被暂时储存于系统中的词位收集处。当展现期到期,则数据被由该收集处移除。

用户然后可以购买该专有字典。在购买时,OS提供者、专用词典提供者及LSC服务提供者均被通知有购买的情形。再激活(永久)密钥被提供,及数据被再次加入该词位收集处。理想上,在线购买该再激活密钥,但对于无法接入的人,离线交易也可以。

用户可以选择哪些组差异数据被自动取用,而哪些被预设隐藏。对于区块数据,则没有此选择。如果被选择显示,则区块数据被显示为一个单元。

词汇数据的额外购买遵循相同原理,如先前实施例,该数据被包含至系统的词位收集处。

也可以额外购买NLP模组。假设它们符合上述界面,则它们也可以利用集合在语言服务中心中的词汇数据。

在另一个实施例中,非CJK语言也可以被包含到语言系统中。虽然上述实施例是针对东亚语言学习者及用户的,但很多语言服务中心(LSC)的特性可以应用至其他语言的用户与学习者,包括它们的书写系统是基于某种形式的字母描述语言者。因此,例如,基于计算机及基于手持电子装置的LSC可以应用至西方语言。对此,用于系统中的词位的收集数据将需要在拼字上被重排序,以符合该描述语言。

在很大程度上,相同基本框架及数据结构可以应用如同面向CJK的LSC系统上。然而,非CJK系统的实施法将需要少量如图7所示的修改。

手写辨识模组、光学字元辨识模组及输入法模组均与文字流界面连接,优选以该语言的标准拼字法呈现文字流。所感觉的字母顺序将为实际拼字的构词分析器所测试。(此与CJK系统的不同在于该CJK系统使用罗马化缓冲器(拼音、罗马字等)以表示被输入的文字的声音)。同时,文字至语音及语音至文字模组与相同类型的注音流类型像CJK版本那样界面连接,但只在此情况中,该表示几乎不会是实际拼音,而是某种形式的注音或音韵表示法。因为同音异义字的因素,所以重要的是该表示法可以映图至各个拼出的可能字。(例如,在某些英文方言中,cot及caught听起来一样,但有相同注音表示法。因此,注音表示法将映图到两个字。)为了使这成为可能,在系统中的词位的收集必须不只具有实际拼字也要具有注音流等价物,该注音流等价物能被文字至语音或语音至文字的模组所识别。同样地,衍生规则将包含表示在标准拼音(语言的拼字系统)的变化及衍生及所用于注音流界面中的注音表示法的能力。图7显示了NLP模组对与LSC的这些界面的关系。(注意,如果系统的目标为对说中文者提供英文协助,则也可以包含基于字元的界面,如同在CJK版本那样。)

各种通常并未实施于标准输入法中的特性可以应用至CJK实施例中。例如,通过追踪用户输入,可能可以取得用户的字汇使用,并与标准频率计数进行比较。此作法能提供有指导性的数据,特别是如果用户有大量或在字汇上有大间断(在第二语言学习者常见)。语法或拼音助理也可以即时采用,假定各个字输入将被构词分析器所测试。未匹配任何变化形式的字可能加上标志供识别,并在分开浮动面板或其他GUI上可以立即提供可能匹配。用户可以立即取用字典,因为某些字典可能为双语,用户可以逆向查字,如同CJK版本那样。简言之,应用此方法至非CJK语言学习者有大量可能指示性优点,这些优点与在实施面向CJK的LSC时所取得的优点类似。

总结,LSC可以容许输入法及其他NLP模组用于中文、日文及韩文以外的语言。

应了解的是,上述任意步骤可以整个或部份重复,以执行语言数据管理工作。再者,应了解的是,上述步骤可以在单一或分散处理器上执行。同时,在上述各实施例图所示的处理、模组及单元可以分布于多个计算机或系统中,或可以一起放在单一处理器或系统中。

用于语言数据管理的方法、系统及计算机程序产品(即软件)的实施例可以实施在一般目的计算机、特殊回的计算机、ASIC或其他集成电路、数字信号处理器、硬件接线电子或逻辑电路,例如分立元件电路、程序逻辑装置,例如PLD、PLA、FPGA、PAL等等上。通常,能执行于此所述步骤的程序可以用于实施语言数据管理的方法、系统或计算机程序产品的实施例。

再者,所揭示的用于语言数据管理的方法、系统与计算机程序产品实施例可以迅速部份或整个地实施于软件,使用例如对象或面向对象软件开发环境,提供可以用于各种计算机平台上的便携式源码。或者,所揭示用于语言数据管理的方法、系统与计算机程序产品的实施例可以部份或整个被实施为硬件,例如使用标准逻辑电路或VLSI设计。取决于系统的速度及/或效率要求,也可以使用其他硬件或软件,利用特定功能,及/或特定软件或硬件系统、微处理器或微计算机系统。用于语言数据管理的方法、系统与计算机程序产品的实施例可以以硬件及/或软件,以已知或随后开发的系统与结构、装置及/或软件,为本领域技术任意以在此描述的功能及一般计算机及/或语言学基础知识来实施。

再者,所揭示的用于语言数据管理的方法、系统与计算机程序产品可以被实施为执行于一般目的计算机、特殊目的计算机、微处理器等等中的软件。同时,语言数据管理系统与方法可以实施为嵌入于个人计算机上的例如JAVA(R)或CGI描述语言程序的程序,作为在服务器或图形工作站上的资源,作为嵌入在专用处理系统中的例程等等。该方法与系统可以将语言数据管理的方法实际包含至软件及/或硬件系统,例如,计算机软件程序、电子字典及/或翻译机。

因此,明显地,本发明提供有依据本发明的用以语言数据管理的方法、系统与计算机程序产品。虽然本发明已经配合若干实施例加以说明,但明显地,各种替代、修改及变化系可以为本领域技术人员所知。因此,申请人想要包含所有在本发明精神与范围内的这种替代、修改与等效变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号