首页> 中国专利> 用于对消息应用中收到的文本消息编写回复的方法和系统

用于对消息应用中收到的文本消息编写回复的方法和系统

摘要

本发明提供了用于对消息应用中收到的文本消息编写回复并且自动地改变输入法编辑器的设置的方法、系统和计算机程序产品。确定收到的文本消息的语言并且将其与所述输入法编辑器的当前的输入语言进行比较。将所述输入法编辑器的输入语言自动地改变为所确定的语言,用于输入对用户所收到的消息的回复。

著录项

  • 公开/公告号CN1975715A

    专利类型发明专利

  • 公开/公告日2007-06-06

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN200610147019.4

  • 发明设计人 竹内磨世;

    申请日2006-11-13

  • 分类号G06F17/27(20060101);G06F17/28(20060101);H04L12/58(20060101);H04L29/06(20060101);

  • 代理机构11247 北京市中咨律师事务所;

  • 代理人于静;李峥

  • 地址 美国纽约

  • 入库时间 2023-12-17 18:42:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-05

    未缴年费专利权终止 IPC(主分类):G06F17/27 授权公告日:20100113 终止日期:20181113 申请日:20061113

    专利权的终止

  • 2010-01-13

    授权

    授权

  • 2007-08-01

    实质审查的生效

    实质审查的生效

  • 2007-06-06

    公开

    公开

说明书

技术领域

本发明涉及数据处理领域,并且具体地涉及用于对消息应用中收到的文本消息编写回复的方法、系统和计算机程序产品。

背景技术

现今,计算机操作系统支持多种语言。通常将一大组语言作为操作系统(OS)安装的一部分来安装,并且如果需要的话还可以安装另外的语言。利用安装在计算机上的多种语言,用户可以编写含有一种以上的语言的文档。这些文档的接受者必须在他们的计算机上安装相同的语言来阅读或编辑该文档。许多诸如即时消息(IM)和电子邮件应用的消息系统也支持多种语言。例子有IBMSametime和IBM LotusNotes。

现在的软件用户在很大程度上并未注意到便将字符数据轻易地输入到计算机系统,并且大部分软件开发者在这方面也是如此。对于许多含有少量字母字符的书写体来说输入字符的任务是微不足道的,例如拉丁书写体的情况。当书写体含有少量字符时,可以将每个字符直接指派给键盘上单独的键。人们简单地按下适当的键来输入字符。然而,这种策略在诸如日文的含有大量字符的书写体的情况下却不可行。输入具有大量字符的挑战需要以不同于大部分用户所习惯的方式来使用键盘。已创建来输入这些书写体的方法被称为输入法编辑器(IME)。

IME充当了软件应用和用户之间的中介物并且允许计算机用户使用非日文输入设备键入诸如日文字符的复杂的字符和符号。操作系统软件通常包括基于在每个目标市场中所使用的最普及的输入法的标准IME。其包括:日文、韩文、中文(其被分为繁体和简体)、希腊文和希伯莱文,以及其它诸如那些使用阿拉伯文或西里尔字母的书写体。

IME可以简单地实现直译,即从一种书写体系统映射到另一种书写体系统。例如,用户通过拉丁字符键盘或者其它的输入装置键入拉丁字符,并且该IME将键入的每个字符转换成西里尔字符。然而,对于更复杂的书写系统,文本的编写可能包括更多的步骤。

在解释用户如何使用IME键入这样的字符以前,看一看诸如日文书写系统的更复杂的书写系统之一是有用的。全部日文书面语言包括50,000多个字符,其中大约10,000个是常用的。字符的复杂性及其大的数量需要一些组织来简化阅读和书写。日文书写系统被组织成两类:假名和汉字。

假名是代表汉字的书面语音学的字母表或音节表。假名音节表本身被进一步分解为两个子集:片假名和平假名,它们都代表了相同的语音音节的集合。以有角的方式书写语音音节的片假名集并且将其用于代表除了中文和韩文之外来自外国语言的名字和单词。以草书形式书写平假名字符并且将其用于代表所有本地的日文音素和单词。

汉字字符是非语音字符,其代表思想或观念并且其起源于中国的象形文字。汉字字符通常被称作象形文字并且由称为偏旁以及其它非偏旁的单元所组成。例如,偏旁“雨”用于构造汉字字符“雲”。偏旁本身由被称为笔画的甚至更小的单元构造而成,所述笔画是用一个连续的动作画成的线。

使用IME和非日文输入设备,用户以下面几种方式之一编写每个日文字符:通过偏旁、通过笔画数、通过语音表示或者通过输入日文字符的数字编码索引。

日文输入设备在键上有平假名字符,并且平假名字符的结合被集总成对汉字字符的可能的匹配(然而却存在很多的同音异义词)。在中文输入设备中键代表偏旁。选择汉字符响应于以特定顺序键入的多个偏旁。计算机系统的用户为该计算机系统的OS识别利用该计算机而使用的输入设备的语言设置。然后OS可以识别由用户选择的键所代表的特定字符。

消息系统中存在这样的问题,即用户工作于第一种语言,但却收到了第二种、不同的语言的消息。在这种情况下,对于用户来说以收到的消息的语言回复发送者是有意义的。当前,用户在以第二种语言编写回复消息以前必须手动地改变IME设置。这需要许多的步骤而使得用户答复得慢并且麻烦。

本发明旨在解决该问题。

发明内容

本发明的第一方面提供了使用输入法编辑器回复在消息应用中收到的文本消息的方法。该方法包括:确定收到的文本消息的语言;将所确定的语言与输入法编辑器的当前的输入语言进行比较;以及自动地将所述输入法编辑器的输入语言改变为所述确定的语言用于输入对收到的消息的回复。

这是通过在消息应用中提供附加的处理层来实现的,该处理层自动地识别传入的文本消息中所使用的语言,并且转换用户打开以回复传入的文本的答复窗口或文本输入窗口上的文本输入模式。因此,取决于所识别的收到的消息的语言可以自动地改变输入法编辑器的设置。

本发明的第二方面提供了一种方法,该方法包括:接收收到的消息的文本、识别所收到的消息的语言;接收标识了用于回复消息的文本字符的用户输入;以及将收到的用户输入转换成所识别的语言的文本字符。

本发明的第三方面提供了用于对消息应用中收到的文本消息编写回复的系统。该系统包括:用于接收收到的消息的文本并且识别所述收到的消息的语言的语言识别组件;用于将用户输入转换成文本字符的输入法编辑器;以及用于控制所述输入法编辑器的语言设置的控制器。

优选地,所述输入法编辑器具有与该系统上运行的每个应用关联的输入语言设置,并且所述控制器依照所述语言识别组件所识别的语言来改变与所述消息应用关联的输入语言设置。

附图说明

现在将仅借助于例子并且参照附图来描述本发明的优选实施例,其中:

图1示出了根据本发明的实施例的数据处理系统的略图;

图2示出了根据本发明的优选实施例的系统的组件;以及

图3示出了图2的系统的功能的流程图。

具体实施方式

参照图1,示出了可以在其中实现本发明的数据处理系统10的简略图。如图1所示,数据处理系统包括处理器(CPU)12和连接到本地接口16的存储器14。连接到本地接口16的一个或多个用户输入设备18,例如键盘20、光标控制设备22和显示设备24。此外,还提供了硬存储器26和网络接口设备28。

图1中存储器14内所描述的是当前正运行于数据处理系统10上的操作系统(OS)30和应用32。OS是数据处理系统10的软件(或固件)组件,其通过为程序提供包括将该程序加载到存储器并且运行该程序的特定的服务为程序的执行提供环境。OS还管理多个应用和/或过程中的内部存储器的共享并且处理输入和输出控制、文件和数据管理、通信控制和相关的服务。应用程序通过应用程序接口(未示出)向OS请求服务。

举例来说,数据处理系统10可以包括个人计算机(PC)、膝上型计算机、服务器、工作站或者诸如个人数字助理(PDA)、移动电话等的便携式计算设备。此外,数据处理系统10可以包括图1中未示出的附加的组件,并且,在其它的实施例中其可以不包括图1中所示出的所有的组件。

再次参照图1,将描述数据处理系统10的各种组件。处理器12可以是用于执行位于存储器14中的软件的硬件设备,并且可以是任何定制的或商业上可用的处理器、中央处理器(CPU)、基于半导体的微处理器、宏处理器或一般的用于执行软件指令的任何设备。

存储器14可以包括易失性存储器元件(例如,随机存取存储器(诸如DRAM、SRAM、SDRAM等的RAM))和非易失性存储器元件(例如,ROM、硬盘驱动器、磁带、CDROM、DVDROM等)中的任何一个或者其结合。存储器14可以包括电子的、磁性的、光学的和/或其它类型的存储介质。存储器14还可以具有分布式体系结构,其具有彼此处于遥远位置的、但通过处理器12可访问的各种组件。

举例来说,本地接口16可以是一个或多个总线或其它有线的或无线的连接,并且可以包括为了简单而省略掉的附加的元件,例如控制器、缓冲器(高速缓存)、驱动器、转发器和接收器。另外,本地接口16可以包括地址、控制和/或数据连接以使得数据处理系统10的组件间能够适当地连接。

输入/输出(I/O)设备18可以包括任何配置成与本地接口16通信的设备。在图1中,示出了键盘20、光标控制设备22和显示设备24。还可以提供附加的输入/输出设备,例如光驱、软盘驱动器、照相机、I/O端口、打印机、扬声器、传声器、扫描仪等。

光标控制设备22可以包括任何配置成与应用32和/或OS 30合作并且操作显示设备24上显示的一个或多个光标的输入设备。举例来说,光标控制设备22可以包括、但不限于:鼠标、跟踪球、定位键的集合(例如,箭头键)、触摸板、操纵杆或触敏屏幕。

网络接口设备28可以是任何配置成数据处理系统10与诸如局域或广域网、专用计算机网络、公用或专用分组交换或其它包括因特网的数据网络、电路交换网络或无线网络的计算机或电信网络之间的接口的设备。举例来说,图1中所示出的数据处理系统可以经由网络接口设备28连接到诸如因特网的网络。

电子邮件是能够通过电子通信系统编写、发送和接收消息的消息系统,其包括使用简单邮件传输协议(SMTP)的基于因特网的电子邮件系统,以及允许一个公司或组织内的用户相互发送消息的工作组协作系统。

在典型的电子邮件应用中用户使用邮件用户代理(MUA)编写新消息。用户输入、或者从地址簿中选择预定的收件人的电子邮件地址,并且然后击中“发送”按钮。MUA格式化该消息并且使用SMTP将该消息发送到由该用户的因特网服务提供商(ISP)所运行的本地邮件传输代理。然后该消息被转寄到收件人的邮箱,尽管收件人可能必须按下他的MUA上的“接收邮件”按钮来从他的电子邮件服务器上下载该消息。通常,电子邮件将随“回复”按钮等一起显示给收件人,收件人可以用其来创建回复消息。新的消息框会出现,收件人可以在其中键入文本以便编写回复消息。

诸如IBM Lotus Notes或MicrosoftExchange的许多公司电子邮件系统具有它们自己内部的电子邮件格式并且它们的邮件客户端使用专有协议与电子邮件服务器通信。该服务器通过产品的因特网邮件网关经由因特网来发送或接收电子邮件,该网关还进行任何必要的重新格式化。

即时消息应用与电子邮件应用的区别在于会话能够通过即时消息服务而实时地发生。当用户收到即时消息的时候,取决于该收件人的报警选项,通常消息窗口出现在该用户的显示器上。该窗口通常包括用户可以输入回复的文本输入框,用户一击中“回车”键,会话中的其他方就可以看到该回复。

图2示出了用于自动地改变输入法编辑器的输入语言的系统的组件。该系统包括语言识别组件200、控制器202、一个或多个字典204以及输入法编辑器206。

现在将参考图3、关于消息应用是即时消息(IM)应用的例子来描述根据优选实施例的系统的功能。

在用户的计算机开机时,处理设备的OS启动300并且诸如消息应用和IME应用的许多其它的应用也可以自动地启动,或者用户可以选择这些应用为手动地启动。当启动IM应用时,它将检测(通过配置设置文件或类似物)安装于操作系统上的任何的IME系统以及用户已将哪些语言输入选择为选项。通常,当IME运行时,将为用户呈现用户可以用来与IME交互的应用工具栏或者也许是单独的图标。处理设备还在其上安装了多语言的语言识别字典204,例如目前支持34种语言的IBMLanguageWare字典。

当接收到传入的文本消息时302,一个或多个诸如出现消息窗口的动作会向用户报警。具体的动作取决于用户定义的报警选项。如果用户完全不理会传入的消息304,这可以包括关闭或删除收到的消息,那么不会对IME设置进行改变306。如果用户表明回复该消息的意图,例如通过打开回复窗口或者将光标移动到文本输入框,那么设备检查是否在IM应用中激活了自动的IME改变功能308。如果没有,那么不会对IME设置进行自动改变并且用户可以使用标准的IM功能回复消息。在一些实施例中IME改变功能是被自动地和/或总是被激活的。在变型中,设备可以立即启动语言识别而不是等待用户表明回复收到的消息的意图。

如果开启所述功能,则将收到的消息208的全部或部分的文本传送210到语言识别组件200,例如,其可以由LanguageWare应用程序接口(API)提供。语言识别组件200分析310收到的文本208。这可以包括解析整个消息或消息的一部分,例如其收到的文本的最初50至100个左右的字符,并且使用212一个或多个字典204来查找收到的文本中的字符、单词或单词片断与字典中的字符、单词或词条之间的匹配。该组件可以使用任何已知的语言识别技术,例如在美国专利No.6,292,772题为“用于识别单独的单词的语言的方法”中所描述的。

存在两种用于自动识别文本文档的语言的主要方法:一种是基于单词的语言识别以及另一种是基于N个字符列(N-gram-based)的识别。这两种方法对长文本都起到很好的作用,然而对于较短的文本则认为N-gram更稳健。

基于单词的语言识别技术使用了这样的事实,即每种语言都有一组普遍出现的单词。直观地,含有单词“and”、“the”、“in”的句子最有可能会是英文,而具有单词“der”的句子则更可能是德文。在该技术的实现中,字典包括用于每种可能的语言的单独的词典,并且查询样例文本中的每个单词以确定其位于哪个词典。含有最多的来自样例的单词的词典表明使用了哪种语言。如果随单词提供分数,则可以使用加权总和。

第二种语言建模技术是基于字符N-gram(N个连续字符的序列),其中N的范围通常从2到5。类似于普通的单词技术,该技术从特定语言的文档文集中聚集了语言模型;不同的是该模型由字符N-gram而不是完整的单词组成。

当语言识别组件识别收到的文本的语言时,其将所识别的语言,例如“X”,指示214给控制器202。控制器向IME查询216当前与消息应用关联的输入语言,其通常是系统的默认语言,并且检验312该语言是否与所识别的语言不同。如果与“X”不同,则控制器通知218IME将其输入语言转换为“X”。控制器可能已经知道IME的当前的输入语言,在这种情况下则不需要查询216。控制器还可以实现检验314来确定所识别的语言是由IME或是由OS的默认系统设置所支持的语言。

响应于指令218,IME的输入语言模式转换为语言“X”(步骤316),从而使得当用户在对话窗口的文本输入框中键入文本以编写回复的时候(步骤318),该文本以与传入消息的语言相同的语言出现。用户不需要对其数据处理系统或IME的语言设置进行任何手动的改变。

当用户退出文本输入框并且退回到与处理设备上运行的任何其它的应用交互时,IME模式自动地改变回到关于其它的应用所选择的语言。在微软Windows环境下,每个应用窗口可以有其自己的IME设置,这意味着在特定的时间不同的窗口可以有不同的IME设置。就是说,利用在计算机系统上运行的单个IME,可以随关联的应用窗口运行多个应用,每个应用窗口具有不同的IME设置。在优选的实施例中,根据所识别的传入的文本消息的语言来自动地改变用于消息对话窗口中的IME的语言设置。

在消息应用设置中会存在这样的选项,即用户可以选择不使用该语言改变功能,从而使得即使传入的是不同语言的文本,输入法仍会保持默认。如果取消选择该功能,步骤308会发现未激活该功能并且处理步骤310至318便不会发生。

现在将使用日文作为例子来解释使用IME输入文本的过程。日文文本输入被分为三个阶段:转换或直译;字典查找;以及候选项选择。

首先,用户输入对应于假名字符的拉丁字符。当输入每个拉丁字符时,IME自动地将其转换为平假名或片假名字符。例如,如果输入拉丁字符“ame”,得到平假名字母あめ。

随后,转换字典将假名字符作为输入并且将其转换为汉字和假名字符的合适的混合。字典使用通常被称为“解读”的键或语音发音来找到合意的汉字字符置换。通常,每个解读或键可能有几个汉字与之关联。此外,许多汉字可能有多种解读。例如,“雨”的汉字字符雨有两种可能的解读あめ(拉丁字母“ame”)或う(拉丁字母“u”)。

在候选项选择阶段期间,在输入一连串假名字符以后将汉字/假名字符的列表呈现给用户进行选择。通常按照最频繁的使用来区分置换列表的优先顺序。

当用户从候选项列表中选择候选项以后(通过输入选择号、利用箭头键定位到选项、或者利用鼠标点击选项),便将字符自动地插入到应用。为了方便,多数IME自动地将最频繁使用的置换插入到应用。如果IME选择了不正确的置换,用户可以强制显示置换列表。一旦选择了一个或多个字符,输入过程就重新启动。

关于输入对不同于默认语言IME设置的语言的消息的回复,本发明的优选实施例因而自动操作了IME设置的转换。这使得系统更为用户界面友好并且加快了以与收到的消息的语言相同的语言来编写回复的过程。

使用诸如微处理器、数字信号处理器或其它处理设备的软件控制的可编程处理设备、数据处理装置或系统,在所描述的本发明的实施例的范围内是可实现的、至少是部分可实现的,可以注意到用于配置可编程设备、装置或系统以实现前面所描述的方法的计算机程序被视为本发明的一方面。举例来说,计算机程序可以被实施为源代码或者为了在处理设备、装置或系统上实现而接受编辑,或者可以被实施为目标代码。

相应地,以机器或设备可读的方式将计算机程序存储在载体介质上,例如在固态存储器、诸如磁盘或磁带的磁存储器、诸如压缩磁盘(CD)或数字多用光盘(DVD)的光或磁光可读存储器等,并且处理设备利用程序或其一部分来配置自身以运转。可以从包含于诸如电子信号、无线电频率载波或光载波的通信介质的远程资源提供计算机程序。这样的载体介质也被视为本发明的一方面。

尽管已关于前面的示范实施例描述了本发明,然而本领域的技术人员可以理解到,本发明并不限于此并且存在许多落入本发明范围的可能的变型和修改。例如,消息应用可以是诸如电子邮件消息系统的用于发送和接收文本消息的任何的应用,并且可以使用任何的消息传输协议。

本发明的范围包括本文所公开的任何新颖的特征或者特征的结合。申请人由此提请注意,在进行该申请或者源于其中的任何这样的进一步的申请期间可以对这样的特征或特征的结合确定新的权利要求。特别地,根据所附的权利要求,可以将来自于从属权利要求的特征与那些来自于独立权利要求的特征相结合,并且可以以任何适当的方式将来自于各自的独立权利要求的特征相结合而不仅仅是所附权利要求中所列举的特定的结合。

为了避免疑惑,术语“包括”,如本文贯穿于描述和权利要求中所使用的,并不解释为“仅由……所组成”的意思。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号