首页> 中国专利> 新单词自动学习方法及装置和文字输入系统

新单词自动学习方法及装置和文字输入系统

摘要

公开了一种适用于包括单词词典的对象语言文字输入系统的新单词自动学习方法,包括:采集步骤,从输入的对象语言语料中采集新单词词典和单词词典中没有的字串作为采集字串,所述新单词词典用于保存所述单词词典中没有的单词;第一保存步骤,将所述采集字串中没有存在于临时新字串词典中的采集字串作为临时新字串保存在临时新字串词典中,以及将存在于所述临时新字串词典中但没有存在于新字串词典中的采集字串作为新字串保存在新字串词典中;以及第二保存步骤,在利用对象语言文字输入系统进行对象语言文字输入过程中用户选择被作为输入候选项呈现的、所述新字串词典中的新字串时,将该新字串作为新单词保存在所述新单词词典中。

著录项

  • 公开/公告号CN101324878A

    专利类型发明专利

  • 公开/公告日2008-12-17

    原文格式PDF

  • 申请/专利权人 夏普株式会社;

    申请/专利号CN200710111842.4

  • 发明设计人 薛俊;吴波;吴亚栋;

    申请日2007-06-15

  • 分类号G06F15/18;G06F17/30;G06F3/023;

  • 代理机构中科专利商标代理有限责任公司;

  • 代理人王波波

  • 地址 日本大阪府

  • 入库时间 2023-12-17 21:06:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-08-04

    未缴年费专利权终止 IPC(主分类):G06F15/18 授权公告日:20120613 终止日期:20160615 申请日:20070615

    专利权的终止

  • 2012-06-13

    授权

    授权

  • 2010-08-18

    实质审查的生效 IPC(主分类):G06F15/18 申请日:20070615

    实质审查的生效

  • 2008-12-17

    公开

    公开

说明书

技术领域

本发明涉及文字输入,具体涉及一种用于对象语言文字输入系统的新单词自动学习方法及使用该方法的装置以及使用该方法的文字输入系统,能够提高诸如中文或者日文的输入效率,并且适用于诸如手机之类便携式信息终端。

背景技术

西文之外的文字,诸如中文和日文之类的东方文字,向计算机之类数字设备的输入是长久以来困扰人们的问题。为了解决计算机处理中文的问题,已经开发出了各种各样的文字输入方法,来提高信息处理的自动化水平。

为了提高文字输入效率,部分的文字输入方法支持在输入过程中学习新单词。通常有两种学习新单词的方法,一种是手动添加新单词的方法,另一种是自动新单词学习方法。

现有的手动添加新单词的中文新单词学习方法的一个例子是微软中文输入法。在输入过程中,用户打开中文输入系统自带的新单词学习专用软件,把遇到的新单词添加到中文输入系统所维护的词典中,从而在下次遇到该单词时,就可以在候选条目中出现该单词,便于用户选择。

现有的手动添加新单词的中文新单词学习方法的另一个例子是陈桥输入法。根据该方法,用户也可以在中文输入时使用键盘上的按键作为辅助键标出新单词的起始位置和终止位置后,中文输入系统对所标出的新单词进行记录,供以后用户输入时使用。

中国专利申请CN94104905.1和CN94106045.4披露了一种自动中文新单词学习方法。在该方法中,把出现的新单词全部学习记录下来,当用户输入新字串时,将新字串记录为新单词,以后累计计算用户对新单词的使用频度,保留使用频度高的新单词,删除那些使用频度低的新单词。上述中文输入系统可以永久保存新单词。

自动中文新单词学习方法的另一个例子是紫光拼音输入法。根据该方法,把出现的新单词暂存在机器内存中,累计计算新单词的使用频度,并根据该使用频度调整新单词作为输入候补的顺序,供用户选择使用。

很明显,手动中文新单词学习方法不能在用户连续输入中文的同时全自动地完成新单词的学习。在新单词的学习过程中,用户要进行一些手动操作辅助中文输入系统完成新单词的学习,给用户造成了负担,降低了中文输入的效率。

另外,现有的自动新单词学习方法都应用于可一次进行2个以上汉字字串的拼音或其他文字代码的变换的输入模式下的。即,用户一次输入对应2个汉字以上的字串的拼音串或其他文字代码串,然后选择相对应的汉字,依靠该拼音串或其他文字代码汉字串和所输入的汉字串的对应关系进行新单词学习。

但是,在应用于嵌入式设备、移动终端等的单汉字输入系统(单汉字输入系统中,用户每次只能输入对应一个汉字的拼音、笔画或者其他代码,进行一个汉字的转换。单字输入法主要出现于一些嵌入式设备,移动终端中,单字输入方法的一个例子是手机里使用的T9输入法)中,每次都以单个汉字的拼音或其他文字代码进行汉字变换,不存在连续输入两个以上汉字的拼音串或其他文字代码串的情况,依靠拼音串或其他文字代码串和汉字串的对应关系进行单词学习的现有的自动中文新单词学习方法无法应用于单汉字输入系统中进行单词学习。

再者,现有的自动新单词学习方法将词典中没有的字串立即存入词典中,在作为输入候补使用,依靠对新单词作为输入候选项被选用的次数的累计,判断该新单词在词典中被继续保留或删除,当用户输入不经常使用的新单词、甚至只是无意义的2个汉字以上的字串时,现有的方法都会把它们当作新单词存入词典中,作为输入候选项选用。这样,词典和输入候选项中会出现很多不经常使用或无意义的字串,影响中文输入系统的处理效率和用户选择输入候选项进行输入的效率。

发明内容

【要解决的技术问题】

鉴于上述问题,完成了本发明。本发明的目的在于提供一种新单词自动学习方法及其装置和文字输入系统,能够提高诸如中文或者日文之类的对象语言文字的输入效率,并且适用于诸如手机之类便携式信息终端。

【解决技术问题的手段】

在本发明的一个方面,提供了一种适用于包括单词词典的对象语言文字输入系统的新单词自动学习方法,包括:采集步骤,从输入的对象语言语料(material)中采集新单词词典和单词词典中没有的字串作为采集字串,所述新单词词典用于保存所述单词词典中没有的单词;第一保存步骤,将所述采集字串中没有存在于临时新字串词典中的采集字串作为临时新字串保存在临时新字串词典中,以及将存在于所述临时新字串词典中但没有存在于新字串词典中的采集字串作为新字串保存在新字串词典中;以及第二保存步骤,在利用对象语言文字输入系统进行对象语言文字输入过程中用户选择被作为输入候选项呈现的、所述新字串词典中的新字串时,将该新字串作为新单词保存在所述新单词词典中。

优选地,所述采集步骤包括:用连续输入的对象语言语料中的特定字符将所述对象语言语料切分为段(segment);以及将与新单词词典和单词词典中的单词不同的段作为采集字串来保存。

优选地,所述特定字符包含除了对象语言文字之外的字符和单字成词的对象语言文字的至少之一。

优选地,所述第一保存步骤包括:在新字串词典没有保存所述采集字串的情况下,将所述采集字串和临时新字串词典的字串相比较;在临时新字串词典没有保存所述采集字串的情况下,将所述采集字串作为临时新字串词典保存入临时新字串词典;以及在临时新字串词典保存有所述采集字串的情况下,将所述采集字串作为新字串保存入新字串词典,并将所述临时新字串从临时新字串词典中删除。

优选地,所述新字串词典保存的新字串作为对象语言文字输入系统的输入候选项来呈现给用户。

优选地,所述新字串词典中存储了与所述新字串一一对应的新字串标志位,并且所述新字串标志位具有预设的初始值。

优选地,所述第二保存步骤还包括:

在用户选中其他输入候选项作为输入单词的情况下,将所述新字串标志位的值增加或减少预定数。

优选地,所述第二保存步骤还包括:在用户选中其他输入候选项作为输入单词的情况下,将所述新字串标志位的值增加或减少预定数目。

优选地,所述新字串标志位的值为预定值时,将该新字串从新字串词典删除。

优选地,在用户不断输入对象语言语料的同时自动进行新单词的学习。

优选地,统计并保存所述采集字串,临时新字串,新字串,新单词的词频。

优选地,所述输入候选项是以词频来排序的。

在本发明的第二方面,提供了一种新单词自动学习装置,适用于包括单词词典的对象语言文字输入系统,所述新单词自动学习装置包括:显示单元,显示所述对象语言输入系统作为对象语言语料输出的对象语言字串、以及所述输入的字串的一个以上的其他变换结果的候选字串;新单词词典,存储所述单词词典中没有的单词;字串采集单元,在所述变换后的对象语言语料中采集单词词典和新单词词典中没有的字串;临时新字串词典,将由所述字串采集单元采集的采集字串中没有存在于新字串词典和临时新字串词典中的采集字串作为临时新字串进行保存;新单词词典,将由所述字串采集单元采集的采集字串中存在于临时新字串词典中但没有存在于新字串词典中的采集字串作为新字串进行保存;第一保存单元,将由所述字串采集单元采集的采集字串中没有存在于临时新字串词典和新字串词典中的采集字串根据规定的条件保存在临时新字串词典或者新字串词典中;以及第二保存单元,在用户从显示于所述显示单元的对象语言候选字串中选择的候选字串为新字串时,将其作为新单词保存到所述新单词词典中。

【本发明的效果】

利用本发明的方法和装置,在用户输入对象语言语料的同时完全自动地学习新单词,无需手动操作,提高了对象语言文字输入的效率。

另外,由于本发明使用用户所输入的对象语言语料中的特殊字符将对象语言语料分段,针对语料段进行新单词学习操作,相对于利用拼音或其他文字代码和字串的对应关系进行新单词学习的现有的自动新单词学习方法不能应用于单字输入的文字输入系统,本发明的新单词自动学习方法能应用于适用于嵌入式设备的单字输入的文字输入系统。

另外,由于本发明对采集后的字串通过多重的使用频度统计进行筛选,删除使用频度较低的字串,只将使用频度高的字串作为新单词存入新单词词典,提高了新单词学习的准确率。

另外,由于本发明对采集后的字串通过多重的使用频度统计进行筛选,删除使用频度较低的字串,只将使用频度高的字串和新单词词典的内容提供给文字输入系统用作候选项,提高了文字输入的效率。

另外,本发明将采集后的字串的词频(使用频率)进行记录,并将所述字串提供给文字输入系统作为输入候选项使用时,将其词频也提供给文字输入系统,作为文字输入系统对候选项进行排序的依据,进一步提高了中文输入的效率。

另外,在文字输入系统被关闭后,依然保存临时新字串词典,新词串词典,新单词辞典的内容,使得每次的学习结果能不断积累保留。

附图说明

通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:

图1是根据本发明实施例的中文输入系统和新单词自动学习装置的示意性结构框图;

图2是说明根据本发明实施例的新单词自动学习方法的总体流程图;

图3示出了在如图2所示的各个步骤的执行过程中中文输入系统和新单词自动学习装置之间的交互过程;

图4示出了临时新字串词典、新单词词典的所储存的单词信息以及作为输入候选项向中文输入系统提供的单词信息的数据结构;

图5示出了本发明实施例中所用的新字串词典所储存的单词信息的数据结构;

图6是描述字串采集的详细过程的流程图;

图7是描述新字串的判定的详细过程的流程图;以及

图8是描述新单词的判定的详细过程的流程图。

具体实施方式

下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。

图1是根据本发明实施例的中文输入系统和新单词自动学习装置的示意性结构框图。

如图1所示,中文输入系统100包括候选项输出部分110,单词词典120,语料输出部分130和第一存储区140。

中文输入系统100启动后,从新字串词典260和新单词词典270中将新单词学习装置200所保存的新字串和新单词读入第一存储区140中。

用户通过按下键盘上的按键或者显示在屏幕上的虚拟键盘上的按键来输入诸如拼音或者笔画之类的代码,候选项输出部分110根据输入的代码与单词词典120中的单词、第一存储区140中的新字串和新单词之间的对应关系,向用户呈现这些备选单词和字串。

用户从这些备选单词和字串中选择想要输入的单词或者字串,通过语料输出部分130输出,按照文字的输入顺序存储在存储器的其他存储区(例如第二存储区)或者显示在屏幕上。

根据本发明实施例的新单词自动学习装置200包括采集输入的对象语言语料中的字串作为采集字串的字串采集部分220、暂时存储采集字串的第二存储区230、用于确定临时新字串和新字串并将其保存的新字串保存部分240、用于保存临时新字串词典和新字串词典中都没有的采集字串的临时新字串词典250、用于保存已经存在于临时新字串词典但是没有存在于新字串词典中的采集字串的新字串词典260、用于确定并保存新单词的新单词保存部分210和用于将存在于新字串词典但是没有存在于新单词词典中的采集字串作为新单词来保存的新单词词典270。

如上所述,在文字输入过程中,语料输出部分130实时将中文语料存储在第二存储区230中,用于字串采集。字串采集部分220识别输入的语料中的特定字符,例如标点符号,数字,英文字母等其他国家的文字字符之类除了对象语言语料之外的符号,以将输入的语料切分成各个字串。如果切分的字串已经存储在中文输入系统100内置的单词词典120中或者已经存储在新单词词典270中,这意味着该字串已经不是新单词,将其从第二存储区230中删除。如果未在单词词典120中发现该字串,则将该字串作为临时新字串保留在第二存储区230中。在上述过程中,所述特定字符不作为采集对象进行采集。

接下来,新字串保存部分240将第二存储区230中保存的采集字串的内容与新字串词典260的内容相比较。如果新字串词典260已经保存所述采集字串,将所述采集字串从第二存储区230中删除。

如果新字串词典260没有保存所述采集字串,再将所述采集字串和临时新字串词典250中的内容相比较,如果临时新字串词典250没有保存所述采集字串,则所述采集字串成为临时新字串保存入临时新字串词典250,并且将所述采集字串从第二存储区230中删除。

如果临时新字串词典250保存有所述采集字串,所述采集字串成为新字串保存入新字串词典260,并且将所述采集字串从第二存储区230中删除,将所述临时新字串从临时新字串词典250中删除。如上所述,所述新字串词典260保存的新字串作为中文输入系统100的输入候选项使用。

在用户输入文字的过程中,将用户所选择的结果输入到新单词保存部分210中,来判定新字串词典260中存储的新字串是否能够成为新单词。

当从输入语料中检测出所述新字串作为中文输入系统100的输入候选项被用户作为输入单词选中,新单词保存部分210将所述新字串作为新单词保存入新单词词典270,并且将所述新字串从新字串词典270中删除。当检测出用户选中其他输入候选项作为输入单词,所述新字串标志位(初始值为0)减1。所述新字串标志位为M(M为预设值,M<0)时,将该新字串从新字串词典260删除。图5示出了本发明实施例中所用的新字串词典260所储存的单词信息的数据结构。

下面对照附图2~8详细说明本发明的新单词自动学习方法的详细操作过程。

图2示出了本发明的新单词自动学习方法的总体流程图。如图2所示,在中文语料的连续输入过程中(S110),根据上述的特定字符将输入的语料切分成字串(S120)。然后,判断采集的字串是否是新字串(S130),并且进一步判断新字串是构能够成为新单词(S140)。最后,将新字串和新单词存储在新字串词典260和新单词词典270中。

在图3所示,在中文输入系统100启动之后,中文输入系统100将自身单词词典120中保存的单词信息提供给新单词自动学习装置200,新单词自动学习装置200将作为候选项保存的单词信息,例如新字串词典260中的内容和新单词词典中的内容,提供到第一存储区140中,向用户呈现候选输入项。

在字串采集过程中,中文输入系统的语料输出部分130连续向新单词自动学习装置200的第二存储区230提供用户输入的语料。

在新字串判断过程中,中文输入系统100在向新单词自动学习装置200提供语料的同时,新单词自动学习装置200将判断的新字串作为输入候选信息提供到第一存储区140中,作为用户输入文字过程中呈现的备选项。

在新单词判断过程中,中文输入系统100在向新单词自动学习装置200提供语料的同时,新单词自动学习装置200将更新后的新单词词典中的新单词作为候选项提供给第一存储区140,作为用户输入文字过程中呈现的备选项。

图6是描述字串采集的详细过程的流程图。如图6所示,用户连续输入语料“科学技术飞快发展,”。字串采集部分220将相邻的两个字符与已经存储在单词字典120和新单词词典270中的单词进行比较(S121)。

这里,假设“科学”和“技术”存在于中文输入系统100内置的单词词典120中,“发展”存在于新单词词典270中。“飞快”不在单词词典120和新单词词典270中。

然后,判断该语料中是否存在单词词典120和新单词词典270中存在的单词或者新单词(S122)。由于“飞快”不在单词词典120和新单词词典270中,保存“飞快”到第二存储区(S123)。

接下来,判断输入的语料中是否出现上述的特定字符(S124)。当检测出特定字符“,”时,以“,”为分割的该段中文语料的字串采集结束。(S125)。

图7是描述新字串的判定的详细过程的流程图。如图7所示,新字串保存部分240将第二存储区230中保存的采集字串“飞快”与新字串词典250中的内容相比较(S131)。

新单词词典270在新字串词典260中查找是否存在字串“飞快”(S132)。如果已经存在,则从第二存储区230中删除采集字串“飞快”(S137)。如果不存在,则在临时新字串词典260中查找是否存在字串“飞快”(S133)。

如果新字串词典260中不存在“飞快”,但临时新字串词典250中已经存在字串“飞快”,则将字串“飞快”保存到新字串词典,并且修改该字串的词频(S135)。从临时新字串词典和第二存储区230中删除字串“飞快”(S136),并将更新后的新字串词典的内容作为单词信息提供给中文输入系统100作为候选项。

图4示出了临时新字串词典、新单词词典的所储存的单词信息以及作为输入候选项向中文输入系统提供的单词信息的数据结构。如图4所示,每个单词(字串)与相应的词频相对应地存储。中文输入系统100按照词频来每次向用户呈现备选输入项。

如果新字串词典260和临时新字串词典250中都不存在字串“飞快”,将字串“飞快”保存到临时新字串词典250(S134),再删除第二存储区230中的采集字串“飞快”(S137)。

图8是描述新单词的判定的详细过程的流程图。如图8所示,在新字串词典中刚保存的字串“飞快”对应的标志位设置为初始值0(S141)。

用户输入拼音“feikuai”时,输入候选项中出现“飞快”(S142)。判定用户是否将该输入候选项作为输入语料(S143)。当用户选择输入候选项“飞快”作为输入语料时,从新字串词典260删除“飞快”(S146),将字串“飞快”保存到新单词词典270(S147)。

如果用户选择“飞快”以外的字串作为输入候选项,则将新字串词典中字串“飞快”的对应标志位减预定的数目,例如1(S144)。

然后判断标志位是否为M(M是预先设定值,M为小于0的整数)(S145)。当以上过程反复进行后,“飞快”的对应标志位等于M时,删除新字串词典中字串“飞快”(S146),并且将更新后的新字串词典的内容作为单词信息提供给中文输入系统作为候选项。

图5示出了本发明实施例中所用的新字串词典所储存的单词信息的数据结构。如图5所示,每个新字串不仅与相应的词频相对应,还与其标志位相对应地存储。从而,当标志位为预定值M时,可以将新字串词典260中的字串删除。

因此,根据本发明实施的方法在用户连续输入中文的同时,通过对用户连续输入的中文语料进行的字串的采集,并对所采集的字串进行概率统计分析,自动学习中文输入系统100的单词词典120中没有的新单词。整个过程不需要用户进行任何操作,在用户使用中文输入系统100进行输入的同时自动完成。

本发明的新单词自动学习方法所涉及的计算简单,资源占有较小,并能支持包括“只能单字输入的输入系统”(无法进行词单位的拼音变换)的各种输入系统,适用于嵌入式系统与移动终端。

另外,本发明实施例的新单词自动学习装置200作为词典新单词学习模块,可集成于中文输入系统100中,也可作为独立插件通过接口与中文输入法连接,安装于各种中文输入系统。

虽然在上述的实施例中,每当用户选中该字串时,将标志位的值减去一个预定值,例如1。但是本发明并不局限于此,也可以将字串的标志位的值加上一个预定值。这样可以取得与上述实施例相同的效果。

至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号