首页> 中国专利> 用于输出整句的方法和装置

用于输出整句的方法和装置

摘要

本申请公开了用于输出整句的方法和装置。方法的一具体实施方式包括:基于用户输入的字符串,构建初始词图;确定初始词图中概率最大的整句;响应于初始词图中概率最大的整句中不包括N元关系,对用户输入的字符串进行模糊音处理;基于模糊音处理后的字符串,构建修正词图;确定修正词图中概率最大的整句;输出修正词图中概率最大的整句。该实施方式实现了在没有明显降低客户端整句确定性能的前提下,极大提升了客户端整句的出词质量。

著录项

  • 公开/公告号CN106843520A

    专利类型发明专利

  • 公开/公告日2017-06-13

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201710108016.8

  • 发明设计人 向军志;陈丽敏;李阳;

    申请日2017-02-27

  • 分类号G06F3/02;

  • 代理机构北京英赛嘉华知识产权代理有限责任公司;

  • 代理人王达佐

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2023-06-19 02:35:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-07

    授权

    授权

  • 2017-07-07

    实质审查的生效 IPC(主分类):G06F3/02 申请日:20170227

    实质审查的生效

  • 2017-06-13

    公开

    公开

说明书

技术领域

本申请涉及计算机技术领域,具体涉及计算机网络技术领域,尤其涉及用于输出整句的方法和装置。

背景技术

目前,输入法通常采用最大正向匹配方式,得到输入串的切分,并确定每个音节对应的所有可能的词条,来构建一个词图,其中,为了保证确定量,每个位置的词条数是有限的,优先取词频高的词条,并将词图中概率最大的句子将作为整句输出。

然而,目前这种输入法,尤其是在输入句子的时候,由于一次需要输入大量拼音,人们往往会发生模糊音节的现象(例如f和h不分)。在得到的输入音节模糊之后,输入法给出的整句结果词与词之间往往不存在二元关系,从而导致整句结果质量差。

发明内容

本申请的目的在于提出一种改进的用于输出整句的方法和装置,来解决以上背景技术部分提到的技术问题。

第一方面,本申请提供了一种用于输出整句的方法,包括:基于用户输入的字符串,构建初始词图;确定初始词图中概率最大的整句;响应于初始词图中概率最大的整句中不包括N元关系(N为大于等于1的整数),对用户输入的字符串进行模糊音处理;基于模糊音处理后的字符串,构建修正词图;确定修正词图中概率最大的整句;输出修正词图中概率最大的整句。

在一些实施例中,对用户输入的字符串进行模糊音处理包括以下任意一项或多项:将用户输入的字符串中的声母替换为声母对应关系中与声母对应的声母;将用户输入的字符串中的韵母替换为韵母对应关系中与韵母对应的韵母;以及将用户输入的字符串中的组合替换为组合对应关系中与组合对应的组合,其中,组合包括一个声母和至少一个韵母。

在一些实施例中,将用户输入的字符串中的声母替换为声母对应关系中与声母对应的声母包括以下一项或多项:将用户输入的字符串中的平舌音替换为声母对应关系中与平舌音对应的翘舌音;将用户输入的字符串中的翘舌音替换为声母对应关系中与翘舌音对应的平舌音。

在一些实施例中,将用户输入的字符串中的韵母替换为韵母对应关系中与韵母对应的韵母包括以下一项或多项:将用户输入的字符串中的前鼻韵母替换为韵母对应关系中与前鼻韵母对应的后鼻韵母;将用户输入的字符串中的后鼻韵母替换为韵母对应关系中与后鼻韵母对应的前鼻韵母。

在一些实施例中,基于用户输入的字符串构建,构建初始词图包括:切分输入的字符串,得到初始音节序列;根据词频由高到低,从对应初始音节序列中各个音节的词条中分别获取预定数量的初始词条;基于初始词条,构建词图。

在一些实施例中,确定初始词图中概率最大的整句包括:确定由初始词图中各个音节的初始词条组成的初始路径;采用N元语言模型,确定初始路径中各个音节的候选词条之间的初始条件概率;根据初始条件概率,确定初始路径中概率最大的初始路径;将概率最大的初始路径对应的句子确定为初始词图中概率最大的整句。

在一些实施例中,基于模糊音处理后的字符串,构建修正词图包括:切分模糊音处理后的字符串,得到修正音节序列;根据词频由高到低,从对应修正音节序列中各个音节的词条中分别获取预定数量的修正词条;基于修正词条,构建词图。

在一些实施例中,确定修正词图中概率最大的整句包括:确定由修正词图中各个音节的修正词条组成的修正路径;采用N元语言模型,确定修正路径中各个音节的候选词条之间的修正条件概率;根据修正条件概率,确定修正路径中概率最大的修正路径;将概率最大的修正路径对应的句子确定为修正词图中概率最大的整句。

第二方面,本申请提供了一种用于输出整句的装置,包括:初始词图构建单元,用于基于用户输入的字符串,构建初始词图;初始整句确定单元,用于确定初始词图中概率最大的整句;模糊音处理单元,用于响应于初始词图中概率最大的整句中不包括N元关系,对用户输入的字符串进行模糊音处理;修正词图构建单元,用于基于模糊音处理后的字符串,构建修正词图;修正整句确定单元,用于确定修正词图中概率最大的整句;整句输出单元,用于输出修正词图中概率最大的整句。

在一些实施例中,模糊音处理单元进一步包括以下任意一项或多项:声母替换单元,用于将用户输入的字符串中的声母替换为声母对应关系中与声母对应的声母;韵母替换单元,用于将用户输入的字符串中的韵母替换为韵母对应关系中与韵母对应的韵母;以及组合替换单元,用于将用户输入的字符串中的组合替换为组合对应关系中与组合对应的组合,其中,组合包括一个声母和至少一个韵母。

在一些实施例中,声母替换单元进一步用于以下一项或多项:将用户输入的字符串中的平舌音替换为声母对应关系中与平舌音对应的翘舌音;将用户输入的字符串中的翘舌音替换为声母对应关系中与翘舌音对应的平舌音。

在一些实施例中,韵母替换单元进一步用于以下一项或多项:将用户输入的字符串中的前鼻韵母替换为韵母对应关系中与前鼻韵母对应的后鼻韵母;将用户输入的字符串中的后鼻韵母替换为韵母对应关系中与后鼻韵母对应的前鼻韵母。

在一些实施例中,初始词图构建单元进一步用于:切分输入的字符串,得到初始音节序列;根据词频由高到低,从对应初始音节序列中各个音节的词条中分别获取预定数量的初始词条;基于初始词条,构建词图。

在一些实施例中,初始整句确定单元进一步用于:确定由初始词图中各个音节的初始词条组成的初始路径;采用N元语言模型,确定初始路径中各个音节的候选词条之间的初始条件概率;根据初始条件概率,确定初始路径中概率最大的初始路径;将概率最大的初始路径对应的句子确定为初始词图中概率最大的整句。

在一些实施例中,修正词图构建单元进一步用于:切分模糊音处理后的字符串,得到修正音节序列;根据词频由高到低,从对应修正音节序列中各个音节的词条中分别获取预定数量的修正词条;基于修正词条,构建词图。

在一些实施例中,修正整句确定单元进一步用于:确定由修正词图中各个音节的修正词条组成的修正路径;采用N元语言模型,确定修正路径中各个音节的候选词条之间的修正条件概率;根据修正条件概率,确定修正路径中概率最大的修正路径;将概率最大的修正路径对应的句子确定为修正词图中概率最大的整句。

第三方面,本申请提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任一所述的用于输出整句的方法。

第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的用于输出整句的方法。

本申请提供的用于输出整句的方法和装置,该用于输出整句的方法首先基于用户输入的字符串,构建初始词图;接着,确定初始词图中概率最大的整句;之后,响应于初始词图中概率最大的整句中不包括N元关系,对用户输入的字符串进行模糊音处理;之后,基于模糊音处理后的字符串,构建修正词图;之后,确定修正词图中概率最大的整句;最后,输出修正词图中概率最大的整句,从而实现了在没有明显降低客户端整句确定性能的前提下,极大提升了客户端整句的出词质量。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是根据本申请的用于输出整句的方法的一个实施例的示意性流程图;

图2是根据本申请的确定初始词图中概率最大的整句的方法的一个实施例的示意性流程图;

图3是根据本申请的确定修正词图中概率最大的整句的方法的一个实施例的示意性流程图;

图4a示出了应用用户输入的字符串确定概率最大的整句的一个实施例的示例性应用场景;

图4b示出了应用本申请实施例的模糊音处理后的字符串确定概率最大的整句的一个实施例的示例性应用场景;

图5是根据本申请的用于输出整句的装置的一个实施例的示例性结构图;

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了根据本申请的用于输出整句的方法的一个实施例的流程100。该用于输出整句的方法包括:

在步骤110中,基于用户输入的字符串,构建初始词图。

在本实施例中,基于用户输入的字符串构建初始词图,可以首先采用最大正向匹配方式,切分输入的字符串以得到音节序列,之后可以根据音节序列中各个音节所有可能的词条来构建一个词图。

这里的最大正向匹配方式,是指从左到右将用户输入的字符串中的几个连续字符与音节表进行匹配,如果匹配上则切分出一个音节的方式。

需要注意的是,要做到最大正向匹配,并不是第一次匹配到音节就可以切分的。例如字符串“huaduo”,当扫描到“hu”这一音节时,可以确定这一音节已经在音节表中了,但此时还不能将“hu”这一音节切分出来,因为还未扫描后面的字符看能否组成更长的音节。继续扫描得到“hua”这一音节,发现这一音节已经在音节表中了,继续扫描得到“huad”,通过与音节表的对比可以发现,“huad”并非音节表中的音节,也并非音节的前缀,因此可以切分出最大正向匹配的音节“hua”。

这里的初始词图,是指基于用户输入的字符串构建的词图,并不代表对词图的特殊限定。

在本实施例的一些可选实现方式中,基于用户输入的字符串,构建初始词图包括:切分输入的字符串,得到初始音节序列;根据词频由高到低,从对应初始音节序列中各个音节的词条中分别获取预定数量的初始词条;基于初始词条,构建词图。

在本实现方式中,初始音节序列是指切分输入的字符串得到的音节序列,并不代表对音节序列的特殊限定;同理,初始词条是指根据词频由高到低,从对应初始音节序列中各个音节的词条中分别获取的预定数量的词条,也并不代表对词条的特殊限定。

通过本可选实现方式构建初始词图,可以减少需要处理的词条数量从而提高输入法的响应速度,进而提高与用户交互的效率。

在步骤120中,确定初始词图中概率最大的整句。

在本实施例中,在构建好初始词图之后,可以确定由初始词图中各音节对应的词条组成的路径,之后在这些路径中确定最优的路径,假设,这条路径的词条是w1,w2,...,wn,其中wn是指一条路径中的第n个词条,那么我们可以通过N元关系模型来确定该路径得到的句子的概率,从而找出一个概率最大的整句。

以下举例说明基于N元关系模型确定概率最大的整句的方法。

假设S表示某一有意义的句子,它由一连串特定顺序排序的词w1,w2,...,wn组成,可以由这一句子的概率来确定S在文本中出现的可能:

P(S)=P(w1,w2,...,wn)=P(w1)×P(w2|w1)×P(w3|w1,w2)×...×P(wn|w1,w2,...,wn-1);

其中,P(w1)表示第一个词w1出现的概率,P(w2|w1)表示已知第1个词的前提下,第2个词出现的概率,以此类推,条件越多,确定越复杂,且会产生数据稀疏问题。

本申请中用于输出整句的方法所适用的输入法的语言统计模型,是根据马尔可夫假设得到的。马尔可夫假设认为:任何一个词出现的概率,只与其前面的N-1个词有关,这就是N-1阶马尔可夫假设。对应的统计语言模型是N元语言模型(N-Gram,其中N大于等于1)。

为了提高确定词条、词图和整句的效率,可以采用2元或3元语言模型。以下以2元语言模型为例,说明如何确定概率最大的整句的方法:

当N=2时,2元语言模型采用的是1阶马尔可夫假设,也就是,认为任何一个词只和前一个词有关,此时:

P(S)=P(w1,w2,...,wn)=P(w1)×P(w2|w1)×P(w3|w2)×...×P(wn|wn-1);

其中,P(wi|wi-1)的确定如下:

这里的#表示语料库中的词条总数量,分子是需要确定的词条的总数量,当语料库足够大时,数量比可以约等于概率。

将P(S)等式两边取对数log,可以将乘号变为加号。这样,确定最大的P(S)的问题,可以转换为确定条件概率log的总和最大的路径。

在步骤130中,响应于初始词图中概率最大的整句中不包括N元关系,对用户输入的字符串进行模糊音处理。

在本实施例中,可以检测根据输入的字符串得到的概率最大的整句中是否包括N元关系,若不包括N元关系,则对用户输入的字符串进行模糊音处理,从而修正用户输入的字符串。这里的N元关系,是指句子中N个词条之间的语义相关性。这里的对用户输入的字符串进行模糊音处理,是指将容易混淆、不易区分清楚的一对音节相互转换通用,例如z和zh,n和l,ang和an,fa和hua等。

在步骤140中,基于模糊音处理后的字符串,构建修正词图。

在本实施例中,基于模糊音处理后的字符串,构建修正词图的方法,与步骤110中基于用户输入的字符串,构建初始词图的方法类似,首先采用最大正向匹配方式,切分模糊音处理后的字符串以得到音节序列,之后根据音节序列中各个音节所有可能的词条来构建一个词图。

在本实施例的一些可选实现方式中,对用户输入的字符串进行模糊音处理包括以下任意一项或多项:将用户输入的字符串中的声母替换为声母对应关系中与该声母对应的声母;将用户输入的字符串中的韵母替换为韵母对应关系中与该韵母对应的韵母;以及将用户输入的字符串中的组合替换为组合对应关系中与该组合对应的组合,其中,组合可以包括一个声母和至少一个韵母。

在本实现方式中,声母对应关系是指将容易混淆、不易区分清楚的一对声母相互转换通用的对应关系,例如zh和z、ch和c、sh和s、n和l、h和f、r和l等。因此,将用户输入的字符串中的声母替换为声母对应关系中与该声母对应的声母,也即将用户输入的字符串中的声母替换为声母对应关系中与其相互转换通用的声母,例如,若用户输入的字符串中包括声母zh,并且此时句子中不存在二元关系,则将zh替换为z,然后对进行模糊音处理后的字符串进行后续处理。

韵母对应关系,是指将容易混淆、不易区分清楚的一对韵母相互转换通用的对应关系,例如ang和an、eng和en、ing和in、iang和ian、uang和uan等。因此,将用户输入的字符串中的韵母替换为韵母对应关系中与该韵母对应的韵母,也即将用户输入的字符串中的韵母替换为韵母对应关系中与其相互转换通用的韵母,例如,若用户输入的字符串中包括韵母an,并且此时句子中不存在二元关系,则将an替换为ang,然后对进行模糊音处理后的字符串进行后续处理。

组合对应关系,是指将容易混淆、不易区分清楚的一对组合相互转换通用的对应关系,例如fa和hua、fan和huan、fang和huang、fei和hui、fen和hun、feng和hong、fo和huo、fu和hu等。因此,将用户输入的字符串中的组合替换为组合对应关系中与该组合对应的组合,也即将用户输入的字符串中的组合替换为组合对应关系中与其相互转换通用的组合,例如,若用户输入的字符串中包括组合fen,并且此时句子中不存在二元关系,则将fen替换为hun,然后进行后续处理。

在本实现方式中,通过响应于初始词图中概率最大的整句中不包括N元关系,对用户输入的字符串进行模糊音处理,可以修正用户输入字符中的错误,从而大幅度提升客户端整句的出词质量。

在本实施例的一些可选实现方式中,将用户输入的字符串中的声母替换为声母对应关系中与声母对应的声母可以包括以下一项或多项:将用户输入的字符串中的平舌音替换为声母对应关系中与该平舌音对应的翘舌音;将用户输入的字符串中的翘舌音替换为声母对应关系中与该翘舌音对应的平舌音。

在本实现方式中,根据声母对应关系中已经标记的相互对应的平舌音与翘舌音(例如z与zh、c与ch、s与sh等),若用户输入的字符串中包括平舌音z,且基于输入的字符串得到的整句中不存在二元关系,则将z替换为翘舌音zh;若用户输入的字符串中包括翘舌音zh,且基于输入的字符串得到的整句中不存在二元关系,则将zh替换为平舌音z。

这里的平舌音,是指舌头平伸,抵住或接近上齿背发出的z、c、s;这里的翘舌音,是指舌尖翘起,接触或接近前硬腭发出的zh、ch、sh。

在本实施例的一些可选实现方式中,将用户输入的字符串中的韵母替换为韵母对应关系中与该韵母对应的韵母包括以下一项或多项:将用户输入的字符串中的前鼻韵母替换为韵母对应关系中与该前鼻韵母对应的后鼻韵母;将用户输入的字符串中的后鼻韵母替换为韵母对应关系中与后鼻韵母对应的前鼻韵母。

在本实现方式中,根据韵母对应关系中已经标记的相互对应的前鼻韵母与后鼻韵母(例如an与ang、ian与iang、uan与uang、en与eng、in与ing、uen与ueng等),若在用户输入的字符串中包括前鼻韵母an,且基于输入的字符串得到的整句中不存在二元关系,则将an替换为后鼻韵母ang;若在用户输入的字符串中包括后鼻韵母ang,且基于输入的字符串得到的整句中不存在二元关系,则将ang替换为前鼻韵母an。

在这里,前鼻韵母是以-n为韵尾构成的韵母;后鼻韵母是以-ng为韵尾构成的韵母。

在本实施例的一些可选实现方式中,基于用户模糊音处理后的字符串,构建修正词图包括:切分模糊音处理后的字符串,得到修正音节序列;根据词频由高到低,从对应修正音节序列中各个音节的词条中分别获取预定数量的修正词条;基于修正词条,构建词图。

这里的修正词图,是指基于用户模糊音处理后的字符串构建的词图,并不代表对词图的特殊限定。

在本实现方式中,修正音节序列是指切分模糊音处理后的字符串得到的音节序列,并不代表对音节序列的特殊限定;同理,修正词条是指根据词频由高到低,从对应修正音节序列中各个音节的词条中分别获取的预定数量的词条,也并不代表对词条的特殊限定。

在本实现方式中,通过构建修正词图,可以减少用于输出整句的方法中确定的词条的数量,从而提高用于输出整句的方法的响应速度,进而提高输入法与用户交互的效率。

在步骤150中,确定修正词图中概率最大的整句。

在本实施例中,在构建好修正词图之后,可以确定由修正词图中各音节对应的词条组成的路径,之后在这些路径中确定最优的路径,假设,这条路径的词条是w1,w2,...,wn,其中wn是指一条路径中的第n个词条,那么我们可以基于步骤120中所指出的N元关系模型,来确定该路径得到的句子的概率,从而找出概率最大的整句。

在步骤160中,输出修正词图中概率最大的整句。

在本实施例中,在步骤150中确定出修正词图中概率最大的整句之后,可以输出词图中概率最大的整句以供用户选择。

本申请的上述实施例提供的用于输出整句的方法,通过响应于初始词图中概率最大的整句中不包括N元关系,对用户输入的字符串进行模糊音处理,并基于模糊音处理后的字符串,确定修正词图中概率最大的整句,从而使得采用该方法的输入法在没有明显降低客户端整句确定性能的前提下,极大的提升了客户端整句的出词质量。

进一步参考图2,图2示出了根据本申请的确定初始词图中概率最大的整句的方法的一个实施例的流程200。该确定初始词图中概率最大的整句的方法包括:

在步骤210中,确定由初始词图中各个音节的初始词条组成的初始路径。

在本实施例中,初始词图是指是指基于用户输入的字符串构建的词图,并不代表对词图的特殊限定。在根据图1中的步骤110构建初始词图后,可以确定由初始词图中各个音节的初始词条组成的初始路径。例如,根据用户输入的字符串faduo,得到的音节序列为fa’duo,而fa’duo的初始词图可以包括“发”、“法”、“阀”、“乏”、“多”“朵”、“度”、“躲”,对于第一音节fa中的每一个词条,将其与第二音节duo对应的各词条组成路径,从而可以得到初始路径“发多”、“发朵”、“发度”、“发躲”、“法多”、“法朵”、“法度”、“法躲”、“阀多”、“阀朵”、“阀度”、“阀躲”、“乏多”、“乏朵”、“乏度”、“乏躲”等。

应当理解,这里的初始词条,是指基于用户输入的字符串构建的词图中的词条,并不代表对词条的特殊限定。

同理,这里的初始路径,是指基于用户输入的字符串构建的词图中的词条构建的路径,并不代表对路径的特殊限定。

在步骤220中,采用N元语言模型,确定初始路径中各个音节的候选词条之间的初始条件概率。

在本实施例中,在得到初始词图之后,可以根据词典中记载的词条之间的条件概率,来查询初始路径中各个音节的词条之间的条件概率。这里的条件概率,用于表征在由N个词条组成的词条集合中,在第1至第N-1个词条出现的情况下第N个词条出现的概率。

应当理解,这里的初始条件概率,是指基于用户输入的字符串构建的路径中各个词条之间的条件概率,并不代表对条件概率的特殊限定。

在步骤230中,根据初始条件概率,确定初始路径中概率最大的初始路径。

在本实施例中,可以根据图1的实施例的步骤120中基于N元关系模型确定概率最大的整句的方法,来基于步骤220中查询到的初始条件概率,确定所有初始路径中概率最大的初始路径。

在步骤240中,将概率最大的初始路径对应的句子确定为初始词图中概率最大的整句。

在本实施例中,根据步骤230中确定的初始路径中概率最大的初始路径,可以将该路径对应的整句作为初始词图中概率最大的整句。

本申请的上述实施例提供的确定初始词图中概率最大的整句的方法,通过采用N元语言模型确定初始词图中概率最大的整句,也即根据词条之间的语义关联性确定初始词图中概率最大的整句,提升了客户端输出的整句的准确率。

进一步参考图3,图3示出了根据本申请的确定修正词图中概率最大的整句的方法的一个实施例的流程300。该确定修正词图中概率最大的整句的方法包括:

在步骤310中,确定由修正词图中各个音节的修正词条组成的修正路径。

在本实施例中,修正词图是指基于模糊音处理后的字符串构建的词图,并不代表对词图的特殊限定。在根据图1中的步骤140构建修正词图后,可以确定由修正词图中各个音节的修正词条组成的修正路径。例如,模糊音处理后的字符串faduo的音节序列为hua’duo,hua’duo的修正词图可以包括“化”、“话”、“画”、“花”、“多”“朵”、“度”、“躲”,对于第一音节hua中的每一个词条,将其与第二音节duo对应的各词条组成路径,从而可以得到修正路径“化多”、“化朵”、“化度”、“化躲”、“话多”、“话朵”、“话度”、“话躲”、“画多”、“画朵”、“画度”、“画躲”、“花多”、“花朵”、“花度”、“花躲”等。

应当理解,这里的修正词条,是指基于模糊音处理后的字符串构建的词图中的词条,并不代表对词条的特殊限定。

同理,这里的修正路径,是指基于模糊音处理后的字符串构建的词图中的词条构建的路径,并不代表对路径的特殊限定。

在步骤330中,采用N元语言模型,确定修正路径中各个音节的候选词条之间的修正条件概率。

在本实施例中,在得到修正词图之后,可以根据词典中记载的词条之间的条件概率,来查询修正路径中各个音节的词条之间的条件概率。这里的条件概率,用于表征在由N个词条组成的词条集合中,在第1至第N-1个词条出现的情况下第N个词条出现的概率。

应当理解,这里的修正条件概率,是指基于模糊音处理后的字符串构建的路径中各个词条之间的条件概率,并不代表对条件概率的特殊限定。

在步骤330中,根据修正条件概率,确定修正路径中概率最大的修正路径。

在本实施例中,可以根据图1的实施例的步骤120中通过N元关系模型确定概率最大的整句的方法,来基于步骤230中查询到的修正条件概率,确定所有修正路径中概率最大的修正路径。

在步骤340中,将概率最大的修正路径对应的句子确定为修正词图中概率最大的整句。

在本实施例中,基于步骤330中确定的修正路径中概率最大的修正路径,可以将该路径上面的所有词条依序输出,从而得到修正词图中概率最大的整句。

本申请的上述实施例提供的确定修正词图中概率最大的整句的方法,通过采用N元语言模型确定修正词图中概率最大的整句,也即根据词条之间的语义关联性确定修正词图中概率最大的整句,提升了客户端输出的整句的准确率。

以下结合图4a和图4b,描述本申请实施例的用于输出整句的方法的一个示例性应用场景。

根据本申请实施例的用于输出整句的方法,首先,用户输入的字符串为“dishunhao”,得到如图4a所示的音节序列“di’shun’hao”,并且得到包括词条“低”、“顺”、“号”、“第”、“瞬”、“耗”的词图,并由词图得到路径“低顺号”、“低瞬号”、“低瞬耗”、“第顺号”、“第瞬号”、“第瞬耗”,之后确定所有路径中概率最大的整句为“低瞬号”;之后,由于图4a中得到的概率最大的整句中的词条之间,不存在N元关系,因此可以对字符串“dishunhao”进行模糊音处理,处理后得到字符串“disunhao”,从而得到如图4b所示的音节序列“di’sun’hao”,并得到包括词条“低”、“孙”、“号”、“第”、“损”、“耗”的词图,并且在词图得到路径“低孙号”、“低损号”、“低损耗”、“第孙号”、“第损号”、“第损耗”,之后确定模糊音处理后的所有路径中概率最大的整句为“低损耗”,因此将会输出“低损耗”作为输出结果。

本申请上述应用场景提供的用于输出整句的方法,提升了输出整句的出词准确性。

进一步参考图5,作为对上述方法的实现,本申请提供了一种用于输出整句的装置的一个实施例,该用于输出整句的方法的实施例与图1所示的用于输出整句的方法的实施例相对应,由此,上文针对图1中用于输出整句的方法描述的操作和特征同样适用于用于输出整句的方法500及其中包含的步骤,在此不再赘述。

如图5所示,该配置用于输出整句的装置500包括:初始词图构建单元510,配置用于基于用户输入的字符串,构建初始词图;初始整句确定单元520,配置用于确定初始词图中概率最大的整句;模糊音处理单元530,配置用于响应于初始词图中概率最大的整句中不包括N元关系,对用户输入的字符串进行模糊音处理;修正词图构建单元540,配置用于基于模糊音处理后的字符串,构建修正词图;修正整句确定单元550,配置用于确定修正词图中概率最大的整句;整句输出单元560,配置用于输出修正词图中概率最大的整句。

在本实施例的一些可选实现方式中(图中未示出),模糊音处理单元530进一步包括以下任意一项或多项:声母替换单元,配置用于将用户输入的字符串中的声母替换为声母对应关系中与声母对应的声母;韵母替换单元,配置用于将用户输入的字符串中的韵母替换为韵母对应关系中与韵母对应的韵母;以及组合替换单元,配置用于将用户输入的字符串中的组合替换为组合对应关系中与组合对应的组合,其中,组合包括一个声母和至少一个韵母。

在本实施例的一些可选实现方式中(图中未示出),声母替换单元进一步配置用于以下一项或多项:将用户输入的字符串中的平舌音替换为声母对应关系中与平舌音对应的翘舌音;将用户输入的字符串中的翘舌音替换为声母对应关系中与翘舌音对应的平舌音。

在本实施例的一些可选实现方式中(图中未示出),韵母替换单元进一步配置用于以下一项或多项:将用户输入的字符串中的前鼻韵母替换为韵母对应关系中与前鼻韵母对应的后鼻韵母;将用户输入的字符串中的后鼻韵母替换为韵母对应关系中与后鼻韵母对应的前鼻韵母。

在本实施例的一些可选实现方式中(图中未示出),初始词图构建单元进一步配置用于:切分输入的字符串,得到初始音节序列;根据词频由高到低,从对应初始音节序列中各个音节的词条中分别获取预定数量的初始词条;基于初始词条,构建词图。

在本实施例的一些可选实现方式中(图中未示出),初始整句确定单元进一步配置用于:确定由初始词图中各个音节的初始词条组成的初始路径;采用N元语言模型,确定初始路径中各个音节的候选词条之间的初始条件概率;根据初始条件概率,确定初始路径中概率最大的初始路径;将概率最大的初始路径对应的句子确定为初始词图中概率最大的整句。

在本实施例的一些可选实现方式中(图中未示出),修正词图构建单元进一步配置用于:切分模糊音处理后的字符串,得到修正音节序列;根据词频由高到低,从对应修正音节序列中各个音节的词条中分别获取预定数量的修正词条;基于修正词条,构建词图。

在本实施例的一些可选实现方式中(图中未示出),修正整句确定单元进一步配置用于:确定由修正词图中各个音节的修正词条组成的修正路径;采用N元语言模型,确定修正路径中各个音节的候选词条之间的修正条件概率;根据修正条件概率,确定修正路径中概率最大的修正路径;将概率最大的修正路径对应的句子确定为修正词图中概率最大的整句。

应当理解,本申请上述实施例中的初始词图构建单元是用于构建初始词图的单元,并不代表对词图构建单元的特殊限定;初始整句确定单元是基于初始词图确定概率最大的整句的单元,并不代表对整句确定单元的特殊限定;修正词图构建单元是指用于构建修正词图的单元,并不代表对词图构建单元的限定;修正整句确定单元是指基于修正词图确定概率最大的整句的单元,并不代表对整句确定单元的特殊限定。

本申请还提供了一种设备的实施例,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任一所述的用于输出整句的方法。

本申请还提供了一种计算机可读存储介质的实施例,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的用于输出整句的方法。

下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口606。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。

需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括初始词图构建单元、初始整句确定单元、模糊音处理单元、修正词图构建单元、修正整句确定单元和整句输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,初始词图构建单元还可以被描述为“基于用户输入的字符串,构建初始词图的单元”。

作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:基于用户输入的字符串,构建初始词图;确定初始词图中概率最大的整句;响应于初始词图中概率最大的整句中不包括N元关系,对用户输入的字符串进行模糊音处理;基于模糊音处理后的字符串,构建修正词图;确定修正词图中概率最大的整句;输出修正词图中概率最大的整句。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号