首页> 中国专利> 一种改错模型训练方法、装置和文本改错方法、装置

一种改错模型训练方法、装置和文本改错方法、装置

摘要

本发明公开了一种改错模型训练方法、装置和文本改错方法、装置。该方法包括:搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立改错模型。应用本发明能够提供一种利用其进行文本改错时具备较高错误召回率和改错准确性的改错模型,提高文本改错的错误召回率和改错的准确性。

著录项

  • 公开/公告号CN103970765A

    专利类型发明专利

  • 公开/公告日2014-08-06

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN201310033697.8

  • 申请日2013-01-29

  • 分类号G06F17/30(20060101);

  • 代理机构11018 北京德琦知识产权代理有限公司;

  • 代理人张玉波;宋志强

  • 地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室

  • 入库时间 2023-12-17 00:55:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-09

    授权

    授权

  • 2014-10-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130129

    实质审查的生效

  • 2014-08-06

    公开

    公开

说明书

技术领域

本申请涉及信息处理技术领域,尤其涉及一种改错模型训练方法、装置和文本改 错方法、装置。

背景技术

人们日常工作和生活中用到的文本常常会带有错别字、拼写错误的词等错误字符 串,如何识别并改正文本中的错误字符串,是当前信息处理技术领域需要解决的一个 技术问题。

目前,存在一种根据语言规则进行文本改错的方案。

具体地,在该方案中,预先总结出目标语言(即目标文件所采用的语言)的词语 搭配规则、词语拼写规则等语言规则,例如,当目标语言为汉语时,预先总结出汉语 的词语搭配规则等,然后根据预先总结出的语言规则对待处理文本进行评测,从而判 断待处理文本是否符合预先总结出的语言规则,当评测结果显示待处理文本与预先总 结出的语言规则的符合程度不满足预定要求时,根据预先总结出的语言规则对待处理 文本进行改错处理。

可见,目前基于语言规则进行文本改错方案,不仅需要大量具备深厚语言背景的 工作人员总结大量的语言规则,而且,由于语言本身结构复杂,要总结出语言规则并 非易事,并且总结出的不同的语言规则之间还常常会相互冲突,因此,基于语言规则 进行文本改错的方案的错误召回率较低,改错的准确性也较低。

发明内容

本申请提供了一种改错模型训练方法、装置和文本改错方法、装置,能够提供一 种利用其进行文本改错时具备较高错误召回率和改错准确性的改错模型,提高文本改 错的错误召回率和改错的准确性。

一种改错模型的训练方法,该方法包括:

搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下 文信息,存储每个有效上下文信息对应的所有正确字符串;

搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上 下文信息的待处理字符串;

根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符 串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根 据对改错规则的测试结果建立改错模型。

一种改错模型的训练装置,该装置包括有效上下文搜集模块、相似串查找模块和 模型建立模块;

所述有效上下文搜索模块,用于搜索正确字符串在训练文本集中的上下文信息, 以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字 符串;

所述相似串查找模块,用于搜索训练文本集中与所述正确字符串的相似性满足预 定要求、且具备所述有效上下文信息的待处理字符串;

所述模型建立模块,用于根据所述待处理字符串、与所述待处理字符串的相似性 满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下 文信息生成改错规则,根据对改错规则的测试结果建立改错模型。

一种文本改错方法,该方法包括:

根据改错模型中存储的改错规则,从待处理文本中搜索错误字符串,根据所述改 错规则对所述错误字符串进行改错处理;

其中,所述改错模型通过如下步骤建立得到:

搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下 文信息,存储每个有效上下文信息对应的所有正确字符串;

搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上 下文信息的待处理字符串;

根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符 串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根 据对改错规则的测试结果建立所述改错模型。

一种文本改错装置,该装置包括改错模型模块和改错处理模块;

所述改错模型模块,用于存储改错规则,且所述改错模型模块通过如下步骤训练 得到:搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上 下文信息,存储每个有效上下文信息对应的所有正确字符串;搜索训练文本集中与所 述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串; 根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以 及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对 改错规则的测试结果建立所述改错模型;

所述改错处理模块,用于根据改错模型中存储的改错规则,从待处理文本中搜索 错误字符串,根据所述改错规则对所述错误字符串进行改错处理。

一种文本改错方法,该方法包括:

预先以正确字符串的上下文信息作为有效上下文信息,存储每个有效上下文信息 对应的所有正确字符串;

搜索待处理文本中具有所述有效上下文信息的待处理字符串,判断所述待处理字 符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足 预定要求;

在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串,或 者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效 上下文信息。

一种文本改错装置,该装置包括存储模块、相似串搜索模块和改错模块;

所述存储模块,用于预先以正确字符串的上下文信息作为有效上下文信息,存储 每个有效上下文信息对应的所有正确字符串;

所述相似串搜索模块,用于搜索待处理文本中具有所述有效上下文信息的待处理 字符串,判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正 确字符串的相似性是否满足预定要求;

所述改错模块,用于在所述相似性满足预定要求时,将所述待处理字符串替换成 所述正确字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正 确字符串和所述有效上下文信息。

由上述技术方案可见,本发明根据字符串的上下文信息进行改错处理,通过对具 有相同上下文信息的正确字符串和待处理字符串进行相似性分析,可以识别出在某些 上下文语境中容易出现的错误字符串,从而能够将在某些上下文语境下容易出现的错 误字符串替换为相应的正确字符串。由于错别字、拼写错误等错误字符串常常伴随着 一定的上下文语境共同出现,因此,本发明具有较高的错误召回率和改错准确性。

附图说明

图1是本发明提供的改错模型的训练方法第一流程图。

图2是本发明提供的改错模型的训练方法第二流程图。

图3是本发明提供的改错模型的训练装置结构图。

图4是本发明提供的利用改错模型进行文本改错的方法流程图。

图5是本发明提供的利用改错模型进行文本改错的文本改错装置结构图。

图6是本发明提供的另一文本改错方法的流程图。

图7是本发明提供的另一文本改错装置的结构图。

具体实施方式

本发明根据字符串的上下文信息进行改错处理。具体通过对具有相同上下文 信息的正确字符串和待处理字符串进行相似性分析,识别在某些上下文语境中容 易出现的错误字符串,将在某些上下文语境下出现的错误字符串替换为相应的正 确字符串。

在具体实现本发明时,可以预先根据字符串的上下文信息以及字符串之间的相似 性建立改错模型,在对待处理文本的实际改错过程中,直接根据改错模型中的改错规 则进行改错处理。也可以在对待处理文本的实际改错过程中,根据字符串的上下文信 息以及字符串之间的相似性识别出错误字符串,将所述错误字符串替换为相应的正确 字符串。

图1是本发明提供的改错模型的训练方法第一流程图。

如图1所示,该第一流程包括:

步骤101,搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作 为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串。

步骤102,搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备 所述有效上下文信息的待处理字符串。

步骤103,根据所述待处理字符串、与所述待处理字符串的相似性满足预定要 求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息 生成改错规则,根据对改错规则的测试结果建立改错模型。

其中,所述的训练文本集可以包括第一文本集、第二文本集和第三文本集, 图1所示的训练方法还可以进一步细化,具体请参加图2所示流程。

图2是本发明提供的改错模型的训练方法第二流程图。

如图2所示,该方法包括:

步骤201,根据预定规则,搜索预设的正确字符串在第一文本集中的上下文信息。

本步骤中,一般以预设词典中的词作为正确字符串,当然,本发明也不排除采用 其他方法确定正确字符串。其中,预设词典中的词可以是由多个字组成的词语或短语, 也可以是单个字。

步骤202,以所述上下文信息为有效上下文信息,存储每个有效上下文信息对应 的所有正确字符串。

本步骤中,还可以存储每个正确字符串对应的所有有效上下文信息,从而便于在 需要时查找指定的正确字符串对应的所有有效上下文信息。

步骤203,从第二文本集搜索待处理字符串。

本步骤中,为了限定待处理字符串的范围,从而提高改错模型的建立速度,可以 根据所述预定词典中的词的长度范围,从训练文本集中搜索所述长度范围内的待处理 字符串。

步骤204,确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上 下文信息。

本步骤中,可以根据所述预定规则,从训练文本集搜索待处理字符串的上下文信 息,根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串 的上下文信息是否为所述有效上下文信息。

其中,本发明对匹配待处理字符串的上下文与有效上下文之间的具体方法不做限 定,例如,可以利用字符匹配算法直接将待处理字符串的上下文和有效上下文进行匹 配,也可以将待处理字符串的上下文和有效上下文转换成其他等效信息后再进行匹配。

步骤205,当待处理字符串在所述第二文本集中的上下文信息包括有效上下文信 息时,判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满 足预定要求。

本步骤中,通过判断具有相同的有效上下文信息的待处理字符串与正确字符串之 间的相似性是否满足预定要求来查找相似串,具有相同的有效上下文信息、且相互之 间的相似性满足预定要求的待处理字符串与正确字符串互为彼此的相似串。

在判断具有相同的有效上下文信息的待处理字符串与正确字符串之间的相似性是 否满足预定要求时,可以根据待处理字符串和正确字符串的读音进行判断,也可以根 据待处理字符串和正确字符串的字形来判断,如果读音相似、或者字形相似,则所述 待处理字符串和所述正确字符串互为彼此的相似串。

具体地,对于具有相同有效上下文信息的待处理字符串和正确字符串,根据读音 词典,判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定 要求,如果是,则所述待处理字符串和所述正确字符串互为相似串。

或者,对于具有相同有效上下文信息的待处理字符串和正确字符串,根据字形词 典,判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要 求,如果是,则所述待处理字符串和所述正确字符串互为相似串。

步骤206,根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及 所述待处理字符串和所述正确字符串共同的有效上下文信息,生成待测试的改错规则。

其中,对于每一对具有相同有效上下文信息、且彼此的相似性满足预定要求的待 处理字符串和正确字符串,所述待测试的改错规则包括:用于将彼此的相似性满足预 定要求的待处理字符串替换成正确字符串的第一改错规则,和/或,用于将待处理字符 串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所 述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则。

换言之,对于每一对具有相同有效上下文信息、且彼此的相似性满足预定要求的 待处理字符串和正确字符串,都具有一条第一改错规则和一条以上的第二改错规则, 其中,当所述待处理字符串和所述正确字符串具有两个以上的相同有效上下文信息时, 所述待处理字符串和所述正确字符串及其各个共同具有的有效上下文信息分别组成不 同的第二改错规则。

比如,正确字符串B在第一文本集中具有有效上下文C和D,待处理字符串A在 第二文本集中也具有有效上下文C和D,且待处理字符串A和正确字符串B的相似性 满足预定要求,则待处理字符串A和正确字符串B对应的改错规则包括:将待处理字 符串A替换成正确字符串B;将待处理字符串A连同其上下文C共同替换成正确字符 串B连同其上下文C;将待处理字符串A连同其上下文D共同替换成正确字符串B 连同其上下文D。

步骤207,利用所述待测试的改错规则对第三文本集进行改错处理,根据对改错 处理结果的评估信息建立改错模型,所述改错模型包括其改错处理结果的评估信息满 足预定条件的改错规则。

本步骤中,对于步骤205中查找出的每一对具有相同的有效上下文信息、且彼此 的相似性满足预定要求的待处理字符串和正确字符串,可以先依据所述第一改错规则 将训练文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果,判断 对第一替换结果的评估结果是否满足预定条件,如果是,则对所述第一改错规则予以 通过,如果否,丢弃所述第一改错规则,并依据所述第二改错规则,将第三文本集中 的所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足 预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息,从而得到 第二替换结果,判断对第二替换结果的评估结果是否满足预定条件,如果是,则对所 述第二改错规则予以通过,否则,丢弃所述第二改错规则;所述改错模型包括所述予 以通过的改错规则。所建立的改错模型包括所述予以通过的改错规则。其中,对于步 骤205中查找出的每一对具有相同的有效上下文信息、且彼此的相似性满足预定要求 的待处理字符串和正确字符串,如果该对待处理字符串和正确字符串所对应的第一改 错规则能够评估通过,则一般不需要再评估该对待处理字符串和正确字符串对应的其 他改错规则。

其中,对替换结果进行评估的具体方法本发明不做限定,例如可以根据语言规则、 预先建立的语言模型等对替换结果进行评估,也可以人工对替换结果进行评估。

本发明中,字符串的上下文信息通常包括位于所述字符串之前的信息(简称串前 上下文信息)和位于所述字符串之后的信息(简称串后上下文信息),也可以只包括串 前上下文信息或只包括串后上下文信息。

对于任意目标字符串(例如该目标字符串是某一正确字符串,或者是某一待处理 字符串),确定该目标字符串的上下文信息的方法可以有多种。例如:可以将目标字符 串之前和/或之后预定长度的字符串确定为所述目标字符串的上下文信息;或者,根据 词典搜索目标字符串之前和/或之后出现的预定数个词,将所述预定数个词确定为所述 目标字符串的上下文信息;或者,根据目标字符串的语义特征,根据预定的语言规则 为所述目标字符串选取上下文信息。上述确定目标字符串的上下文信息的各种方法可 以分别单独使用,也可以在不相互矛盾的前提下相互组合使用。

关于图2所示方法所用到的文本集,所述第一文本集、所述第二文本集和所述第 三文本集可以是同一个文本集,其中包含了一定比例的错误字符串,但是大部分都是 正确字符串;或者,所述第一文本集可以是与所述第二文本集和所述第三文本集不同 的文本集,所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率,也 高于所述第三文本集中文本的正确率,所述第二文本集和所述第三文本集可以是相同 或不同的文本集。图2所示方法所用到的文本集的预料资源越丰富、涵盖范围越广, 则建立的改错模型的改错效果越好。

图3是本发明提供的改错模型的训练装置结构图。

如图3所示,该装置包括有效上下文搜集模块301、相似串查找模块302和模型 建立模块303。

有效上下文搜索模块301,用于搜索正确字符串在训练文本集中的上下文信息, 以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字 符串。

相似串查找模块302,用于搜索训练文本集中与所述正确字符串的相似性满足预 定要求、且具备所述有效上下文信息的待处理字符串。

模型建立模块303,用于根据所述待处理字符串、与所述待处理字符串的相似性 满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下 文信息生成改错规则,根据对改错规则的测试结果建立改错模型。

有效上下文搜集模块301,可以用于根据预定规则,搜索预设的正确字符串在第 一文本集中的上下文信息,以所述上下文信息为有效上下文信息,存储每个有效上下 文信息对应的所有正确字符串。

相似串查找模块302,可以用于从第二文本集搜索待处理字符串,确定待处理字 符串在所述第二文本集中的上下文信息是否包括有效上下文信息,在包括有效上下文 信息时,判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否 满足预定要求。

模型建立模块303,可以用于根据彼此的相似性满足预定要求的待处理字符串和 正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息,生成 待测试的改错规则,利用所述待测试的改错规则对第三文本集进行改错处理,根据对 改错处理结果的评估信息建立改错模型,所述改错模型包括其改错处理结果的评估信 息满足预定条件的改错规则。

所述待测试的改错规则包括:用于将彼此的相似性满足预定要求的待处理字符串 替换成正确字符串的第一改错规则,和/或,用于将待处理字符串及其有效上下文信息, 替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确 字符串和所述有效上下文信息的第二改错规则。

其中,述预设的正确字符串可以包括预设词典中的词。

相似串查找模块302,可以用于根据所述预定词典中的词的长度范围,从训练文 本集中搜索所述长度范围内的待处理字符串。

相似串查找模块302,可以用于根据所述预定规则,从训练文本集搜索待处理字 符串的上下文信息,根据待处理字符串的上下文与有效上下文相互之间的匹配效果判 断待处理字符串的上下文信息是否为所述有效上下文信息。

所述上下文信息包括串前上下文信息和/或串后上下文信息。

用于搜索上下文信息的所述预定规则可以包括:将目标字符串之前和/或之后预定 长度的字符串确定为所述目标字符串的上下文信息;或者,根据词典搜索目标字符串 之前和/或之后出现的预定数个词,将所述预定数个词确定为所述目标字符串的上下文 信息;或者,根据目标字符串的语义特征,根据预定的语言规则为所述目标字符串选 取上下文信息。

相似串查找模块302,可以用于根据读音词典,判断所述待处理字符串的读音与 所述正确字符串的读音的相似性是否满足预定要求,或者,根据字形词典,判断所述 待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求。

模型建立模块303,可以用于根据彼此的相似性满足预定要求的待处理字符串和 正确字符串,依据所述第一改错规则将训练文本集中的所述待处理字符串替换成所述 正确字符串得到第一替换结果,判断对第一替换结果的评估结果是否满足预定条件, 如果是,则对所述第一改错规则予以通过,如果否,丢弃所述第一改错规则,并依据 所述第二改错规则将训练文本集中的所述待处理字符串及其有效上下文信息,替换成 与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串 和所述有效上下文信息,从而得到第二替换结果,判断对第二替换结果的评估结果是 否满足预定条件,如果是,则对所述第二改错规则予以通过,否则,丢弃所述第二改 错规则,建立的改错模型包括所述予以通过的改错规则。

其中,所述第一文本集、所述第二文本集和所述第三文本集是同一个文本集;或 者,所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率,也高于所 述第三文本集中文本的正确率,所述第二文本集和所述第三文本集是相同或不同的文 本集。

基于本发明提供的上述训练改错模型的方法,本发明还提供了一种文本改错方法, 在该文本改错方法中,根据所述改错模型中存储的改错规则,从待处理文本中搜索字 符串,根据所述改错规则对搜索到的字符串进行改错处理。

基于本发明提供的改错模型进行文本改错的方法具体也可以参见图4。

图4是本发明提供的利用改错模型进行文本改错的方法流程图。

如图4所示,该流程包括:

步骤401,根据改错模型中存储的第一改错规则,从待处理文本中搜索待处理字 符串,根据改错模型中存储的第二改错规则,从待处理文本中搜索待处理字符串及其 有效上下文信息。

步骤402,根据所述第一改错规则,将所述待处理字符串替换为正确字符串,根 据所述第二改错规则,将所述待处理字符串及其有效上下文信息,替换成与所述待处 理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效 上下文信息。

其中,所述第一改错规则包括将彼此的相似性满足预定要求的待处理字符串替换 成正确字符串,所述第二改错规则包括将待处理字符串及其有效上下文信息,替换成 与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串 和所述有效上下文信息;其中,所述有效上下文信息是所述正确字符串在训练文本集 中的上下文信息,彼此的相似性满足预定要求的所述待处理字符串和所述正确字符串 在所述训练文本集中具有相同的有效上下文信息。所述训练文本集是用于训练所述改 错模型的文本集。

基于本发明提供的改错模型进行文本改错的装置可以包括改错模型模块和改错处 理模块。

所述改错模型模块,用于存储改错规则,且所述改错模型模块通过如下步骤训练 得到:搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上 下文信息,存储每个有效上下文信息对应的所有正确字符串;搜索训练文本集中与所 述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串; 根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以 及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对 改错规则的测试结果建立所述改错模型。

所述改错处理模块,用于根据改错模型中存储的改错规则,从待处理文本中搜索 字符串,根据所述改错规则对搜索到的字符串进行改错处理。

基于本发明提供的改错模型进行文本改错的装置的具体结构也可以参见图5。

图5是本发明提供的利用改错模型进行文本改错的文本改错装置结构图。

如图5所示,该文本改错装置包括改错模型模块501、搜索模块502和替换模块 503。

改错模型模块501,用于存储改错规则,所述改错规则包括将彼此的相似性满足 预定要求的待处理字符串替换成正确字符串的第一改错规则,或者,将待处理字符串 及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述 有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则;其中,所述有 效上下文信息是所述正确字符串在训练文本集中的上下文信息,彼此的相似性满足预 定要求的所述待处理字符串和所述正确字符串在所述训练文本集中具有相同的有效上 下文信息,所述训练文本集是用于训练所述改错模型的文本集。

搜索模块502,用于根据所述第一改错规则,从待处理文本中搜索所述待处理字 符串,根据所述第二改错规则,从待处理文本中搜索所述待处理字符串及其有效上下 文信息。

替换模块503,用于根据所述第一改错规则,将所述待处理字符串替换为所述正 确字符串,根据所述第二改错规则,将所述待处理字符串及其有效上下文信息,替换 成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符 串和所述有效上下文信息。

通过对图1-图5的描述可见,当预先根据字符串的上下文信息以及字符串之间的 相似性建立改错模型,在对待处理文本的实际改错过程中,直接根据改错模型中的改 错规则进行改错处理时,由于字符串的上下文信息的查找与匹配、以及字符串之间相 似性的判断、改错规则的评估等工作都可以在改错模型的建立过程中进行,因此可以 大大加快对待处理文本的实际改错速度。

本发明也可以在对待处理文本的实际改错过程中,根据字符串的上下文信息以及 字符串之间的相似性识别出错误字符串,将所述错误字符串替换为相应的正确字符串, 具体请参加图6-图7。

图6是本发明提供的另一文本改错方法的流程图。

如图6所示,该流程包括:

步骤601,预先以正确字符串的上下文信息作为有效上下文信息,存储每个有效 上下文信息对应的所有正确字符串。

其中,所述正确字符串一般为预定词典中的词,所述有效上下文信息为正确字符 串在预定的训练文本集中的上下文信息。

步骤602,搜索待处理文本中具有所述有效上下文信息的待处理字符串,判断所 述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似 性是否满足预定要求。

本步骤中,可以根据读音词典,判断所述待处理字符串的读音与和所述待处理字 符串具有相同有效上下文信息的正确字符串的读音的相似性是否满足预定要求,或者, 根据字形词典,判断所述待处理字符串的字形与和所述待处理字符串具有相同有效上 下文信息的正确字符串的字形的相似性是否满足预定要求。

步骤603,在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确 字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串 和所述有效上下文信息。

本步骤中,可以在所述相似性满足预定要求时,将所述待处理字符串替换成所述 正确字符串得到第一替换结果,在对所述第一替换结果的评估结果满足预定要求时, 将所述第一替换结果确定为最终的改错结果,在对所述第一替换结果的评估结果不满 足预定要求时,将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符 串和所述有效上下文信息得到第二替换结果,在对所述第二替换结果的评估结果满足 预定要求时,将所述第二替换结果确定为最终的改错结果,在对所述第二替换结果的 评估结果不满足预定要求时,保持所述待处理字符串不变或者进行其他改错处理。

图7是本发明提供的另一文本改错装置的结构图。

如图7所示,该装置包括存储模块701、相似串搜索模块702和改错模块703。

存储模块701,用于预先以正确字符串的上下文信息作为有效上下文信息,存储 每个有效上下文信息对应的所有正确字符串。

相似串搜索模块702,用于搜索待处理文本中具有所述有效上下文信息的待处理 字符串,判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正 确字符串的相似性是否满足预定要求。

改错模块703,用于在所述相似性满足预定要求时,将所述待处理字符串替换成 所述正确字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正 确字符串和所述有效上下文信息。

相似串搜索模块702,可以用于根据读音词典,判断所述待处理字符串的读音与 和所述待处理字符串具有相同有效上下文信息的正确字符串的读音的相似性是否满足 预定要求,或者,根据字形词典,判断所述待处理字符串的字形与和所述待处理字符 串具有相同有效上下文信息的正确字符串的字形的相似性是否满足预定要求。

改错模块703,可以用于在所述相似性满足预定要求时,将所述待处理字符串替 换成所述正确字符串得到第一替换结果,在对所述第一替换结果的评估结果满足预定 要求时,将所述第一替换结果确定为最终的改错结果,在对所述第一替换结果的评估 结果不满足预定要求时,将所述待处理字符串和所述有效上下文信息一并替换为所述 正确字符串和所述有效上下文信息得到第二替换结果,在对所述第二替换结果的评估 结果满足预定要求时,将所述第二替换结果确定为最终的改错结果,在对所述第二替 换结果的评估结果不满足预定要求时,保持所述待处理字符串不变或者进行其他改错 处理。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明 的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保 护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号