首页> 中国专利> 文本识别方法、拼写纠错方法及语音识别方法

文本识别方法、拼写纠错方法及语音识别方法

摘要

本申请公开了文本识别方法,拼写纠错方法及语音识别方法。其中,文本识别方法包括:获取待识别文本;确定文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;通过文本分类模型,至少根据第一字向量确定所述文本是否为垃圾文本。采用这种处理方式,使得基于类似打水漂的原理确定待识别文本中各个字符的第一字向量,由于确定第一字向量的水漂模型引入了汉字异构图,因此能够捕捉字与字之间在语音、字形等类型的字变异方面的相似性,即:捕捉汉字音变和形变信息,基于此向量进行垃圾文本识别,可识别出垃圾文本分类模型的训练数据中并不包括的垃圾文本模式,由此增强了变异文本的识别能力;因此,可以有效提升垃圾文本识别的召全率。

著录项

  • 公开/公告号CN112287100A

    专利类型发明专利

  • 公开/公告日2021-01-29

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN201910632996.0

  • 申请日2019-07-12

  • 分类号G06F16/35(20190101);G06F40/30(20200101);H04W4/14(20090101);

  • 代理机构11319 北京润泽恒知识产权代理有限公司;

  • 代理人钱秀茹

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2023-06-19 09:41:38

说明书

技术领域

本申请涉及文本分类技术领域,具体涉及文本识别方法。此外,本申请提供拼写纠错方法,以及语音识别方法。

背景技术

一种典型的短信发送场景是,商家通过网络平台向消费者发送短信,以便于将商品促销等信息及时送至消费者处,从而确保商家销售计划的有效实施,并提升用户体验。然而,伴随着这些有益效果的同时,也出现了大量垃圾短信。垃圾短信泛滥,已经严重影响到消费者正常生活、网络平台形象乃至社会稳定。

随着互联网技术的不断发展,越来越多的网络平台利用短信内容安全系统对商对客(Business-to-Customer,B2C)的短信进行内容分析,并进行智能短信拦截和通道优化。其中,短信文本识别是短信内容安全系统的一个重要功能,通过对垃圾短信进行识别,可以有效地对短信的各个属性维度进行分析,从而合理地调度短信发送的通道,使得业务更加安全,并降低整个发送成本。

目前,常用的垃圾短信识别方法包括基于垃圾短信关键词检测模型或基于机器学习的短信分类模型进行垃圾短信识别的方法。其中,关键字搜索技术需要一组预定义的垃圾文本关键字,其优点是高效简单,容易实现。但其需要人工设计和审核,而且它的泛化能力差,容易导致较低的准确率和召回率,在面对复杂的变异时会无效,如关键词命中“裸聊”会拦截,但是遇到“果聊”则无能为力。基于机器学习的文本分类模型是一种数据驱动的方法,一般来说需要语料,如垃圾文本和非垃圾文本来训练模型。同样地,数据驱动的方法依赖训练数据中包含足够多的变异模式来识别垃圾文本,当训练数据包含的变异模式较少,即普通的垃圾文本较多时,其训练得到的模型遇到未覆盖的变异垃圾文本则会表现较差。

综上所述,如何设计出可以有效地识别出变异方式复杂的垃圾短信,成为本领域技术人员迫切需要解决的技术问题。

发明内容

本申请提供文本识别方法,以解决现有技术存在的无法识别出变异方式复杂的垃圾文本的问题。此外,本申请提供拼写纠错方法,以及语音识别方法。

本申请提供一种文本识别方法,包括:

获取待识别文本;

确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;

通过文本分类模型,至少根据所述第一字向量确定所述文本是否为垃圾文本。

可选的,所述通过文本分类模型,并至少根据所述第一字向量确定所述文本是否为垃圾文本,包括:

将所述第一字向量作为文本分类模型的输入数据,通过所述文本分类模型判断所述文本是否为垃圾文本。

可选的,所述通过文本分类模型,并至少根据所述第一字向量确定所述文本是否为垃圾文本,包括:

根据所述第一字向量和所述文本,确定所述各个字符的包括上下文语义信息的第二字向量;

将所述第二字向量作为文本分类模型的输入数据,通过所述文本分类模型判断所述文本是否为垃圾文本。

可选的,所述第一字向量采用如下步骤确定:

确定所述各个字符的包括字变异语义信息的第三字向量;以及,获取所述各个字符的包括字本体语义信息的第四字向量;

针对所述各个字符,根据所述第三字向量和所述第四字向量,确定所述第一字向量。

可选的,所述根据所述第三字向量和所述第四字向量,并确定所述第一字向量,包括:

通过第一字向量确定模型包括的第一子模块,根据所述第三字向量和所述第四字向量,确定字向量权重;

通过第一字向量确定模型包括的第二子模块,根据所述字向量权重、所述第三字向量和所述第四字向量,确定所述第一字向量。

可选的,所述通过文本分类模型,并至少根据所述第一字向量确定所述文本是否为垃圾文本,包括:

根据所述第一字向量和所述文本,确定所述各个字符的包括上下文语义信息的第二字向量;

将所述第二字向量作为文本分类模型的输入数据,通过所述文本分类模型判断所述文本是否为垃圾文本。

可选的,所述第二字向量采用如下方式确定:

将所述第一字向量作为第二字向量确定模型的输入数据,通过所述第二字向量确定模型,确定所述第二字向量。

可选的,还包括:

从第一训练数据集中学习得到所述第一字向量确定模型和所述第二字向量确定模型的模型参数;所述第一训练数据包括训练用文本及其是否为垃圾文本的标注信息之间的第一对应关系;

从第二训练数据集中学习得到所述第一字向量确定模型、所述第二字向量确定模型和所述文本分类模型的模型参数;所述第二训练数据包括训练用文本及其是否为垃圾文本的标注信息之间的第二对应关系。

可选的,所述第二字向量确定模型的网络结构包括双向长短期记忆网络结构Bi-LSTM;

所述将所述第一字向量N作为第二字向量确定模型的输入数据,包括:

将所述文本包括的第一字向量的正向序列作为第一LSTM的输入数据;以及,将所述文本包括的第一字向量的反向序列作为第二LSTM的输入数据。

可选的,所述第三字向量采用如下方式确定:

根据字符与字符之间的变异相似度数据集、及字符与第五字向量间的第一对应关系集,确定所述第三字向量。

可选的,所述变异相似度包括字音相似度和/或字形相似度。

可选的,所述第三字向量采用如下方式确定:

通过图嵌入算法,根据所示变异相似度数据集、及所示第一对应关系集,确定所述第三字向量。

可选的,还包括:

从语料集中学习得到字符与第四字向量间的第二对应关系集。

可选的,所述字变异语义信息包括:至少一个音变字符的语义信息和/或至少一个形变字符的语义信息。

本申请还提供一种拼写纠错方法,包括:

获取待纠错文本;

确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;

通过文本分类模型,至少根据所述第一字向量确定所述文本是否包括语义变异的第一字符串;

确定本体语义为所述第一字符串的变异语义的第二字符串;

将所述第一字符串更新为所述第二字符串。

本申请还提供一种语音识别方法,包括:

获取待识别语音数据;

确定与所述语音数据对应的文本;

确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;

通过文本分类模型,至少根据所述第一字向量确定所述文本是否为垃圾文本;

若所述文本为垃圾文本,则所述语音数据为垃圾语音数据。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。

与现有技术相比,本申请具有以下优点:

本申请实施例提供的文本识别方法,通过获取待识别文本;确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;通过文本分类模型,至少根据所述第一字向量确定所述文本是否为垃圾文本;这种处理方式,使得基于类似打水漂的原理确定待识别文本中各个字符的第一字向量,由于确定第一字向量的水漂模型引入了汉字异构图,因此能够捕捉字与字之间在语音、字形等类型的字变异方面的相似性,即:捕捉汉字音变和形变信息,基于此向量进行垃圾文本识别,可识别出文本分类模型的训练数据中并不包括的垃圾文本模式,由此增强了变异文本的识别能力;因此,可以有效提升垃圾文本识别的召全率。

本申请实施例提供的拼写纠错方法,通过获取待纠错文本;确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;通过文本分类模型,至少根据所述第一字向量确定所述文本是否包括语义变异的第一字符串;确定本体语义为所述第一字符串的变异语义的第二字符串;将所述第一字符串更新为所述第二字符串;这种处理方式,使得基于类似打水漂的原理确定待纠错文本中各个字符的第一字向量,由于确定第一字向量的水漂模型引入了汉字异构图,因此能够捕捉字与字之间在语音、字形等类型的字变异方面的相似性,即:捕捉汉字音变和形变信息,基于此向量识别语义发生变异的字符串,可识别出文本分类模型的训练数据中并不包括的变异文本模式,由此增强了变异文本的识别能力;因此,可以有效提升拼写纠错的准确率。

本申请实施例提供的语音识别方法,通过获取待识别语音数据;确定与所述语音数据对应的文本;确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;通过文本分类模型,至少根据所述第一字向量确定所述文本是否为垃圾文本;若所述文本为垃圾文本,则所述语音数据作为垃圾语音数据;这种处理方式,使得基于类似打水漂的原理确定待识别语音数据对应的文本中各个字符的第一字向量,由于确定第一字向量的水漂模型引入了汉字异构图,因此能够捕捉字与字之间在语音、字形等类型的字变异方面的相似性,即:捕捉汉字音变和形变信息,基于此向量进行垃圾语音识别,可识别出文本分类模型的训练数据中并不包括的垃圾文本模式,由此增强了变异文本的识别能力;因此,可以有效提升垃圾语音识别的召全率。

附图说明

图1是本申请提供的一种文本识别方法的实施例的流程图;

图2是本申请提供的一种文本识别方法的实施例的确定第一字向量的具体流程图;

图3是本申请提供的一种文本识别方法的实施例的确定第三字向量的示意图;

图4是本申请提供的一种文本识别方法的实施例的确定第一字向量的示意图;

图5是本申请提供的一种文本识别方法的实施例的确定第一字向量的完整示意图;

图6是本申请提供的一种文本识别方法的实施例的文本分类模型的示意图;

图7是本申请提供的一种文本识别方法的实施例的变异词示意图;

图8是本申请提供的一种文本识别方法的实施例的步骤S105的具体流程图;

图9是本申请提供的一种文本识别方法的实施例的确定第二词向量的示意图;

图10是本申请提供的一种文本识别方法的实施例的具体流程图;

图11是本申请提供的一种拼写纠错方法的实施例的流程图;

图12是本申请提供的一种语音识别方法的实施例的流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

第一实施例

请参考图1,其为本申请提供的一种文本识别方法实施例的流程图,该方法的执行主体包括垃圾文本识别装置。本申请提供的一种文本识别方法包括:

步骤S101:获取待识别文本。

所述待识别文本,可以是手机短信、即时消息、邮件正文等等可能具有垃圾内容的文本。

在本实施例中,所述垃圾文本识别装置可拦截短信发送方实时发送的短信文本,对其进行垃圾文本识别的处理,以便于进行智能短信拦截和通道优化等处理。

步骤S103:确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量。

在获取到待识别文本之后,就可以通过字符(简称字)嵌入的方式,将待识别文本按照第一字向量(又称为第一字符向量)来组织。所述字符,可以是汉字、日文字或韩文字等等象形文字,也可以是英文单词等等由字母组合而成的文字。所述第一字向量,不仅包括字本体语义信息,还包括字变异语义信息,甚至包括其它类型的语义信息。本实施例将第一字向量记作N。

所述字本体语义信息是指字符本身的语义,也就是字符的本意,如“微”的本意为“隐秘地行走,还有细小、衰落、精妙、隐匿等意思”。

所述字变异语义信息是指与字符相关的至少一个变异字符的语义信息。一个字符可以有多个变异字符。所述变异字符包括但不限于:音变字符,形变字符,也可以是其他类型的变异字符,如“微”的音变字符包括:“维”、“为”、“徽”等等,“微”的形变字符包括:“徽”等等,其中“徽”既是“微”的音变字符,又是“微”的形变字符。因此,所述字变异语义信息包括但不限于以下语义信息的至少一个:至少一个音变字符的语义信息,至少一个形变字符的语义信息,如“微”的音变字符“维”的含义包括“1.连接:~系;2.保持;保全:~持,~护;3.姓;4.思考;想:思~;5.几何学及空间理论的基本概念”,“微”的字变异语义信息不仅包括该字符的本意“隐秘地行走,还有细小、衰落、精妙、隐匿等意思”,还包括“维”的含义“1.连接:~系;2.保持;保全:~持,~护;3.姓;4.思考;想:思~;5.几何学及空间理论的基本概念”,还可包括“为”和“徽”的含义。

如图2所示,在本实施例中,所述第一字向量采用如下步骤确定:

步骤S1031:确定所述各个字符的包括字变异语义信息的第三字向量;以及,获取所述各个字符的包括字本体语义信息的第四字向量。

本实施例将第三字向量记作G,将第四字向量记作T。

所述第四字向量包括字本体语义信息,也就是说,本意越相近的字符之间的第四字向量相似度越高,本意越远的字符之间的第四字向量相似度越低。所述第四字向量,可从所述文本所属语言(如汉语、英语等等)的语料集中学习得到,学习的结果包括字符与第四字向量间的第二对应关系集。所述第四词向量,包括但不限于由Skip-Gram得到的词向量。在训练得到第二对应关系集后,就可通过查询第二对应关系集,获取所述文本中各个字符的包括字本体语义信息的第四字向量。

具体实施时,可首先采用离线或在线方式,计算预设的短信集中所有短信的基于字的语言模型的embedding(字嵌入,字向量),如N-Gram或Skip-Gram语言模型,或采用cbow、glove等方式,以此确定短信字的第四字向量。

所述第三字向量包括字变异语义信息。在本实施例中,针对所述文本中的各个字符,所述第三字向量可采用如下方式确定:根据字符与字符之间的变异相似度(将变异相似度记作F)数据集、及字符与第五字向量(将第五字向量记作C)间的第一对应关系集,确定所述第三字向量。

所述变异相似度,包括但不限于以下相似度的至少一项:字音相似度,字形相似度。所述字音相似度,是指两个字在发音方面的相似度,发音越相似的字符之间的字音相似度越高,发音越不同的字符之间的字音相似度越低,如“微”和“维”之间的字音相似度高于“微”和“徽”之间的字音相似度。所述字形相似度,是指两个字在字形方面的相似度,字形越相似的字符之间的字形相似度越高,字形越不同的字符之间的字形相似度越低,如“微”和“徽”之间的字形相似度高于“微”和“维”之间的字形相似度。

如图3所示,本实施例还包括构建汉字异构图的步骤。具体实施时,可通过汉字拼音、郑码、笔顺等编码,计算两两汉字的变异相似度。在汉字异构图中,节点为汉字,边为汉字间的变异相似度,边的类型为计算变异相似度时的编码类型,如编码类型为拼音则变异相似度为字音相似度,如编码类型为郑码则变异相似度为字形相似度,如编码类型为笔顺则变异相似度为笔顺相似度,等等。在构建完汉字异构图后,本实施例通过图嵌入(graphembedding)方法,得到每个汉字的第三字向量G,具体可采用增强变异家族的图嵌入(Variation family-enhanced Graph Embedding,VFPE)方法,每个汉字的表示由该汉字的第五字向量C和该汉字所属字变异家族中其他字的第五字向量C混合而成,混合时考虑字间变异相似度F。具体实施时,也可以将graph embedding方法替换为line、deepwalk、node2vec、metapath2vec等方法。由于上述graph embedding方法均属现有技术,因此此处不再赘述。

步骤S1033:针对所述各个字符,根据所述第三字向量和所述第四字向量,确定所述第一字向量。

本实施例可通过如图4所示的第一字向量确定模型,对包括字变异语义信息的第三字向量、和包括字本体语义信息的第四字向量进行结合,确定出既包括字本体语义信息、又包括字变异语义信息的第一字向量。该第一字向量确定模型的作用相当于一个门(gate),通过这个门可确定第一字向量中来源于字变异语义信息多一些,还是来源于字本体语义信息多一些。

由图4可见,本实施例首先通过第一字向量确定模型包括的第一子模块,根据所述第三字向量G和所述第四字向量T,确定字向量权重P;然后,再通过第一字向量确定模型包括的第二子模块,根据所述字向量权重、所述第三字向量和所述第四字向量,确定所述第一字向量。该处理过程的公式化表达如下所述:

P′=σ(W

N′=(P′⊙T′)+((1-P′)⊙G′)) 公式2

在上述公式1中,σ表示非线性变换,可以是sigmoid函数等等;G’表示由所有字符的第三字向量G构成的第三字向量矩阵,矩阵G’的行数可以是汉语字数,列数是第三字向量的维数(如128维等等);T’表示由所有字符的第四字向量T构成的第四字向量矩阵,矩阵T’的行数同样可以是汉语字数,列数是第四字向量的维数(如128维等等);【G’,T’】表示将矩阵G’和矩阵T’连接在一起的矩阵,该矩阵的列数可以是第三字向量的维数与第三字向量的维数之和(如256维等等);Wp表示变换矩阵,该矩阵的元素即为第一字向量确定模型的参数,bp表示截距矩阵;P’表示指示矩阵,通过该矩阵的元素可指示出字向量权重P,通过上述公式2并基于字向量权重,可确定一个字符的第一字向量中来源于字变异语义信息多一些,还是来源于字本体语义信息多一些。如图5所示,其为本实施例的确定第一字向量的流程图。

在本实施例中,所述第一字向量确定模型可从训练数据集中学习得到,其中的任意一条训练数据可以包括训练用文本和该文本是否为垃圾文本的标注信息。具体实施时,可将训练用文本中的各个字符的第三字向量和第四字向量作为该模型网络的输入数据,将所述标注信息作为该模型训练时应用的损失函数中的目标对比数据,通过梯度下降等等算法不断调整Wp及bp中的各个参数,直至达到优化目标时结束训练,获得最终的模型参数。

步骤S105:通过文本分类模型,至少根据所述第一字向量确定所述文本是否为垃圾文本。

在获得待识别文本包括的各个字符分别对应的第一字向量后,就可以根据所述第一字向量,通过该文本分类模型判断所述文本是否为垃圾文本。所述文本分类模型,可通过全连接层计算待识别文本为垃圾文本的概率,如果概率大于概率阈值(如0.5),则可将该文本视为垃圾文本。

所述文本分类模型可以采用基于神经网络的文本分类模型,如基于卷积神经网络的文本分类模型,或者是基于循环神经网络的文本分类模型,如单向长短期记忆网络结构LSTM等等。相应的,所述方法还包括如下步骤:从训练数据集中学习得到文本分类模型,其中任意一条训练数据包括训练用文本与该文本是否为垃圾文本的标注信息。所述文本分类模型,可采用现有技术中的所述文本分类模型,由于所述文本分类模型属于较为成熟的现有技术,因此此处不再赘述。

在一个示例中,步骤S105可采用如下方式实现:直接将这些字符的第一字向量作为文本分类模型的输入数据,通过该文本分类模型判断所述文本是否为垃圾文本。

在这种情况下,在训练文本分类模型时,可先确定训练用文本中每个字符的第三字向量G和第四字向量T,再根据G和T确定第一字向量N,然后将训练用文本中每个字分别对应的第一字向量N作为模型网络的输入数据,将所述标注信息作为该模型训练时应用的损失函数中的目标对比数据,通过梯度下降等等算法不断调整神经网络中的各个参数,直至达到优化目标时结束训练,获得最终的模型参数。

如图6所示,其为本实施例应用的文本分类模型,该模型的网络结构为双向长短期记忆网络结构Bi-LSTM,可将所述文本包括的第一字向量的正向序列作为第一LSTM的输入数据;以及,将所述文本包括的第一字向量的反向序列作为第二LSTM的输入数据,这种处理方式使得在进行垃圾文本识别时可以参考上下文信息,因此,可以有效提升垃圾文本识别的准确率。

如图7所示,其为本实施例可识别出的在文本分类模型的训练数据中并不包括的垃圾文本模式。由图7可见,不同词间相似度,可以是两个词间字音相似度,也可以是两个词间字体形状的相似度,还可以同时包括字音相似度和字形相似度。以原始词“账号”为例,与该词具有文本变异关系的变体词包括:“帐号”、“帐昊”和“张号”,其中变体词“帐号”与原始词“账号”之间字音相似且字形相似,因此在这两个词间具有两条边,一条边为字音相似度,表示二者具有较高的字音相似度,另一条边为字形相似度,表示二者具有较高的字形相似度。对于另一个变体词“帐昊”,由于该词与原始词“账号”之间字音相似,因此在这两个词间只具有一条类型为字音相似度的边,该边表示两个词间具有较高的字音相似度。

例如,“微信”与“徽信”这两个词间具有较高的字音相似度,且具有较高的字形相似度,因此对于包含“加微信”字样的文本A、及包含“加徽信”字样的文本B,如果这两个文本中的其他部分相同,则“微信”与“徽信”具有相似的词向量,根据相似的词向量对文本A和文本B进行垃圾文本识别的结果是,文本A和文本B均为垃圾文本。

本申请实施例提供的文本识别方法,通过获取待识别文本;确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;通过文本分类模型,至少根据所述第一字向量确定所述文本是否为垃圾文本;这种处理方式,使得基于类似打水漂的原理确定待识别文本中各个字符的第一字向量,由于确定第一字向量的水漂模型引入了汉字异构图,因此能够捕捉字与字之间在语音、字形等类型的字变异方面的相似性,即:捕捉汉字音变和形变信息,基于此向量进行垃圾文本识别,可识别出文本分类模型的训练数据中并不包括的垃圾文本模式,由此增强了变异文本的识别能力;因此,可以有效提升垃圾文本识别的召全率。

如图8所示,在另一个示例中,步骤S105可采用如下步骤实现:

步骤S1051:根据所述第一字向量和所述文本,确定所述各个字符的包括上下文语义信息的第二字向量。

所述第二字向量,不仅可包括字本体语义信息和字变异语义信息,还可包括字所在的待识别文本的上下文信息,根据一个字所在文本的上下文信息,可能削弱第一字向量中的字变异语义信息、且增强第一字向量中的字本体语义信息,也可能增强第一字向量中的字变异语义信息、且削弱第一字向量中的字本体语义信息。例如,“徽信”通常是“微信”的变体,有垃圾广告的风险,但它也表示“安徽信息工程学院”,如果根据该词所在上下文确定该词表示“安徽信息工程学院”,则包括“徽信”的该待识别文本可能是一个非垃圾文本。由此可见,第二字向量较第一字向量而言,更为准确的表达了一个字符的字向量。本实施例将第二字向量记作SS。

在本实施例中,所述第二字向量可采用如下方式确定:将所述第一字向量作为第二字向量确定模型的输入数据,通过所述第二字向量确定模型,确定所述第二字向量。所述第二字向量确定模型,可从训练数据集中学习得到,其中任意一条训练数据可包括训练用文本及其是否为垃圾文本的标注信息。

所述第二字向量确定模型,可以采用基于神经网络的第二字向量确定模型,如基于卷积神经网络的第二字向量确定模型,或者是基于循环神经网络的第二字向量确定模型,如单向长短期记忆网络结构LSTM等等。

如图9所示,其为本实施例应用的第二字向量确定模型,该模型的网络结构为双向长短期记忆网络结构Bi-LSTM,该Bi-LSTM可以是一个多层的Bi-LSTM,通过结合Bi-LSTM每一层的输出和原始输入,得到第二词向量的最终表达。在本实施例中,可将所述文本包括的第一字向量的正向序列作为第一LSTM的输入数据;以及,将所述文本包括的第一字向量的反向序列作为第二LSTM的输入数据。所述正向序列,是指文本中按从左到右的顺序排列的字序列。所述反向序列,是指文本中按从右到左的顺序排列的字序列。

本申请实施例提供的方法,通过采用基于Bi-LSTM的第二字向量确定模型,使得可以建模字符与字符之间远距离的依赖关系,且可以从两个方向来建模,由于字符之间的远距离依赖关系可以决定字符的语义情况;因此,可以有效提升第二字向量的准确度。

如图10所示,在本实施例中,所述方法还包括如下步骤:

步骤S1001:从第一训练数据集中学习得到所述第一字向量确定模型和所述第二字向量确定模型的模型参数。

步骤S1003:从第二训练数据集中学习得到所述第一字向量确定模型、所述第二字向量确定模型和所述文本分类模型的模型参数。

通过上述两个阶段的模型训练得到所述第一字向量确定模型、所述第二字向量确定模型和所述文本分类模型的模型参数。其中,第一个阶段只训练所述第一字向量确定模型和所述第二字向量确定模型的模型参数,即:从第一训练数据集中学习得到所述第一字向量确定模型和所述第二字向量确定模型的模型参数;所述第一训练数据包括训练用文本及其是否为垃圾文本的标注信息之间的第一对应关系。在第一阶段的模型训练结束后,再进行第二个阶段的模型训练,第二个阶段可以是在第一阶段训练得到的所述第一字向量确定模型和所述第二字向量确定模型的模型参数基础上,对所述第一字向量确定模型、所述第二字向量确定模型和所述文本分类模型的模型参数进行联调,即:从第二训练数据集中学习得到所述第一字向量确定模型、所述第二字向量确定模型和所述文本分类模型的模型参数;所述第二训练数据包括训练用文本及其是否为垃圾文本的标注信息之间的第二对应关系。由此可见,第二阶段的训练包括对所述第一字向量确定模型和所述第二字向量确定模型的模型参数进行微调。采用这种处理方式,不仅可以有效提升模型的训练效率,还可以有效提升模型准确度。

其中,第一训练数据集和第二训练数据集可以是相同的数据集,也可以是不同的数据集。

步骤S1053:将所述第二字向量作为文本分类模型的输入数据,通过所述文本分类模型判断所述文本是否为垃圾文本。

本步骤可直接将待识别文本中各个字符分别对应的第二字向量作为文本分类模型的输入数据,通过该文本分类模型,根据第二字向量判断所述文本是否为垃圾文本。

从上述实施例可见,本申请实施例提供的文本识别方法,通过获取待识别文本;确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;根据所述第一字向量和所述文本,确定所述各个字符的包括上下文语义信息的第二字向量;通过文本分类模型,根据所述第二字向量判断所述文本是否为垃圾文本;这种处理方式使得能够捕捉到受上下文信息影响的字符的音变和形变信息,也即输入至文本分类模型的字向量包括上下文语义信息、及字符的音变和形变信息,能够检测变异的模式是否有害;因此,可以有效提升垃圾文本识别的召准率。

在上述的实施例中,提供了一种文本识别方法,与之相对应的,本申请还提供一种拼写纠错方法。该方法是与上述方法的实施例相对应。

第二实施例

请参考图11,其为本申请提供的一种拼写纠错方法实施例的流程图,该方法的执行主体包括拼写纠错装置。由于该方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。

本申请提供的一种拼写纠错方法包括:

步骤S1101:获取待纠错文本。

所述待纠错文本,包括但不限于:句子、短语等等,如“发微信”、“发徽信”等等。

所述待纠错文本,可以是用户通过输入法输入的文本。在这种情况下,可在输入法中部署实现所述方法的装置,当用户通过输入法输入文本时,该装置执行所述方法对该文本执行纠错处理。

所述待纠错文本,也可以是用户使用搜索引擎时输入的搜索关键词。在这种情况下,可在搜索引擎中部署实现所述方法的装置,当用户输入搜索关键词时,该装置执行所述方法对该搜索关键词执行纠错处理。

所述待纠错文本,还可以是从互联网等多种途径搜集的文本。在这种情况下,可在文本处理系统中部署实现所述方法的装置,该装置执行所述方法对该搜集到的文本执行纠错处理。

步骤S1103:确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量。

步骤S1105:通过文本分类模型,至少根据所述第一字向量确定所述文本是否包括语义变异的第一字符串。

对于一个字符串而言,其本体语义信息可由该字符串中各个字符的本体语义信息确定。但是,当一个字符串处在不同上下文的句子中时,其语义可能会受到其所在句子的上下文信息的影响,发生语义变化,此时该字符串的语义为变异语义。所述语义变异的第一字符串的文本可为垃圾文本。

例如,“微信”在短语“发微信”中的含义为其本意“消耗少量网络流量的微信息”,但是如果该词在句子“我在微信上的大学”中,则其含义会发生变异,变异的语义为“安徽信息工程学院”,然而,真正具有“安徽信息工程学院”这个语义的字符串为与“微信”字形相近的“徽信”,因此可判定该句子中包括语义变异的第一字符串,该字符串为“微信”。

步骤S1107:确定本体语义为所述第一字符串的变异语义的第二字符串。

如果确定所述文本中包括所述第一字符串,则要确定本体语义为第一字符串的变异语义的第二字符串。

步骤S1109:将所述第一字符串更新为所述第二字符串。

以“微信”与“徽信”这两个词为例,它们互为变体词,这两个词间具有较高的字音相似度,且具有较高的字形相似度,容易在输入时发生混淆,或者是故意输入错误,以制造变异的垃圾消息等等。其中,“徽信”在句子中的含义可能是“微信”,也可能是“安徽信息工程学院”;同理,“微信”在句子中的含义可能就是“微信”,也可能是“安徽信息工程学院”。对于这两个变体词,很容易在输入时发生以下两种混淆:

1)将“微信”错误地输入为“徽信”。

例如,对于包含“加微信”字样的文本A、及包含“加徽信”字样的文本B,如果这两个文本中的其他部分相同,则通过执行本申请实施例提供的方法,可确定出“微信”与“徽信”具有相似的词向量,其中“加微信”中不包括语义发生变化的字符串,“微信”二字是正确的,而“加徽信”中包括语义发生变化的字符串,“徽信”二字是错误的,这样就可以将错误输入的“加徽信”自动纠错为“加微信”。

2)将“徽信”错输入为“微信”。

例如,对于文本“我在微信上的大学”,根据“微信”所在上下文确定该词表示“安徽信息工程学院”,则可确定“微信”是错误文本,其语义发生了变化,本意为“安徽信息工程学院”的第二字符串为“徽信”,将文本中的“微信”二字自动纠错为“徽信”。

在本实施例中,用户利用搜索引擎进行网页检索,并在关键词输入框中输入待检索的关键词文本,如果通过步骤S1105确定用户输入的文本发生拼写错误,搜索引擎的下拉框中仍会显示以正确关键词为前辍的提示,当用户直接回车搜索错误的关键词时,搜索引擎的结果中仍包括正确关键词的结果。

从上述实施例可见,本申请实施例提供的拼写纠错方法,通过获取待纠错文本;确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;通过文本分类模型,至少根据所述第一字向量确定所述文本是否包括语义变异的第一字符串;确定本体语义为所述第一字符串的变异语义的第二字符串;将所述第一字符串更新为所述第二字符串;这种处理方式,使得基于类似打水漂的原理确定待纠错文本中各个字符的第一字向量,由于确定第一字向量的水漂模型引入了汉字异构图,因此能够捕捉字与字之间在语音、字形等类型的字变异方面的相似性,即:捕捉汉字音变和形变信息,基于此向量识别语义发生变异的字符串,可识别出文本分类模型的训练数据中并不包括的变异文本模式,由此增强了变异文本的识别能力;因此,可以有效提升拼写纠错的准确率。

第三实施例

请参考图12,其为本申请提供的一种语音识别方法实施例的流程图,该方法的执行主体包括语音识别装置。本申请提供的一种语音识别方法包括:

步骤S1201:获取待识别语音数据。

步骤S1203:确定与所述语音数据对应的文本;

本实施例提供的方法,可通过语音识别技术(ASR)将语音内容转换为计算机可读的文本。语音识别的方法包括:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法等等。由于ASR属于较为成熟的现有技术,因此此处不再赘述。

步骤S1205:确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量。

步骤S1207:通过文本分类模型,至少根据所述第一字向量确定所述文本是否为垃圾文本。

步骤S1209:若所述文本为垃圾文本,则所述语音数据作为垃圾语音数据。

如果确定所述文本是否为垃圾文本,即文本中含有垃圾信息,则判定语音为垃圾语音。

从上述实施例可见,本申请实施例提供的语音识别方法,通过获取待识别语音数据;确定与所述语音数据对应的文本;确定所述文本中各个字符的包括字本体语义信息和字变异语义信息的第一字向量;通过文本分类模型,至少根据所述第一字向量确定所述文本是否为垃圾文本;若所述文本为垃圾文本,则所述语音数据作为垃圾语音数据;这种处理方式,使得基于类似打水漂的原理确定待识别语音数据对应的文本中各个字符的第一字向量,由于确定第一字向量的水漂模型引入了汉字异构图,因此能够捕捉字与字之间在语音、字形等类型的字变异方面的相似性,即:捕捉汉字音变和形变信息,基于此向量进行垃圾语音识别,可识别出文本分类模型的训练数据中并不包括的垃圾文本模式,由此增强了变异文本的识别能力;因此,可以有效提升垃圾语音识别的召全率。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号