首页> 中国专利> 阿拉伯语元音恢复方法、装置、设备及存储介质

阿拉伯语元音恢复方法、装置、设备及存储介质

摘要

本申请公开了一种阿拉伯语元音恢复方法、装置、设备及存储介质,本申请利用无元音标注的阿语训练文本训练语言模型,可以基于大批量阿语训练文本训练得到对于阿语的单词有较好的泛化表示能力的语言模型,进而对于待处理阿语文本,利用语言模型确定待处理阿语文本中每一单词的特征表示,并获取待处理阿语文本中每一字符的文本特征,基于每一字符的文本特征,及每一字符所属单词的特征表示,确定待处理阿语文本中各字符对应的元音标注结果。本申请在对进行元音恢复时,同时参考了每一字符的文本特征及其所属单词的特征表示,也即参考信息更加丰富,同时借助于语言模型对阿语单词较好的泛化表示能力,可以提高各字符所预测的元音的准确度。

著录项

  • 公开/公告号CN113011135A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利权人 科大讯飞股份有限公司;

    申请/专利号CN202110234392.8

  • 发明设计人 储银雪;高丽;祖漪清;江源;

    申请日2021-03-03

  • 分类号G06F40/126(20200101);G06F40/284(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人付丽

  • 地址 230088 安徽省合肥市高新区望江西路666号

  • 入库时间 2023-06-19 11:32:36

说明书

技术领域

本申请涉及自然语言处理技术领域,更具体的说,是涉及一种阿拉伯语元音恢复方法、装置、设备及存储介质。

背景技术

阿拉伯语又可以简称为阿语,阿语有28个辅音字符和8个元音字符,在其常规的书写中,除特殊情况下,一般都会省略掉文字中的元音字符信息,只保留辅音词面信息。但阿语的朗读发音中需要体现出元音的信息,且辅音与不同的元音组合形式会影响到单词的语义信息。因此,阅读者往往需要根据自己的判断在阅读时在辅音字符后添加上相应的元音信息,且将辅音连同元音的发音一起读出。

由于阿拉伯语的特殊性,其元音的添加没有明确且详细的规则,相同的辅音单词添加不同的元音字符后,其词意可能会发生变化,或者同一个词在根据其在句中的格位变化,相应的词尾元音也会发生变化,因此会造成同一个辅音词在不同的句子中有多种元音恢复的形式,例如单词

由于常规的阿语文本不包含元音字符,因此在对阿语文本进行语音合成时会影响合成效果,为此需要在语音合成前对阿语文本进行前端处理,即对阿语文本进行元音信息的恢复,从而保证阿语文本合成时有完整且准确的输入信息。因此有必要提供一种阿语元音恢复方案,以保证阿语文本的语义的正确性及完整性。

发明内容

鉴于上述问题,提出了本申请以便提供一种阿拉伯语元音恢复方法、装置、设备及存储介质,以保证阿语文本的语义的正确性及完整性。具体方案如下:

一种阿拉伯语元音恢复方法,包括:

获取待处理阿语文本;

利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;

获取所述待处理阿语文本中每一字符的文本特征;

基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

优选地,所述语言模型的训练过程,包括:

获取无元音标注的阿语训练文本;

对所述阿语训练文本中的字符进行随机遮挡,并输入语言模型;

以预测所述阿语训练文本中被遮挡的字符为目标,训练所述语言模型。

优选地,所述语言模型为基于BERT结构的掩码语言模型。

优选地,所述阿语训练文本包括现代阿语训练文本和/或古典阿语训练文本。

优选地,所述利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,包括:

将所述待处理阿语文本输入所述语言模型,得到语言模型输出的所述待处理阿语文本中每一单词的词向量特征。

优选地,所述基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果,包括:

将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;

基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

优选地,获取所述待处理阿语文本中每一字符的文本特征,以及基于所述文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果的过程,包括:

利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示,以得到元音恢复模型输出的所述待处理阿语文本中各字符对应的元音标注结果;

其中,所述元音恢复模型以带元音标注结果的阿语训练文本及所述阿语训练文本中每一单词的特征表示为训练数据,训练得到。

优选地,利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示的过程,包括:

利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征;

利用所述元音恢复模型的特征融合层,将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;

利用所述元音恢复模型的分类层,基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

优选地,所述利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征,包括:

利用所述元音恢复模型的第一特征抽取层,获取所述待处理阿语文本中每一字符的编码特征;

利用所述元音恢复模型的第二特征抽取层,获取所述待处理阿语文本中每一字符在设定长度窗口内的字符特征,由所述编码特征及所述字符特征组合为字符的文本特征。

优选地,在所述利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示之前,该方法还包括:

若检测到所述待处理阿语文本中包含数字符号,则将所述数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。

优选地,所述元音恢复模型的训练过程,包括:

以带元音标注结果的古典阿语训练文本,及所述古典阿语训练文本中每一单词的特征表示为训练数据,训练初始元音恢复模型;

以带元音标注结果的现代阿语训练文本,及所述现代阿语训练文本中每一单词的特征表示为训练数据,对所述初始元音恢复模型进行微调,得到最终的元音恢复模型。

优选地,所述带元音标注结果的现代阿语训练文本的获取过程,包括:

获取现代阿语训练文本,所述现代阿语训练文本中除末尾字符外的其它字符标注元音;

将所述现代阿语训练文本中包含的数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。

优选地,还包括:

参考设定的元音标注规则,对确定的所述待处理阿语文本中各字符对应的元音标注结果进行校正。

优选地,所述元音标注规则包括对于第一类型词的元音标注规则,和/或,对于第二类型词的元音标注规则,和/或,对于第三类型词的元音标注规则,所述第一类型词为具有固定元音标注形式的词,所述第二类型词为末尾字符决定单词格位且只有格位会变化的词,所述第三类型词为冠词和名词组合成的词;

所述参考设定的元音标注规则,对确定的所述待处理阿语文本中各字符对应的元音标注结果进行校正,包括:

检测所述待处理阿语文本中是否包含第一类型词,若是,则利用配置的与所述第一类型词中各字符对应的元音标注结果,替换掉所述待处理阿语文本的元音标注结果中所述第一类型词的各字符的元音标注结果;

和/或,

检测所述待处理阿语文本中是否包含第二类型词,若是,则利用配置的与所述第二类型词中除末尾字符外的其它各字符的元音标注结果,替换掉所述待处理阿语文本的元音标注结果中所述第二类型词中对应字符的元音标注结果;

和/或,

检测所述待处理阿语文本中是否包含由冠词和名词组合成的组合词,若是,对于所述名词,参考对于第一类型词及第二类型词的元音标注规则进行处理,对于所述冠词,确定所述冠词所在的组合词处于句子中间还是句首位置;

若处于句子中间位置,则利用配置的第一冠词的元音标注形式替换掉所述待处理阿语文本中所述冠词对应字符的元音标注结果;

若处于句首位置,则利用配置的第二冠词的元音标注形式替换掉所述待处理阿语文本中所述冠词对应字符的元音标注结果。

一种阿拉伯语元音恢复装置,包括:

文本获取单元,用于获取待处理阿语文本;

单词特征表示确定单元,用于利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;

字符文本特征获取单元,用于获取所述待处理阿语文本中每一字符的文本特征;

元音标注结果确定单元,用于基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

一种阿拉伯语元音恢复设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上所述的阿拉伯语元音恢复方法的各个步骤。

一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的阿拉伯语元音恢复方法的各个步骤。

借由上述技术方案,本申请的阿拉伯语元音恢复方案,可以利用大量容易获取到的无元音标注的阿语训练文本训练一个语言模型,由于无元音标注的阿语训练文本可以很容易的大批量获取,因此可以基于大批量阿语训练文本训练语言模型,使得训练好的语言模型对于阿语的单词有较好的泛化表示能力,进而对于待处理阿语文本,利用语言模型确定待处理阿语文本中每一单词的特征表示,并获取待处理阿语文本中每一字符的文本特征,基于每一字符的文本特征,及每一字符所属单词的特征表示,确定待处理阿语文本中各字符对应的元音标注结果。本申请在对待处理阿语文本进行元音恢复时,同时参考了每一字符的文本特征及其所属单词的特征表示,也即参考信息更加丰富,同时借助于语言模型对阿语单词较好的泛化表示能力,可以提高各字符所预测的元音的准确度,最终得到标注有元音的阿语文本,保证了阿语文本的语义的正确性及完整性。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本申请实施例提供的阿拉伯语元音恢复方法的一流程示意图;

图2示例了一种元音回复模型处理过程示意图;

图3示例了另一种元音回复模型处理过程示意图;

图4为本申请实施例公开的一种阿拉伯语元音恢复装置结构示意图;

图5为本申请实施例提供的阿拉伯语元音恢复设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供了一种阿拉伯语元音恢复方案,可以适用于对由辅音字符组成的阿拉伯语进行元音恢复,也即,标注出每一辅音字符对应的元音字符。为了简化表达,下文将阿拉伯语简称为阿语。

本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。

为了实现对阿语元音的恢复,本案申请人首先想到的就是,利用大量的携带有元音标注结果的阿语训练文本,训练一个元音恢复模型,进而利用训练好的元音恢复模型,对待处理阿语文本进行元音恢复。

然而实际情况中,携带有元音标注结果的阿语训练文本数据十分稀缺,若通过人工专家标注的形式来获取携带有元音标注结果的阿语训练文本,会占用大量的人力资源。为此,本案致力于提供一种低资源场景下的阿语元音恢复方案,其中所述的低资源是指携带有元音标注结果的阿语训练文本数据资源较少。

接下来,结合图1所述,本申请的阿语元音恢复方法可以包括如下步骤:

步骤S100、获取待处理阿语文本。

具体的,待处理阿语文本为需要进行元音恢复的阿语文本。待处理阿语文本由辅音字符组成,或是辅音字符及空格、标点、非阿语字符等组成。

步骤S110、利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示。

其中,所述语言模型为基于无元音标注的阿语训练文本训练得到。本申请实施例中,可以利用大批量的无元音标注的阿语训练文本预先训练一个语言模型,由于无元音标注的阿语训练文本可以轻易的获取到,如通过网上爬取或者通过其它开源的数据集获取等。因此可以基于大批量阿语训练文本训练语言模型,使得训练好的语言模型对于阿语的单词有较好的泛化表示能力,进而对于待处理阿语文本,利用语言模型确定待处理阿语文本中每一单词的特征表示。

步骤S120、获取所述待处理阿语文本中每一字符的文本特征。

具体的,对于待处理阿语文本,可以获取其中每一字符的文本特征。文本特征表征了字符在待处理阿语文本中的语义信息。

每一字符的文本特征可以包括对单个字符的编码结果,也可以包括结合字符的上下文信息对字符进行编码的结果。

获取字符的文本特征的过程,可以是采用神经网络结构中的字符嵌入层来实现,或通过其它方式实现。

需要说明的是,待处理阿语文本由辅音字符及其它字符组成,如空格、标点等。因此,本步骤中,对于待处理阿语文本中各种字符均可以确定对应的文本特征。

步骤S130、基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

具体的,在对待处理阿语文本中每一字符进行元音恢复时,参考每一字符的文本特征,同时以每一字符所属单词的特征表示作为辅助参考特征,来预测待处理阿语文本中每一字符对应的元音标注结果。

其中,每一字符所属单词的特征表示可以通过上述步骤S110获取,也即利用语言模型确定的待处理阿语文本中每一单词的特征表示。可以理解的是,对于属于同一单词的多个不同的字符,其所属单词的特征表示相同。

本申请实施例提供的阿拉伯语元音恢复方法,可以利用大量容易获取到的无元音标注的阿语训练文本训练一个语言模型,由于无元音标注的阿语训练文本可以很容易的大批量获取,因此可以基于大批量阿语训练文本训练语言模型,使得训练好的语言模型对于阿语的单词有较好的泛化表示能力,进而对于待处理阿语文本,利用语言模型确定待处理阿语文本中每一单词的特征表示,并获取待处理阿语文本中每一字符的文本特征,基于每一字符的文本特征,及每一字符所属单词的特征表示,确定待处理阿语文本中各字符对应的元音标注结果。本申请在对待处理阿语文本进行元音恢复时,同时参考了每一字符的文本特征及其所属单词的特征表示,也即参考信息更加丰富,同时借助于语言模型对阿语单词较好的泛化表示能力,可以提高各字符所预测的元音的准确度,最终得到标注有元音的阿语文本,保证了阿语文本的语义的正确性及完整性。

在本申请的一些实施例中,对上述语言模型进行介绍。

为了训练语言模型,首先可以收集训练数据,也即获取无元音标注的阿语训练文本,这部分数据可以从网络上爬取,或通过现有的开源数据集获取。在获取到阿语训练文本后,可以对阿语训练文本中的字符进行随机遮挡,并输入语言模型,以预测阿语训练文本中被遮挡的字符为目标,训练所述语言模型,也即训练一个掩码语言模型。

考虑到BERT模型在自然语言处理任务有优秀的性能,对下游任务能保持良好的泛化性能,因此本实施例中可以选用BERT模型作为语言模型。BERT模型主要包括embedding层和多层的双向transformer结构。

对于输入的阿语训练文本,经过语言模型后,阿语训练文本中每一单词都会产生一个词向量特征word embedding,作为单词的特征表示。可选的,单词的词向量特征wordembedding可以是768维或其它维度的数据,具体维度可以根据语言模型的网络结构而调整。

进一步需要说明的是,上述获取的无元音标注的阿语训练文本,其可以是现代阿语训练文本、古典阿语训练文本中的一种或两种。

其中,古典阿语是指倭马亚王朝到阿巴斯王朝(公元7至9世纪)的用于书面的阿拉伯语。现代阿语是其直系后代,在当今世界用于书面及正式讲话使用的阿拉伯语。现代阿语和古典阿语既不同,又存在一定的相似性。现代阿语的词汇和文体不同于古典阿语,但是词法和句法却基本没变。古典阿语的经典代表就是《古兰经》。

本实施例中,考虑到现代阿语和古典阿语之间的相似性和不同性,以及元音恢复任务主要是针对现代阿语进行的,为此可以现代阿语训练文本及古典阿语训练文本同时作为阿语训练文本,训练语言模型,以使得训练后的语言模型能够同时学习到现代阿语和古典阿语间的相似性及不同性,对阿语单词有较好的泛化表示能力。

进一步的,对于上述实施例中步骤S130,基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果的过程进行介绍。

本实施例中,在确定待处理阿语文本中各字符对应的元音标注结果时,参考了待处理阿语文本中每一字符的文本特征,以及,每一字符所属单词的特征表示,具体的,可以将待处理阿语文本中,每一字符的文本特征与字符所属单词的特征表示进行融合,进而得到待处理阿语文本的融合特征表示。进一步,基于待处理阿语文本的融合特征表示,确定待处理阿语文本中各字符对应的元音标注结果。

通过将字符的文本特征与所属单词的特征表示进行融合,使得融合特征表示既包含了字符的文本特征又包含有字符在阿语环境下的泛化表示,即融合特征表示包含的信息更加丰富,基于此确定待处理阿语文本中各字符对应的元音标注结果也会更加准确。

在本申请的一些实施例中,可以借助神经网络模型来实现上述步骤S120及步骤S130的过程。

具体的,本申请可以预先训练元音恢复模型。训练过程,可以以带元音标注结果的阿语训练文本及所述阿语训练文本中每一单词的特征表示为训练数据,训练得到元音恢复模型。

其中,带元音标注结果的阿语训练文本可以包括现代阿语训练文本,以及古典阿语训练文本。阿语训练文本中每一单词的特征表示,可以是通过上文训练的语言模型来获取。具体的,可以将阿语训练文本输入训练好的语言模型,进而得到语言模型输出的阿语训练文本中每一单词的特征表示。本实施例中,以携带有元音标注结果的阿语训练文本及其中每一单词的特征表示作为训练数据,训练元音恢复模型。其中,阿语训练文本所携带的元音标注结果即,阿语训练文本中每一字符对应的元音标签。

具体的,以Unicode编码为例,阿语中所有可能的元音标签可以包括:“\u064B”,“\u064C”,“\u064D”,“\u064E”,“\u064F”,“\u0650”,“\u0651”,“\u0652”,“\u0651\u064B”,“\u0651\u064C”,“\u0651\u064D”,“\u0651\u064E”,“\u0651\u064F”,“\u0651\u0650”,以及为空共15种情况。对于阿语训练文本中非阿语字符,可以统一设置其元音标签为空。因此,上述元音恢复模型的输出共有15个类别,元音恢复的过程也即预测字符对应的元音标签类别的过程。

进一步的,考虑到实际情况中现代阿语元音标注数据比较匮乏,同时古典阿语和现代阿语之间的相似性和不同性,本实施例提供了一种元音恢复模型的可选训练过程。

具体的,由于开源的携带有元音标注结果的古典阿语训练文本数量较多,且元音标注结果比较准确,如古兰经等,本实施例可以先利用大量的携带有元音标注结果的古典阿语训练文本,及古典阿语训练文本中每一单词的特征表示为训练数据,训练初始元音恢复模型。其中,古典阿语训练文本中每一单词的特征表示可以通过前述训练的语言模型获得。

针对在古典阿语训练文本上训练的初始元音恢复模型,本实施例中进一步以少量带元音标注结果的现代阿语训练文本,及所述现代阿语训练文本中每一单词的特征表示为训练数据,对初始元音恢复模型进行微调,得到最终的元音恢复模型。

其中,带元音标注结果的现代阿语训练文本可以是从开源数据集获取,也可以是人工标注。

本实施例提供的元音恢复模型的训练方式,首先利用容易获取的携带有元音标注结果的古典阿语训练文本训练初始元音恢复模型,进而利用少量携带有元音标注结果的现代阿语训练文本对初始元音恢复模型进行微调,解决了带元音标注结果的现代阿语训练文本匮乏的问题,同时增强了模型在小样本数据上的泛化能力,保证了最终得到的元音恢复模型在现代阿语上有良好的效果。

进一步的,阿语文本的元音恢复可以用于对阿语文本进行语音合成,而在语音合成过程,需要将数字符号转换为阿语发音单词,数字符号存在格位的变换,通常情况下格位体现在单词末尾的字符的元音上,也即随单词末尾字符的元音形式不同,单词的格位也可能不同,一共可以包含6种格位或者为静符的形式。数字符号的格位变换需要结合元音恢复的结果进行预测。

为了解决数字符号格位变换的问题,在元音恢复模型的训练过程,本申请实施例可以对获取的现代阿语训练文本进行预处理。

具体的,带元音标注结果的现代阿语训练文本的获取过程可以包括:

S1、获取现代阿语训练文本。

其中,所述现代阿语训练文本中除数字符号外的其它字符标注有元音。

S2、将所述现代阿语训练文本中包含的数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。

具体的,由于单词的格位一般是由末尾字符的元音形式决定的,因此为了让元音恢复模型能够准确预测数字符号的格位变化,本步骤中将数字符号首先转换为阿语发音单词,并将单词中除末尾字符外的其它字符标注元音,也即让元音恢复模型专注于恢复末尾字符的元音。

可以理解的是,在得到训练后的元音恢复模型之后,可以利用元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示,以得到元音恢复模型输出的所述待处理阿语文本中各字符对应的元音标注结果。

其中,元音恢复模型获取所述待处理阿语文本中每一字符的文本特征,以及基于所述文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

接下来,结合图2示例的元音恢复模型结构,对元音恢复模型的处理过程进行介绍。

图2示例了一种可选的元音恢复模型结构,其可以包括特征抽取层、特征融合层及分类层。

其中:

由特征抽取层获取所述待处理阿语文本中每一字符的文本特征。

由特征融合层将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示。

其中,每一字符所属单词的特征表示可以通过预训练的语言模型得到。

由分类层基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

进一步的,参照图3所示,特征抽取层可以包括第一特征抽取层和第二特征抽取层。

其中,利用第一特征抽取层,获取所述待处理阿语文本中每一字符的编码特征。

第一特征抽取层可以采用字符embedding嵌入层,用于提取待处理阿语文本中每一字符的编码特征。

利用第二特征抽取层,获取所述待处理阿语文本中每一字符在设定长度窗口内的字符特征。

第二特征抽取层可以采用CNN网络结构,示例如可以是一层或多层的1维卷积神经网络,用于提取设定长度字符串的信息,示例如可以按照设定长度窗口在待处理阿语文本对应的字符串上滑动,对于每一滑动窗口内的字符串,使用第二特征抽取层提取窗口内字符串信息特征,也即,提取设定长度窗口内的字符特征。

进一步,由所述编码特征及所述字符特征组合为字符的文本特征,输入至特征融合层。

对于特征融合层,其可以采用多种不同的网络架构,如可以采用双向LSTM网络、GRU网络等。以图3示例的为例,特征融合层可以包括两个双向LSTM网络,分别定义为第一双向LSTM网络和第二双向LSTM网络。

特征抽取层提取的字符的文本特征输入至第一双向LSTM网络,可以由第一双向LSTM网络提取整句文本的特征。第一双向LSTM网络的输出连接第二双向LSTM网络。

预训练的语言模型输出的字符所属单词的特征表示,输入至第二双向LSTM网络。

一种可选的方式下,考虑到语言模型输出的字符所属单词的特征表示的维度,可能和第一双向LSTM网络输出的特征表示的维度不同,为了便于第二双向LSTM网络对两种特征进行融合,可以在语言模型和第二双向LSTM网络之间进一步增加一个全连接网络,用于对语言模型输出的字符所属单词的特征表示的维度进行调整,以使得与第一双向LSTM网络输出的特征表示的维度相匹配,一般性的,语言模型输出的字符所属单词的特征表示的维度较高,可以通过全连接网络对字符所属单词的特征表示进行降维处理。

进一步的,通过增加全连接网络,可以进一步增加元音恢复模型的网络学习能力。

第二双向LSTM网络对第一双向LSTM网络输出的每一字符的特征表示,与语言模型输出的字符所属单词的特征表示进行融合处理,示例如通过特征拼接的形式进行融合处理等。第二双向LSTM网络最终输出待处理阿语文本的融合特征表示。

可选的,为了防止模型训练出现过拟合的问题,可以在特征融合层之后增加dropout层,具体的,可以在第一和第二双向LSTM网络之后各自增加一个dropout层。

对于分类层,其可以是由全连接层和softmax分类器组成,分类层基于待处理阿语文本的融合特征表示,预测待处理阿语文本中每一字符所对应的元音标注结果。

在本申请的一些实施例中,介绍了阿语元音恢复方法的另一种可选实现方式。相比于图1对应实施例的方案,本申请实施例中,为了解决待处理阿语文本中数字符号格位变换的问题,在前述步骤S110,利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示之前,进一步可以增加如下处理步骤:

若检测到所述待处理阿语文本中包含数字符号,则将所述数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。

具体的,由于单词的格位一般是由末尾字符的元音形式决定的,因此为了能够准确预测数字符号的格位变化,本实施例中将待处理阿语文本中数字符号首先转换为阿语发音单词,并将单词中除末尾字符外的其它字符标注元音,这样只需要专注于恢复末尾字符的元音即可,进而能够更加准确的得到数字符号对应阿语发音单词的格位,为后续对阿语文本进行语音合成提供了基础。

在本申请的一些实施例中,进一步提供了另一种阿语元音恢复方法。

在前述各实施例的基础上,本实施例中可以进一步增加通过设定的元音标注规则,对确定的待处理阿语文本中各字符对应的元音标注结果进行校正的过程。

为了避免上述方案对待处理阿语文本所恢复的元音标注结果出错,本申请实施例可以预先总结一些特定单词的元音标注规则,进而按照规则对元音标注结果进行校正。

本实施例中示例了三种类型单词的元音标注规则,分别介绍如下:

第一类型词:具有固定元音标注形式的词。

第二类型词:末尾字符决定单词格位且只有格位会变化的词。

第三类型词:冠词和名词组合成的词。

基于此,参考设定的元音标注规则,对确定的所述待处理阿语文本中各字符对应的元音标注结果进行校正的过程,可以包括以下三种方式中的任意一种或多种:

1)、检测所述待处理阿语文本中是否包含第一类型词,若是,则利用配置的与所述第一类型词中各字符对应的元音标注结果,替换掉所述待处理阿语文本的元音标注结果中所述第一类型词的各字符的元音标注结果。

具体的,对于具有固定元音恢复形式的第一类型词,可以直接利用配置的该第一类型词对应的元音标注结果,替换掉前述步骤得到的待处理阿语文本的元音标注结果中,第一类型词的各字符的元音标注结果。

2)、检测所述待处理阿语文本中是否包含第二类型词,若是,则利用配置的与所述第二类型词中除末尾字符外的其它各字符的元音标注结果,替换掉所述待处理阿语文本的元音标注结果中所述第二类型词中对应字符的元音标注结果。

具体的,对于末尾字符决定单词格位且只有格位会变化的第二类型词,其除了末尾字符外其它部分字符的元音恢复形式也是固定的,因此,对于第二类型词,可以预先配置除末尾字符外的其它各字符的元音标注结果,进而对于待处理阿语文本中的第二类型词,利用配置的与第二类型词中除末尾字符外的其它各字符的元音标注结果,替换掉待处理阿语文本的元音标注结果中第二类型词中对应字符的元音标注结果。

3)、检测所述待处理阿语文本中是否包含由冠词和名词组合成的组合词,若是,则对组合词中冠词和名词分别按照下述方式处理:

对于所述名词,参考对于第一类型词及第二类型词的元音标注规则进行处理。

对于所述冠词,确定所述冠词所在的组合词处于句子中间还是句首位置;

若处于句子中间位置,则利用配置的第一冠词的元音标注形式替换掉所述待处理阿语文本中所述冠词对应字符的元音标注结果。

若处于句首位置,则利用配置的第二冠词的元音标注形式替换掉所述待处理阿语文本中所述冠词对应字符的元音标注结果。

具体的,阿语中冠词仅有

当然,除了上述示例的三种情况之外,还可以根据阿语发音的规则,设定一些其他元音标注规则,进而按照设定元音标注规则,对待处理阿语文本的元音标注结果进行校正处理。示例如,冠词与连读的字符组合的词,包含两静符的词等,都可以按照总结的元音标注规则进行元音标注规则的设定。以进一步提升元音恢复的准确率。

进一步,考虑到元音恢复结果可以用于语音合成中,而阿拉伯人在说话时普遍有吞音的习惯,可以借助这点实现对尾音的进一步处理,如可以直接对单词末尾字符的元音标注为静符,这种处理方式虽然无法体现单词的格位问题,但是实际发音并不会影响理解。

下面对本申请实施例提供的阿拉伯语元音恢复装置进行描述,下文描述的阿拉伯语元音恢复装置与上文描述的阿拉伯语元音恢复方法可相互对应参照。

参见图4,图4为本申请实施例公开的一种阿拉伯语元音恢复装置结构示意图。

如图4所示,该装置可以包括:

文本获取单元11,用于获取待处理阿语文本;

单词特征表示确定单元12,用于利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;

字符文本特征获取单元13,用于获取所述待处理阿语文本中每一字符的文本特征;

元音标注结果确定单元14,用于基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

可选的,本申请的装置还可以进一步包括:语言模型训练单元,用于训练得到上述语言模型,则语言模型训练单元训练得到语言模型的过程,可以包括:

获取无元音标注的阿语训练文本;

对所述阿语训练文本中的字符进行随机遮挡,并输入语言模型;

以预测所述阿语训练文本中被遮挡的字符为目标,训练所述语言模型。

可选的,上述语言模型可以是基于BERT结构的掩码语言模型。

可选的,上述阿语训练文本可以包括现代阿语训练文本和/或古典阿语训练文本。

可选的,上述单词特征表示确定单元利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示的过程,可以包括:

将所述待处理阿语文本输入所述语言模型,得到语言模型输出的所述待处理阿语文本中每一单词的词向量。

可选的,上述元音标注结果确定单元基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果的过程,可以包括:

将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;

基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

可选的,上述字符文本特征获取单元及元音标注结果确定单元的实现过程具体可以是通过模型处理单元实现,模型处理单元用于:

利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示,以得到元音恢复模型输出的所述待处理阿语文本中各字符对应的元音标注结果;

其中,所述元音恢复模型以带元音标注结果的阿语训练文本及所述阿语训练文本中每一单词的特征表示为训练数据,训练得到。

可选的,上述模型处理单元利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示的过程,可以包括:

利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征;

利用所述元音恢复模型的特征融合层,将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;

利用所述元音恢复模型的分类层,基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

可选的,上述模型处理单元利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征的过程,可以包括:

利用所述元音恢复模型的第一特征抽取层,获取所述待处理阿语文本中每一字符的编码特征;

利用所述元音恢复模型的第二特征抽取层,获取所述待处理阿语文本中每一字符在设定长度窗口内的字符特征,由所述编码特征及所述字符特征组合为字符的文本特征。

可选的,本申请的装置还可以包括:

数字符号处理单元,用于在所述单词特征表示确定单元处理之前,执行如下步骤:若检测到所述待处理阿语文本中包含数字符号,则将所述数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。

可选的,本申请的装置还可以包括:元音恢复模型训练单元,用于训练得到上述元音恢复模型,则元音恢复模型训练单元训练得到上述元音恢复模型的过程,可以包括:

以带元音标注结果的古典阿语训练文本,及所述古典阿语训练文本中每一单词的特征表示为训练数据,训练初始元音恢复模型;

以带元音标注结果的现代阿语训练文本,及所述现代阿语训练文本中每一单词的特征表示为训练数据,对所述初始元音恢复模型进行微调,得到最终的元音恢复模型。

可选的,上述元音恢复模型训练单元获取带元音标注结果的现代阿语训练文本的过程,可以包括:

获取现代阿语训练文本,所述现代阿语训练文本中除末尾字符外的其它字符标注元音;

将所述现代阿语训练文本中包含的数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除格位外的字符标注元音。

可选的,本申请的装置还可以包括:规则校正单元,用于参考设定的元音标注规则,对确定的所述待处理阿语文本中各字符对应的元音标注结果进行校正。

可选的,上述元音标注规则可以包括对于第一类型词的元音标注规则,和/或,对于第二类型词的元音标注规则,和/或,对于第三类型词的元音标注规则,所述第一类型词为具有固定元音标注形式的词,所述第二类型词为末尾字符决定单词格位且只有格位会变化的词,所述第三类型词为冠词和名词组合成的词。基于此,上述规则校正单元参考设定的元音标注规则,对确定的所述待处理阿语文本中各字符对应的元音标注结果进行校正的过程,可以包括:

检测所述待处理阿语文本中是否包含第一类型词,若是,则利用配置的与所述第一类型词中各字符对应的元音标注结果,替换掉所述待处理阿语文本的元音标注结果中所述第一类型词的各字符的元音标注结果;

和/或,

检测所述待处理阿语文本中是否包含第二类型词,若是,则利用配置的与所述第二类型词中除末尾字符外的其它各字符的元音标注结果,替换掉所述待处理阿语文本的元音标注结果中所述第二类型词中对应字符的元音标注结果;

和/或,

检测所述待处理阿语文本中是否包含由冠词和名词组合成的组合词,若是,对于所述名词,参考对于第一类型词及第二类型词的元音标注规则进行处理,对于所述冠词,确定所述冠词所在的组合词处于句子中间还是句首位置;

若处于句子中间位置,则利用配置的第一冠词的元音标注形式替换掉所述待处理阿语文本中所述冠词对应字符的元音标注结果;

若处于句首位置,则利用配置的第二冠词的元音标注形式替换掉所述待处理阿语文本中所述冠词对应字符的元音标注结果。

本申请实施例提供的阿拉伯语元音恢复装置可应用于阿拉伯语元音恢复设备,如终端:手机、电脑等。可选的,图5示出了阿拉伯语元音恢复设备的硬件结构框图,参照图5,阿拉伯语元音恢复设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取待处理阿语文本;

利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;

获取所述待处理阿语文本中每一字符的文本特征;

基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

获取待处理阿语文本;

利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;

获取所述待处理阿语文本中每一字符的文本特征;

基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述阿拉伯语元音恢复方法中的任意一种实现方式。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号