首页> 中国专利> 文本注音方法及装置、存储介质和电子设备

文本注音方法及装置、存储介质和电子设备

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明的实施方式提供了一种文本注音方法及装置、存储介质和电子设备。该文本注音方法包括：从文本文件中提取待注音文字，确定待注音文字对应的候选音；其中，候选音是由一个或多个注音字符组成的字符序列；如果候选音的数量大于1，则从人声音频中提取与待注音文字对应的人声音频片段；其中，人声音频与文本文件匹配；基于人声音频片段，计算每项候选音对应的字符序列与待注音文字的匹配概率；将匹配概率最大的候选音确定为待注音文字的标注音。本发明实施例的技术方案可以提高多音字注音的准确性。

著录项

公开/公告号CN113011127A

专利类型发明专利
公开/公告日2021-06-22

原文格式PDF
申请/专利权人杭州网易云音乐科技有限公司;
展开▼

申请/专利号CN202110172476.3
发明设计人金强;朱一闻;曹偲;刘华平;
展开▼

申请日2021-02-08
分类号G06F40/103(20200101);G06F40/58(20200101);G10L25/15(20130101);G10L25/18(20130101);G10L25/24(20130101);G10L25/30(20130101);
代理机构11438 北京律智知识产权代理有限公司;
代理人王辉;阚梓瑄
地址 310052 浙江省杭州市萧山区钱江世纪城奔竞大道353号杭州国际博览中心A座1201室
入库时间 2023-06-19 11:32:36

说明书

技术领域

本发明的实施方式涉及信息处理领域，更具体地，本发明的实施方式涉及文本注音方法、文本注音装置、存储介质和电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着外文歌曲受欢迎程度的增加，涌现了大批想要学唱外文歌曲的用户。为了便于用户学唱，可以对外文歌曲中的歌词标注罗马音，其发音与中文拼音类似；用户很容易根据标注的罗马音将外文歌曲的歌词发音拼读出来，进而达到学唱的目的。

现有的罗马音注音方法在对多音字进行音译的时候，通常需要使用一个预训练语言模型，利用上下文信息对多音字进行概率计算，从而确定多音字对应的罗马音。

发明内容

但是，在现有技术中，对于一些只有一两个词的极短歌词而言，往往缺少上下文信息，导致使用语言模型推导的结果准确性差。

为此，非常需要一种新的文本注音方法，以提高多音字注音的准确性。

在本上下文中，本发明的实施方式期望提供一种文本注音方法、文本注音装置、存储介质和电子设备。

在本发明实施方式的第一方面中，提供了一种文本注音方法，包括：从文本文件中提取待注音文字，确定所述待注音文字对应的候选音；其中，所述候选音是由一个或多个注音字符组成的字符序列；如果所述候选音的数量大于1，则从人声音频中提取与所述待注音文字对应的人声音频片段；其中，所述人声音频与所述文本文件匹配；基于所述人声音频片段，计算每项所述候选音对应的字符序列与所述待注音文字的匹配概率；将匹配概率最大的所述候选音确定为所述待注音文字的标注音。

在本发明的一些实施例中，基于所述人声音频片段，计算每项所述候选音对应的字符序列与所述待注音文字的匹配概率包括：计算所述人声音频片段对应的所有注音字符的排序概率；根据所述排序概率，计算每项所述候选音对应的所述字符序列的所述匹配概率。

在本发明的一些实施例中，根据所述排序概率，计算每项所述候选音对应的所述字符序列的所述匹配概率包括：确定所述候选音对应的全部所述注音字符在时间序列上的所有排列方式；从所述排序概率中获取所述排列方式中各个所述注音字符对应的概率；根据各个所述注音字符对应的概率确定所述候选音对应的所述字符序列的所述匹配概率。

在本发明的一些实施例中，所述注音字符包括发音字符和空白字符；确定所述候选音对应的全部所述注音字符在时间序列上的所有排列方式包括：确定所述空白字符及所述候选音对应的所述发音字符在时间序列上的所有排列方式。

在本发明的一些实施例中，根据各个所述注音字符对应的概率确定所述候选音对应的所述字符序列的所述匹配概率包括：将各个所述注音字符对应的概率相乘，得到所述排列方式对应的路径概率；将所有所述排列方式对应的所述路径概率相加，获得所述候选音对应的所述字符序列的所述匹配概率。

在本发明的一些实施例中，计算所述人声音频片段对应的所有注音字符的排序概率包括：将所述人声音频片段划分为多帧子音频，提取每帧所述子音频的声学特征；将多帧所述子音频的所述声学特征逐帧输入声学模型中，得到所述人声音频片段对应的所有注音字符的所述排序概率。

在本发明的一些实施例中，将所述人声音频片段划分为多帧子音频包括：根据预设窗长和预设步长，将所述人声音频片段划分为多帧所述子音频。

在本发明的一些实施例中，所述步长小于或等于所述窗长。

在本发明的一些实施例中，所述声学特征包括梅尔频率倒谱系数、基频特征和共振峰特征。

在本发明的一些实施例中，从所述人声音频中提取与所述待注音文字对应的人声音频片段包括：根据所述待注音文字在所述人声音频中的时间位置，从所述人声音频中分离所述待注音文字对应的所述人声音频片段。

在本发明的一些实施例中，还包括：如果所述候选音的数量等于1，则将所述候选音确定为所述待注音文字的标注音。

在本发明的一些实施例中，所述方法还包括：使用所述标注音对所述待注音文字进行标注。

在本发明的一些实施例中，确定所述待注音文字对应的候选音包括：从音译字典中确定所述待注音文字对应的候选音；其中，所述音译字典对应的语言与所述待注音文字对应的语言相同。

在本发明的一些实施例中，所述候选音为罗马音，所述音译字典包括所述语言的各文字和所述各文字对应的所述罗马音。

在本发明的一些实施例中，在从人声音频中提取与所述待注音文字对应的人声音频片段之前，所述方法还包括：从音频文件中分离人声音频。

在本发明的一些实施例中，从音频文件中分离人声音频包括：获取所述音频文件的频谱图，根据所述频谱图确定所述音频文件的相位图和人声语谱图；将所述人声语谱图和所述相位图作为人声的频域信号，对所述频域信号进行逆傅里叶变化得到时域的所述人声音频。

在本发明的一些实施例中，根据所述频谱图确定所述音频文件的相位图包括：对所述频谱图取相位获得所述相位图。

在本发明的一些实施例中，根据所述频谱图确定所述音频文件的人声语谱图包括：对所述频谱图取模得到所述音频文件的语谱图，根据所述语谱图获得人声掩膜；将所述人声掩膜和所述语谱图点乘得到人声语谱图。

在本发明的一些实施例中，根据所述语谱图获得人声掩膜包括：将所述语谱图输入到卷积神经网络中，获得所述人声掩膜。

在本发明的一些实施例中，获取所述音频文件的频谱图包括：将所述音频文件进行离散傅里叶变换获得所述频谱图。

在本发明实施方式的第二方面中，提供了一种文本注音装置，包括：候选音确定模块，用于从文本文件中提取待注音文字，确定所述待注音文字对应的候选音；其中，所述候选音是由一个或多个注音字符组成的注音字符序列；音频提取模块，用于如果所述候选音的数量大于1，则从人声音频中提取与所述待注音文字对应的人声音频片段；其中，所述人声音频与所述文本文件匹配；概率计算模块，用于基于所述人声音频片段，计算每项所述候选音对应的字符序列与所述待注音文字的匹配概率；标注音确定模块，用于将匹配概率最大的所述候选音确定为所述待注音文字的标注音。

在本发明实施方式的第三方面中，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一实施例所述的文本注音方法。

在本发明实施方式的第四方面中，提供了一种电子设备，包括：处理器；存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一实施例所述的文本注音方法。

根据本发明实施方式的文本注音方法、文本注音装置、存储介质和电子设备，一方面，通过将文本文件和音频文件结合来对待注音文字进行标注，提高了文本标注的转换成功率。另一方面，使用音频中的声学特征，来确定候选音对应的字符序列的匹配概率，将匹配概率最大的候选音确定为标注音，提高了多音字注音的准确性。再一方面，该文本注音方法不仅适用于常规音频文本的注音，还适用于歌词文本中的缺少上下文信息的极短歌词文本，或者是为了达到艺术效果而采用的词类误用的歌词文本的注音，从而扩大了文本注音方法的适用范围，提升了用户体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了根据本发明的示例性实施方式的文本注音方法的流程图；

图2示意性示出了根据本发明的示例性实施方式的多帧子音频划分示意图；

图3示意性示出了根据本发明的由人声音频片段对应的音频信号获得的声学特征图；

图4示意性示出了根据本发明的人声音频片段对应的注音字符概率矩阵；

图5示意性示出了根据本发明的示例性实施方式的文本注音方法的操作流程示意图；

图6示意性示出了根据本发明的示例性实施方式的文本注音装置的方框图；

图7示意性示出了根据本发明的示例性实施方式的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种文本注音方法及装置。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

本发明人发现，现有技术中，没有对外文歌曲中的多音字进行罗马音标注较好的方案，导致多音字标注的罗马音准确性差。

基于上述内容，本发明的基本思想在于：对于文本文件中的多音字，通过对文本文件对应的音频文件进行声学特征提取，通过声学特征获取每项候选音对应的字符序列的匹配概率，并根据匹配概率确定待注音文字的标注音。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

下面参考图1来描述根据本发明示例性实施方式的文本注音方法。

图1示意性地示出了根据本发明的示例性实施方式的文本注音方法的流程图。参考图1，根据本发明的示例性实施方式的文本注音方法可以包括以下步骤：

S12.从文本文件中提取待注音文字，确定待注音文字对应的候选音；其中，候选音是由一个或多个注音字符组成的字符序列。

文本文件可以是一首歌曲中的歌词文件，而该首歌曲可以是日文歌曲，也可以是韩文歌曲等歌曲，本发明的示例性实施方式的目的则是对这些歌曲中的歌词进行注音，例如罗马音标注，以便于用户根据注释音就可以对歌词进行拼读跟唱。

在确定待注音文字对应的候选音的过程中，可以从上述文本文件中按照顺序逐字读取文字，每读取到一个文字，就将该文字作为待注音文字；接着，可以从音译字典中确定该待注音文字对应的候选音。

其中，该音译字典对应的语言与待注音文字对应的语言相同，且该音译字典中至少包括属于该语言的各文字和各文字对应的标注音，例如，罗马音。

另外，罗马音是使用拉丁字母来表示日语或者韩语发音的一种表示法，是母语不是日语或者韩语的人在学习日语或者韩语的时候使用的国际音标，可以帮助人们在学习日语或者韩语的时候能更好的掌握发音，更轻松的学习，与汉语拼音职能相似。

以音译字典为日语罗马音字典为例，如表1所示，该日语罗马音字典包含所有日语字符，和每个日语字符所有可能的罗马音，这所有可能的罗马音就是该日语字符的候选音。

表1

由表1可见，日语“な”字对应的候选音即是由注音字符n和a组成的字符序列na，日语“公”字对应的候选音则有3个。

需要说明的是，本发明示例性实施方式的文本注音方法不仅适用于罗马音的标注，还适用于其他的音译标注中，例如，汉语拼音等。

S14.如果候选音的数量大于1，则从人声音频中提取与待注音文字对应的人声音频片段；其中，人声音频与文本文件匹配。

在初步通过音译字典确定待注音文字对应的候选音的过程中，如果该待注音文字的候选音的数量等于1，那么直接将该一个候选音确定为该待注音文字的标注音，并使用该标注音对该待注音文字进行标注，从而完成该待注音文字的注音过程。

然而，如果该待注音文字的候选音的数量大于1，则需要从音频文件中分离出人声音频，该人声音频需要与文本文件匹配，以便于从该人声音频中提取出与待注音文字对应的人声音频片段，也就是待注音文字所在的人声音频片段。其中，音频文件可以是歌曲的音频文件，也可以是其他带有人声的音频文件，本示例性实施方式对此不作限定。

在实际应用中，音频文件通常包括人声音频和伴奏音频，本发明的示例性实施方式需要将人声音频和伴奏音频分离，以获得人声音频。从音频文件中分离人声音频的方式有多种，例如，可以利用立体声音乐的特性，采用左、右声道相互抵消的原理进行分离。或者，利用音频文件的频域特征进行分离等，任何可以实现人声音频分离的方案均落入本发明的示例性实施方式的保护范围之内。

在本发明的示例性实施方式中，以利用音频文件的频域特征进行分离的方法为例进行说明：首先，将音频文件进行离散傅里叶变换获得频谱图，再根据频谱图确定音频文件的相位图和人声语谱图；其中，相位图是对频谱图取相位而获得，人声语谱图的具体获得过程是：对频谱图取模得到音频文件的语谱图，再将语谱图输入到卷积神经网络中获得人声掩膜，将人声掩膜和语谱图点乘后得到人声语谱图。其次，将获得的人声语谱图和相位图作为人声的频域信号，对频域信号进行逆傅里叶变化从而得到所需要的时域的人声音频。

在本发明的示例性实施方式中，在从音频文件中分离出人声音频之后，需要从人声音频中提取与待注音文字对应的人声音频片段。

具体的，从人声音频中提取人声音频片段可以包括：根据待注音文字在人声音频中的时间位置，从人声音频中分离待注音文字对应的人声音频片段。

在实际应用中，为了便于在播放器上跟随音频的播放展示歌词，歌曲的文本文件中通常都带有歌词时间信息。常见的歌词类型有逐字歌词和逐行歌词，其中，逐字歌词的文本形式如下：

[st,d]这(st1,d1)是(st2,d2)一(st3,d3)个(st4,d4)例(st5,d5)子(st6,d6)

[st,d]仅(st1,d1)供(st2,d2)参(st3,d3)考(st4,d4)

其中，st表示起始时间，d表示持续时间，方括号里表示的是整个句子的起始时间，圆括号里表示的是单个字的起始时间，如上述例子所示的逐字歌词的文本形式可见，逐字歌词可以轻易的得到每个文本字符的起始时间，即可以很容易地获得待注音文字所在的时间位置，进而可以根据该时间位置获得准确的人声音音频片段。

而逐行歌词的文本形式则如下所示：

[mm:ss.xxx]这是一个例子

[mm:ss.xxx]仅供参考

从上述例子可见，这类歌词通常只有每句歌词的起始时间，需要将逐行歌词转换为逐字歌词，以便于获取待注音文字所在的时间位置。

在实际应用中，将逐行歌词转换为逐字歌词的方法有多种，例如，使用语音识别技术中的强制对齐技术，对分离后的人声音频和文本字符进行对齐处理，以获得每个文本字符对应的时间信息。本发明的示例性实施方式对于具体的逐行歌词转换为逐字歌词的方法不作特殊限定。

S16.基于人声音频片段，计算每项候选音对应的字符序列与待注音文字的匹配概率。

对于一个待注音文字而言，无论是标注罗马音，还是标注汉语拼音，该待注音文字对应的候选音通常是由一个或多个注音字符组成的字符序列。

在本发明的示例性实施方式中，需要首先计算上述人声音频片段所对应的所有注音字符的排序概率，其中，所有注音字符指的是标注音中的所有发音字符和空白字符，例如，发音字符指的是罗马音中的所有拉丁字母，或者汉语拼音中的26个字母。然后，根据上述排序概率，计算每项候选音对应的字符序列与待注音文字的匹配概率。

具体的，在计算人声音频片段所对应的所有注音字符的排序概率的过程包括：先将该人声音频片段划分为多帧子音频，具体在划分过程中，参照图2所示，可以根据预设窗长L和预设步长D，将人声音频片段划分为多帧子音频，例如，第i帧音频、第i+1帧音频等T帧子音频。其中，预设步长D小于或等于预设窗长L。

在获得多帧子音频后，提取每帧子音频的声学特征，其中，声学特征是指表示语音声学特性的物理量，也是声音诸要素声学表现的统称。包括表示音色的能量集中区、梅尔频率倒谱系数、基频特征、共振峰特征，以及表示语音韵律特性的时长、基频、平均语声功率等多种。本示例性实施方式对于具体的声学特征不作特殊限定。

参照图3，示出了由人声音频片段对应的音频信号获得的一个N*T维的声学特征图301，其中的N代表N个声学特征，可以根据实际情况确定N的个数，例如，N＝40，本示例性实施方式对此不作特殊限定。另外，图3中的一个小方框代表一帧子音频302，总共有T帧子音频302。

在获得每帧子音频的声学特征之后，需要将多帧子音频的声学特征逐帧输入声学模型中，得到人声音频片段对应的所有注音字符的排序概率。参照图4，示出了该人声音频片段对应的M*T维的注音字符概率矩阵401。其中的M指的是所有注音字符的个数，例如，M为27，包括所有发音字符和空白字符。该注音字符概率矩阵401中包括每帧子音频302对应的所有注音字符的匹配概率，也就是获得了人声音频片段对应的所有注音字符的排序概率。其中，图4中的空代表空白字符、a、i、u、e、o…代表发音字符。

在获得人声音频片段对应的所有注音字符的排序概率之后，可以根据该排序概率，计算每项候选音对应的字符序列与待注音文字的匹配概率。假设待注音文字有{E

具体的，计算每项候选音对应的字符序列与待注音文字的匹配概率可以包括：先确定每项候选音对应的全部注音字符在时间序列上的所有排列方式，包括空白字符及候选音对应的发音字符在时间序列上的所有排列方式。假设候选音E

从上述排序概率中获取所有排列方式中各个注音字符对应的概率；例如，可以从排序概率中获取C

根据上述各个注音字符对应的概率确定候选音对应的字符序列的匹配概率。具体的，可以将各个注音字符对应的概率相乘，得到排列方式对应的路径概率。还是以候选音E

P(_C

P(C

将所有上述排列方式对应的路径概率相加，即可获得候选音对应的字符序列的匹配概率。即候选音E

P(E

以同样的方式，可以求出候选音E

S18.将匹配概率最大的候选音确定为待注音文字的标注音。

从上述计算出的匹配概率P(E

下面结合图5对本发明示例性实施方式的文本注音方法的操作流程进行说明：

在步骤S501中，从文本文件中提取待注音文字；在步骤S502中，确定待注音文字对应的候选音；在步骤S503中，进入判断条件，即判断候选音的数量；如果候选音的数量为1，则执行步骤S504，确定该候选音为待注音文字的标注音，并使用该标注音对待注音文字进行标注；如果候选音的数量大于1，则执行步骤S505，分离人声音频；在步骤S506中，从人声音频中，提取待注音文字对应的人声音频片段；在步骤S507中，将上述人声音频片段划分为多帧子音频；在步骤S508中，提取每帧子音频的声学特征；在步骤S509中，将多帧子音频的声学特征逐帧输入声学模型中，获取人声音频片段对应的所有注音字符的排序概率；在步骤S510中，在获得人声音频片段对应的所有注音字符的排序概率之后，可以先确定每项候选音对应的全部注音字符在时间序列上的所有排列方式；在步骤S511中，从排序概率中获取所有排列方式中各个注音字符对应的概率；在步骤S512中，根据上述各个注音字符对应的概率，确定每项候选音对应的字符序列的匹配概率；在步骤S513中，将匹配概率最大的候选音确定为待注音文字的标注音；在步骤S514中，使用标注音对待注音文字进行标注。

下面，以歌词文本中具体的词为例，对本发明示例性实施方式提供的文本注音方法的具体操作过程进行举例说明：

以日语歌曲《PLANET》中的歌词“君と話そうか”为例，从该文本文件中提取的第一个待注音文字为“君”，查音译字典后得到对应的候选音有“kunn”和“kimi”两个，M等于2，需要做进一步判断。对《PLANET》歌曲音频文件进行分离，得到人声音频。根据《PLANET》的逐字歌词信息得到“君”对应歌曲的片段时间是00:15:88至00:16:76，截取到对应的人声音频片段。基于该人声音频片段，计算得到对应的注音字符概率矩阵，并计算得到候选音“kunn”对应的字符序列的匹配概率为P(kunn)＝0.01，候选音“kimi”对应的字符序列的匹配概率为P(kimi)＝0.80，P(kimi)较大，所以记“君”的标注音为“kimi”，使用“kimi”对“君”进行标注。

继续提取第二个待注音文字为“と”，查音译字典后得到对应的候选音只有“to”，M等于1，所以直接记录“と”的标注音是“to”。

继续提取第三个待注音文字为“話”，查音译字典后得到对应的候选音只有“hanashi”，M等于1，所以直接记录“話”的标注音是“hanashi”。

继续提取第四个待注音文字为“そ”，查音译字典后得到对应的候选音只有“so”，M等于1，所以直接记录“そ”的标注音是“so”。

继续提取第五个待注音文字为“う”，查音译字典后得到对应的候选音只有“u”，M等于1，所以直接记录“う”的标注音是“u”。

继续提取第六个待注音文字为“か”，查音译字典后得到对应的候选音只有“ka”，M等于1，所以直接记录“か”的标注音是“ka”。

所以，最终歌词“君と話そうか”对应的日语罗马音歌词是“kimi-to-hanashi-so-u-ka”。

本发明上述实施例的技术方案以文本文件和音频文件为基础，特别对于待注音文字中的多音字的注音而言，通过从音频文件中分离人声音频，并将待注音文字对应的人声音频片段划分为多帧子音频；根据每帧子音频的声学特征，获取人声音频片段对应的所有注音字符的排序概率；根据排序概率，确定出了每项候选音对应的字符序列的匹配概率；从而将匹配概率最大的候选音确定为待注音文字的标注音。一方面，通过将文本文件和音频文件结合来对待注音文字进行标注，提高了文本标注的转换成功率。另一方面，使用音频中的声学特征，来确定候选音对应的字符序列的匹配概率，将匹配概率最大的候选音确定为标注音，从而增大了候选音识别的准确率。再一方面，该文本注音方法不仅适用于常规音频文本的注音，还适用于歌词文本中的缺少上下文信息的极短歌词文本，或者是为了达到艺术效果而采用的词类误用的歌词文本的注音，从而扩大了文本注音方法的适用范围，提升了用户体验。

在介绍了本发明示例性实施方式的文本注音方法之后，接下来，参考图6对本发明示例性实施方式的文本注音装置进行描述。

参考图6，根据本发明的示例性实施方式的文本注音装置6可以包括候选音确定模块61、音频提取模块63、概率计算模块65和标注音确定模块67。

具体的，候选音确定模块61可以用于从文本文件中提取待注音文字，确定待注音文字对应的候选音；其中，候选音是由一个或多个注音字符组成的注音字符序列；音频提取模块63可以用于如果候选音的数量大于1，则从人声音频中提取与待注音文字对应的人声音频片段；其中，人声音频与文本文件匹配；概率计算模块65可以用于基于人声音频片段，计算每项候选音对应的字符序列与待注音文字的匹配概率；标注音确定模块67可以用于将匹配概率最大的候选音确定为待注音文字的标注音。

在本发明的一些实施例中，概率计算模块65可以用于将人声音频片段划分为多帧子音频，提取每帧子音频的声学特征；将多帧子音频的声学特征逐帧输入声学模型中，得到人声音频片段对应的所有注音字符的排序概率；确定候选音对应的全部注音字符在时间序列上的所有排列方式；从排序概率中获取排列方式中各个注音字符对应的概率；根据各个注音字符对应的概率确定候选音对应的字符序列的匹配概率。

由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

在介绍了本发明示例性实施方式的文本注音方法、文本注音装置之后，接下来，将对本发明的示例性实施方式的电子设备进行描述。其中，本发明的示例性实施方式的电子设备包括上述文本注音装置之一。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“方法”部分中描述的根据本发明各种示例性实施方式的文本注音方法中的步骤。例如，所述处理单元可以执行如图1所述的步骤12至步骤18。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的步骤S12：从文本文件中提取待注音文字，确定待注音文字对应的候选音；其中，候选音是由一个或多个注音字符组成的字符序列；步骤S14：如果候选音的数量大于1，则从人声音频中提取与待注音文字对应的人声音频片段；其中，人声音频与文本文件匹配；步骤S16：基于人声音频片段，计算每项候选音对应的字符序列与待注音文字的匹配概率；步骤S18：将匹配概率最大的候选音确定为待注音文字的标注音。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备770(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“方法”部分中描述的根据本发明各种示例性实施方式的文本注音方法中的步骤，例如，所述终端设备可以执行如图1所述的步骤12至步骤18。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光盘、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。另外，随着技术的发展，可读存储介质也应进行相应解读。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了文本注音装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 文本注音方法及装置、存储介质和电子设备 [P] . 中国专利： CN113011127A . 2021-06-22
2. 文本注音方法、电子设备及存储介质 [P] . 中国专利： CN112818089A . 2021-05-18
3. Text generation method based on semantic expression, text generating apparatus based on semantic representation, electronic apparatus, non-temporary computer readable storage medium, and computer program [P] . JP2021117985A . 2021-08-10

机译：基于语义表达的文本生成方法，基于语义表示，电子设备，非临时计算机可读存储介质和计算机程序的文本生成装置
4. Broadcast text determination method, broadcast text determination device, electronic apparatus, storage medium, and computer program [P] . JP2021131572A . 2021-09-09

机译：广播文本确定方法，广播文本确定设备，电子设备，存储介质和计算机程序
5. storage media, apparatus for playing multimedia image data and text-based subtitle data recorded in a storage media for displaying subtitles in an image based on multimedia image data, method of reproducing image data from multi-media and text-based subtitle data recorded on a storage media for displaying subtitles on an image based on multimedia image data, computer readable media, and presentation graphics decoder [P] . BRPI0507878A . 2007-07-24

机译：存储介质，用于播放记录在存储介质中的多媒体图像数据和基于文本的字幕数据以基于多媒体图像数据在图像中显示字幕的装置，从多媒体和记录在屏幕上的基于文本的字幕数据再现图像数据的方法用于基于多媒体图像数据在图像上显示字幕的存储介质，计算机可读介质和演示图形解码器