首页> 中国专利> 一种音频数据生成方法、音频数据转写方法及其装置

一种音频数据生成方法、音频数据转写方法及其装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请公开了一种音频数据生成方法、音频数据转写方法及其装置，该生成方法包括：先获取待处理音频数据和该待处理音频数据的身份信息，再根据该待处理音频数据和该待处理音频数据的身份信息生成目标音频数据，以使该目标音频数据携带有该待处理音频数据和该待处理音频数据的身份信息。其中，因目标音频数据携带有身份信息，使得后续转写设备能够依据该目标音频数据携带的身份信息来确定该目标音频数据为合法音频数据，如此能够在转写设备中实现音频数据的合法性筛选，从而能够实现转写设备只需转写合法音频数据即可，无需转写非法音频数据，使得转写设备能够及时地对合法音频数据进行转写，如此能够提高该转写设备对合法音频数据的转写实时性。

著录项

公开/公告号CN112837690A

专利类型发明专利
公开/公告日2021-05-25

原文格式PDF
申请/专利权人科大讯飞股份有限公司;
展开▼

申请/专利号CN202011622002.6
发明设计人许凌;李明;陶飞;
展开▼

申请日2020-12-30
分类号G10L15/26(20060101);G10L15/28(20130101);G10L15/30(20130101);H04L29/06(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人冯柳伟
地址 230088 安徽省合肥市高新区望江西路666号
入库时间 2023-06-19 11:05:16

说明书

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频数据生成方法、音频数据转写方法及其装置。

背景技术

目前，可以利用录音设备(如录音笔)在录音应用场景(如，会议、访谈、课程培训等场景)中收录音频数据，以便后续由转写设备将该音频数据转换成文字，以使用户可以通过该文字了解到该音频数据中记录的音频信息。其中，音频转写是指将音频中记录的音频信息转换成文字。

然而，因转写设备中等待转写的音频数据通常比较多，导致具有有限转写能力的转写设备的负载过重，从而导致转写设备的转写实时性较低。

发明内容

本申请实施例的主要目的在于提供一种音频数据生成方法、音频数据转写方法及其装置，能够实现音频数据的合法性筛选，从而能够提高转写设备的转写实时性。

本申请实施例提供了一种音频数据生成方法，所述方法包括：

获取待处理音频数据和所述待处理音频数据的身份信息；

根据所述待处理音频数据和所述待处理音频数据的身份信息，生成目标音频数据，以使所述目标音频数据携带有所述待处理音频数据和所述待处理音频数据的身份信息。

可选的，当所述待处理音频数据包括N个第一音频数据，且所述待处理音频数据的身份信息包括N个第一音频数据的身份信息时，所述根据所述待处理音频数据和所述待处理音频数据的身份信息，生成目标音频数据，包括：

根据所述第i个第一音频数据和所述第i个第一音频数据的身份信息，生成第i个第二音频数据，以使所述第i个第二音频数据携带有所述第i个第一音频数据和所述第i个第一音频数据的身份信息；其中，i为正整数，i≤N，N为正整数；

根据第1个第二音频数据至第N个第二音频数据，得到目标音频数据。

可选的，所述根据所述第i个第一音频数据和所述第i个第一音频数据的身份信息，生成第i个第二音频数据，包括：

将所述第i个第一音频数据的身份信息添加至所述第i个第一音频数据的预设位置上，得到第i个第二音频数据。

可选的，若待处理音频数据的个数为T，则所述方法还包括：

根据T个待处理音频数据对应的用户身份标识和所述T个待处理音频数据对应的产品序列号，生成所述T个待处理音频数据对应的音频基础身份信息；

所述获取待处理音频数据的身份信息，包括：

根据所述T个待处理音频数据对应的音频基础身份信息，确定第1个待处理音频数据的身份信息；

根据第t个待处理音频数据和所述第t个待处理音频数据的身份信息，生成第t+1个待处理音频数据的身份信息；其中，所述第t个待处理音频数据对应的收录时间早于所述第t+1个待处理音频数据对应的收录时间；t为正整数，t≤T-1，T为正整数。

可选的，所述根据所述第t个待处理音频数据和所述第t个待处理音频数据的身份信息，生成所述第t+1个待处理音频数据的身份信息，包括：

根据所述第t个待处理音频数据，生成第一更新规则；

将所述第t个待处理音频数据的身份信息按照所述第一更新规则进行更新，得到所述第t+1个待处理音频数据的身份信息。

可选的，当所述第t个待处理音频数据包括N

将所述N

可选的，所述获取所述待处理音频数据，包括：

获取原始音频数据；

对所述原始音频数据进行加密，得到所述待处理音频数据。

本申请实施例还提供了一种音频数据转写方法，所述方法包括：

获取待转写音频数据；其中，所述待转写音频数据是利用本申请实施例提供的音频数据生成方法的任一实施方式生成的目标音频数据；

从所述待转写音频数据中提取出所述待转写音频数据对应的实际身份信息；

根据所述待转写音频数据对应的实际身份信息，确定所述待转写音频数据是否为合法音频数据；

在确定所述待转写音频数据为合法音频数据时，对所述待转写音频数据进行转写处理，得到所述待转写音频数据对应的文字。

在一种可能的实施方式中，若所述待转写音频数据包括N个第二音频数据，则所述从所述待转写音频数据中提取出所述待转写音频数据对应的实际身份信息，包括：

从所述第k个第二音频数据中提取所述第k个第二音频数据对应的实际身份信息；其中，k为正整数，k≤N，N为正整数；

根据第1个第二音频数据对应的实际身份信息至第N个第二音频数据对应的实际身份信息，生成所述待转写音频数据对应的实际身份信息。

在一种可能的实施方式中，所述方法还包括：

获取所述待转写音频数据对应的理论身份信息；

所述根据所述待转写音频数据对应的实际身份信息，确定所述待转写音频数据是否为合法音频数据，包括：

将所述待转写音频数据对应的实际身份信息和所述待转写音频数据对应的理论身份信息进行匹配，得到所述待转写音频数据对应的身份匹配结果；

根据所述待转写音频数据对应的身份匹配结果，确定所述待转写音频数据是否为合法音频数据。

在一种可能的实施方式中，若所述待转写音频数据的个数为M，则所述获取所述待转写音频数据对应的理论身份信息，包括：

根据第m个待转写音频数据和所述第m个待转写音频数据对应的理论身份信息，生成第m+1个待转写音频数据对应的理论身份信息；其中，m为正整数，m≤M-1，M为正整数；所述第m个待转写音频数据对应的收录时间早于所述第m+1个待转写音频数据对应的收录时间；第1个待转写音频数据对应的理论身份信息是根据M个待转写音频数据对应的音频基础身份信息确定的。

在一种可能的实施方式中，所述根据第m个待转写音频数据和所述第m个待转写音频数据对应的理论身份信息，生成第m+1个待转写音频数据对应的理论身份信息，包括：

根据第m个待转写音频数据，生成第二更新规则；

将所述第m个待转写音频数据对应的理论身份信息按照所述第二更新规则进行更新，得到第m+1个待转写音频数据对应的理论身份信息。

在一种可能的实施方式中，当第m个待转写音频数据包括N

将所述N

在一种可能的实施方式中，若所述待转写音频数据的个数为M，则所述将所述待转写音频数据对应的实际身份信息和所述待转写音频数据对应的理论身份信息进行匹配，得到所述待转写音频数据对应的身份匹配结果，包括：

将第r个待转写音频数据对应的实际身份信息和第r个待转写音频数据对应的理论身份信息进行匹配，得到第r个待转写音频数据对应的身份匹配结果；其中，r为正整数，r≤M，M为正整数；

所述根据所述待转写音频数据对应的身份匹配结果，确定所述待转写音频数据是否为合法音频数据，包括：

若M个待转写音频数据对应的身份匹配结果均表示匹配成功，则确定所述M个待转写音频数据是合法音频数据；

若所述M个待转写音频数据对应的身份匹配结果中存在至少一个表示匹配失败，则确定所述M个待转写音频数据为非法音频数据。

在一种可能的实施方式中，所述对所述待转写音频数据进行转写处理，得到所述待转写音频数据对应的文字，包括：

从所述待转写音频数据中提取所述待转写音频数据对应的待解密音频数据；

将所述待转写音频数据对应的待解密音频数据进行解密，得到所述待转写音频数据对应的解密音频数据；

将所述待转写音频数据对应的解密音频数据，得到所述待转写音频数据对应的文字。

本申请实施例还提供了一种音频数据生成装置，所述装置包括：

第一获取单元，用于获取待处理音频数据和所述待处理音频数据的身份信息；

数据生成单元，用于根据所述待处理音频数据和所述待处理音频数据的身份信息，生成目标音频数据，以使所述目标音频数据携带有所述待处理音频数据和所述待处理音频数据的身份信息。

本申请实施例还提供了一种音频数据转写装置，所述装置包括：

第二获取单元，用于获取待转写音频数据；其中，所述待转写音频数据是利用本申请实施例提供的音频数据生成方法的任一实施方式生成的目标音频数据；

信息提取单元，用于从所述待转写音频数据中提取出所述待转写音频数据对应的实际身份信息；

合法性确定单元，用于根据所述待转写音频数据对应的实际身份信息，确定所述待转写音频数据是否为合法音频数据；

音频转写单元，用于在确定所述待转写音频数据为合法音频数据时，对所述待转写音频数据进行转写处理，得到所述待转写音频数据对应的文字。

基于上述技术方案，本申请具有以下有益效果：

本申请提供的音频数据生成方法中，先获取待处理音频数据和该待处理音频数据的身份信息，再根据该待处理音频数据和该待处理音频数据的身份信息生成目标音频数据，以使该目标音频数据携带有该待处理音频数据和该待处理音频数据的身份信息。其中，因目标音频数据携带有身份信息，使得该身份信息能够表征该目标音频数据所携带的音频信息是合法的，从而使得后续转写设备能够依据该目标音频数据携带的身份信息来确定该目标音频数据为合法音频数据，如此能够在转写设备中实现音频数据的合法性筛选，从而能够实现该转写设备只需对合法音频数据进行转写即可，无需对非法音频数据进行转写，如此能够节省转写设备转写非法音频数据所消耗的时间，从而使得转写设备能够及时地对合法音频数据进行转写，如此能够提高该转写设备的转写实时性，尤其是提高该转写设备对合法音频数据的转写实时性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的应用于终端设备的音频数据生成方法的应用场景示意图；

图2为本申请实施例提供的应用于服务器的音频数据生成方法的应用场景示意图；

图3为本申请实施例提供的一种音频数据生成方法的流程图；

图4为本申请实施例提供的待存储音频和待处理音频数据的示意图；

图5为本申请实施例提供的T个待处理音频数据的身份信息的生成示意图；

图6为本申请实施例提供的第一音频数据的预设位置示意图；

图7为本申请实施例提供的第二音频数据示意图；

图8为本申请实施例提供的目标音频数据示意图；

图9为本申请实施例提供的一种音频数据转写方法的流程图；

图10为本申请实施例提供的待转写音频数据对应的实际身份信息的生成示意图；

图11为本申请实施例提供的一种应用场景示意图；

图12为本申请实施例提供的一种在录音笔中生成并存储音频数据的流程图；

图13为本申请实施例提供的音频数据生成装置的结构示意图；

图14为本申请实施例提供的音频数据转写装置的结构示意图。

具体实施方式

为了便于理解本申请实施例提供的技术方案，下面对一些技术名词进行介绍。

录音设备是指具有音频录制功能的终端设备。另外，本申请实施例不限定录音设备，例如，录音设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑或者录音笔等。

转写设备是指具有将音频转写成文字功能的设备。另外，本申请实施例不限定转写设备，例如，转写设备可以是服务器，也可以是终端设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑或者录音笔等。

音频采样点是指在录音过程中由录音设备直接收录的一帧音频。

音频信息是指在音频中记录的声音信息。例如，一个音频采样点的音频信息可以指该音频采样点中记录的声音信息。

合法音频数据是指携带有由合法录音设备收录的音频信息的音频数据；而且该合法录音设备具有转写设备授予的转写权限。

非法音频数据是指携带有由非法录音设备收录的音频信息的音频数据；而且该非法录音设备不具有转写设备授予的转写权限。

发明人在对音频转写的研究中发现，对于转写设备(如，转写服务器或者转写终端等)来说，在转写设备接收到音频数据之后，该转写设备不会区分该音频数据是否为合法音频数据，而是直接将该音频数据进行转写，使得该转写设备不仅需要对合法音频数据进行转写，还需要对非法音频数据进行转写，如此导致该转写设备需要浪费大量的时间对非法音频数据进行转写，从而导致转写能力有限的转写设备无法及时地对合法音频数据进行转写，从而导致该转写设备对合法音频数据的转写实时性较低。

为了解决上述技术问题，本申请实施例提供了一种音频数据生成方法，该方法包括：先获取待处理音频数据和该待处理音频数据的身份信息，再根据该待处理音频数据和该待处理音频数据的身份信息生成目标音频数据，以使该目标音频数据携带有该待处理音频数据和该待处理音频数据的身份信息。

可见，因目标音频数据携带有身份信息，使得该身份信息能够表征该目标音频数据所携带的音频信息是合法的，从而使得后续转写设备能够依据该目标音频数据携带的身份信息来确定该目标音频数据为合法音频数据，如此能够在转写设备中实现音频数据的合法性筛选，从而能够实现该转写设备只需对合法音频数据进行转写即可，无需对非法音频数据进行转写，如此能够节省转写设备转写非法音频数据所消耗的时间，从而使得转写设备能够及时地对合法音频数据进行转写，如此能够提高该转写设备的转写实时性，尤其是提高该转写设备对合法音频数据的转写实时性。

另外，本申请实施例不限定音频数据生成方法的执行主体，例如，本申请实施例提供的音频数据生成方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑或者录音笔等。服务器可以为独立服务器、集群服务器或云服务器。

为了便于理解本申请实施例提供的技术方案，下面分别结合图1和图2对本申请实施例提供的音频数据生成方法的应用场景进行示例性介绍。其中，图1为本申请实施例提供的应用于终端设备的音频数据生成方法的应用场景示意图；图2为本申请实施例提供的应用于服务器的音频数据生成方法的应用场景示意图。

在图1所示的应用场景中，当用户101在终端设备102上触发音频录制请求时，终端设备102接收该音频录制请求，收录待存储音频并根据该待存储音频得到待处理音频数据和该待处理音频数据的身份信息，再根据该待处理音频数据和该待处理音频数据的身份信息生成目标音频数据，以使该目标音频数据携带有该待处理音频数据和该待处理音频数据的身份信息，最终可以将该目标音频数据作为该待存储音频对应的音频存储数据进行存储以及显示。

在图2所示的应用场景中，当用户201在终端设备202上触发音频录制请求时，终端设备202接收该音频录制请求，收录待存储音频并将该待存储音频发送给服务器203，以使服务器203可以先根据该待存储音频得到待处理音频数据和该待处理音频数据的身份信息，再根据该待处理音频数据和该待处理音频数据的身份信息生成目标音频数据，以使该目标音频数据携带有该待处理音频数据和该待处理音频数据的身份信息，最终可以将该目标音频数据作为该待存储音频对应的存储数据发送给终端设备202，以使该终端设备202对该待存储音频对应的存储数据进行存储以及显示。

需要说明的是，本申请实施例提供的音频数据生成方法不仅能够应用于图1或图2所示的应用场景中，还可以应用于其他需要进行音频数据生成的应用场景中，本申请实施例对此不做具体限定。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图3，该图为本申请实施例提供的一种音频数据生成方法的流程图。

本申请实施例提供的音频数据生成方法，包括S301-S303：

S301：获取待处理音频数据。

待处理音频数据携带有录音设备收录的音频信息。

在一些情况下，待处理音频数据可以包括至少一个第一音频数据，而且第一音频数据可以包括至少一个音频采样数据。需要说明的是，本申请实施例不限定音频采样数据，例如，一个音频采样数据可以是指一个音频采样点，也可以是指一个经过加密处理后的音频采样点。另外，本申请实施例也不限定第一音频数据中音频采样数据的个数，例如，第一音频数据可以包括128个音频采样数据。此外，上述“加密处理”也就是下文S3012中的“加密处理”。

在一些情况下，待处理音频数据可以根据录音设备收录的待存储音频生成。其中，待存储音频是指当使用者在录音设备上触发录音请求之后由该录音设备直接收录的音频。

另外，本申请实施例不限定待处理音频数据的生成方式(也就是S301的实施方式)，为了便于理解，下面结合两种可能的实施方式进行说明。

在第一种可能的实施方式中，S301具体可以为：从待存储音频中提取至少一个待处理音频数据。

需要说明的是，本申请实施例不限定待处理音频数据的提取过程，为了便于理解，下面结合两种情况进行说明。

情况1，可以在待存储音频的收录过程中进行待处理音频数据的提取，其具体可以为：在待存储音频的收录过程中，每当采集到预设数目音频采样点时，可以直接根据该预设数目的音频采样点，生成一个待处理音频数据。

其中，预设数目是指预先设定的，而且本申请实施例不限定预设数目。例如，预设数目可以为1280。

作为示例，当待存储音频包括1280×T个音频采样点；第w个音频采样点的收录时间早于第w+1个音频采样点的收录时间，w为正整数，w+1≤1280×T；且预设数目为1280时，S301具体可以为：在待存储音频的收录过程中，当收录到第1280个音频采样点时，根据第1个音频采样点至第1280个音频采样点，生成第1个待处理音频数据；当收录到2560个音频采样点时，根据第1281个音频采样点至第2560个音频采样点，生成第2个待处理音频数据；……(依次类推)；当收录到1280×T个音频采样点时，根据第1280×(T-1)+1个音频采样点至第1280×T个音频采样点，生成第T个待处理音频数据。

需要说明的是，本申请实施例不限定上述第j个待处理音频数据的生成方式，例如，可以直接将第1280×(j-1)+1个音频采样点至第1280×j个音频采样点的集合，确定为第j个待处理音频数据。又如，还可以先将第1280×(j-1)+1个音频采样点至第1280×j个音频采样点平均划分成10组，得到10个第一音频数据，以使各个第一音频数据均包括收录时间相邻的128个音频采样点；再将该10个第一音频数据的集合，确定为第j个待处理音频数据(如图4所示的第1个待处理音频数据至第T个待处理音频数据)。其中，j为正整数，j≤T。

基于上述情况1的相关内容可知，在一些情况下，可以边收录待存储音频边提取该待存储音频对应的待处理音频数据，如此有利于实现待存储音频的收录过程以及数据处理过程能够并行处理，如此有利于提高音频数据的生成效率。

情况2，可以在收录完待存储音频之后再从该待存储音频中提取待处理音频数据，其具体可以为：在获取到待存储音频之后，将该存储音频按照第一划分规则进行切分，得到至少一个待处理音频数据。

其中，第一划分规则为预先设定的音频切分规则；而且，本申请实施例不限定第一划分规则。为了便于理解第一划分规则，下面结合示例进行说明。

作为示例，当待存储音频包括1280×T个音频采样点；第w个音频采样点的收录时间早于第w+1个音频采样点的收录时间，w为正整数，w+1≤1280×T；每个待处理音频数据均包括10个第一音频数据，且每个第一音频数据均包括128个音频采样点时，S301具体可以为：先将待存储音频以128个音频采样点作为一个划分单元进行初次划分，得到按照收录时间进行排序(如，从高到低排序或者从低到高排序)的10×T个第一音频数据；再将该10×T个第一音频数据以10个第一音频数据作为一个划分单元进行再次划分，得到T个待处理音频数据(如图4所示)。

基于上述情况2的相关内容可知，在一些情况下，可以通过音频划分的方式从已经收录完成的待存储音频中提取待处理音频数据，以使待存储音频的收录过程与待存储音频的处理过程分离，从而使得可以在收录好待存储音频之后的任一时刻针对该待存储音频进行数据处理，如此有利于提高待存储音频的数据处理过程的便利性。

基于上述S301的第一种可能的实施方式的相关内容可知，在一些情况下，可以从待存储音频中直接提取待处理音频数据，以使提取得到的待处理音频数据能够准确地携带有待存储音频中记录的音频信息。

在一些情况下，为了提高待存储音频的存储安全性，可以对待存储音频携带的音频信息进行加密。基于此，本申请实施例还提供了S301的第二种可能的实施方式，其具体包括S3011-S3012：

S3011：获取原始音频数据。

其中，原始音频数据是指从待存储音频中直接提取到的音频数据。

需要说明的是，原始音频数据的提取过程类似于上文提供的S301的第一种可能的实施方式中的提取过程，相关内容请参见上文S301的第一种可能的实施方式。

S3012：对原始音频数据进行加密，得到待处理音频数据。

本申请实施例可以利用预设加密算法对该原始音频数据进行加密处理，并将加密后的原始音频数据确定为待处理音频数据，如此有利于提高待存储音频的存储安全性。

另外，在一些情况下，还可以利用预设加密算法对该原始音频数据进行加密处理，以使加密后的原始音频数据的数据量远远小于原始音频数据，从而使得在将加密后的原始音频数据确定为待处理音频数据之后，该待处理音频数据的数据量也远远小于原始音频数据，如此有利于降低待存储音频的存储空间需求。

需要说明的是，本申请实施例不限定预设加密算法，预设加密算法可以根据应用场景设定。在一种可能的实施方式下，预设加密算法可以为子带编码(Sub-band coding，sbc)、高级音频编码(Advanced Audio Coding，AAC)等等。

作为示例，当原始音频数据包括128个音频采样点，且预设加密算法为sbc编码时，则S3012具体可以为：利用sbc编码对该128个音频采样点进行编码，得到128字节的编码数据，并将该128字节的编码数据确定为该原始音频数据对应的待处理音频数据。

基于上述S3011至S3012的相关内容可知，在一些情况下，可以先从待存储音频中提取出至少一个原始音频数据，以使该原始音频数据包括多个音频采样点；再按照预设加密算法对各个原始音频数据进行加密处理，并将各个加密后的原始音频数据分别确定为各个待处理音频数据，以使该各个待处理音频数据能够以安全的方式携带待存储音频中记录的音频信息，如此有利于提高待存储音频的存储安全性。

基于上述S301的相关内容可知，可以根据录音设备收录的待存储音频，生成该待存储音频对应的待处理音频数据，以便后续能够基于该待处理音频数据实现对待存储音频的身份信息添加过程以及数据存储过程。

需要说明的是，本申请实施例不限定待处理音频数据的个数，例如，待处理音频数据的个数为T；其中，T为正整数。另外，若待处理音频数据是根据待存储音频生成的，则该待处理音频数据的个数可以根据该待存储音频中音频采样点的总数进行确定。

S302：获取待处理音频数据的身份信息。

待处理音频数据的身份信息用于描述该待处理音频数据携带的音频信息的身份(如，录音设备信息、录音设备使用者信息、转写授权相关信息等等)；而且，待处理音频数据的身份信息可以用于证明该待处理音频数据携带的音频信息的合法性。

另外，本申请实施例不限定待处理音频数据的身份信息的获取过程，为了便于理解，下面以S302的一种可能的实施方式为例进行说明。

在一种可能的实施方式中，当待处理音频数据的个数为T，且第t个待处理音频数据对应的收录时间早于第t+1个待处理音频数据对应的收录时间；t为正整数，t≤T-1，T为正整数时，如图5所示，T个待处理音频数据的身份信息生成过程具体可以为：根据该T个待处理音频数据对应的音频基础身份信息，生成第1个待处理音频数据的身份信息；根据第1个待处理音频数据和该第1个待处理音频数据的身份信息，生成第2个待处理音频数据的身份信息；根据第2个待处理音频数据和该第2个待处理音频数据的身份信息，生成第3个待处理音频数据的身份信息；……(依次类推)；根据第T-1个待处理音频数据和该第T-1个待处理音频数据的身份信息，生成第T个待处理音频数据的身份信息。

其中，第t个待处理音频数据对应的收录时间用于描述第t个待处理音频数据携带的音频信息(也就是，第t个待处理音频数据对应的音频采样点)的收录时间。例如，如图4所示，若第t个待处理音频数据是根据待存储音频中的第1280×(t-1)+1个音频采样点至第1280×t个音频采样点生成的，则该第t个待处理音频数据对应的收录时间可以用于描述待存储音频中的第1280×

(t-1)+1个音频采样点至第1280×t个音频采样点的收录时间。

T个待处理音频数据对应的音频基础身份信息可以预先生成或者预先依据应用场景设定。

在一些情况下，T个待处理音频数据对应的音频基础身份信息可以用于体现录音设备及其使用者之间的对应关系(也就是，绑定关系)，以便后续转写设备能够先依据录音设备及其使用者之间的对应关系来确定该音频基础身份信息。基于此，本申请实施例还提供了一种获取T个待处理音频数据对应的音频基础身份信息的实施过程，其具体可以为：根据T个待处理音频数据对应的用户身份标识和T个待处理音频数据对应的产品序列号，生成T个待处理音频数据对应的音频基础身份信息。

其中，T个待处理音频数据对应的用户身份标识用于唯一标识使用录音设备收录该T个待处理音频数据携带的音频信息的使用者的身份。另外，本申请实施例不限定用户身份标识，例如，用户身份标识可以为录音设备对应的设备登录账号、用户身份证信息(如，身份证号、身份证复印件等)、用户身体标识信息(如，脸部、声纹以及指纹等)、用户设定的个性化身份信息(如，问答对话等)。

T个待处理音频数据对应的产品序列号是指用于收录该T个待处理音频数据携带的音频信息的录音设备的设备标识。例如，T个待处理音频数据对应的产品序列号可以为A1234Y20201207。

另外，本申请实施例不限定T个待处理音频数据对应的音频基础身份信息的生成过程，例如，该生成过程具体可以为：利用预设融合算法将T个待处理音频数据对应的用户身份标识和该T个待处理音频数据对应的产品序列号进行融合，得到预设长度的融合字符串，并将该融合字符串确定为该T个待处理音频数据对应的音频基础身份信息。其中，预设长度可以根据应用场景设定，例如，预设长度为10。

需要说明的是，本申请实施例不限定预设融合算法，可以采用任一种能够将T个待处理音频数据对应的用户身份标识和T个待处理音频数据对应的产品序列号融合成预设长度的融合字符串的方法进行实施。

基于上述音频基础身份信息的相关内容可知，本申请实施例中，可以将T个待处理音频数据对应的用户身份标识及其产品序列号进行融合，得到该T个待处理音频数据对应的音频基础身份信息，以使该音频基础身份信息能够表示出该T个待处理音频数据对应的录音设备与录音设备使用者之间的对应关系，以便后续转写设备能够基于该对应关系确定该T个待处理音频数据是否属于合法音频数据。需要说明的是，本申请实施例不限定T个待处理音频数据对应的音频基础身份信息的生成过程的执行主体，例如，可以由转写设备生成。

另外，本申请实施例不限定第1个待处理音频数据的身份信息的生成过程。例如，可以直接将T个待处理音频数据对应的音频基础身份信息，确定为第1个待处理音频数据的身份信息。

此外，基于图5及其上述相关内容可知，对于第t+1个待处理音频数据的身份信息(也就是，T个待处理音频数据中的非首个待处理音频数据)来说，可以根据第t个待处理音频数据和该第t个待处理音频数据的身份信息进行确定。其中，t为正整数，t≤T-1，T为正整数。

为了便于理解第t+1个待处理音频数据的身份信息的生成过程，下面以一种可能的实施方式为例进行说明。

在一种可能的实施方式中，第t+1个待处理音频数据的身份信息的生成过程包括以下步骤11-步骤12：

步骤11：根据第t个待处理音频数据，生成第一更新规则。

其中，第一更新规则用于描述对第t个待处理音频数据的身份信息进行调整时所需依据的调整规则。

本申请实施例不限定第一更新规则，例如，当第t个待处理音频数据包括N

也就是，第一排序目标可以为[Q

另外，本申请实施例不限定第一更新规则的生成过程，在一种可能的实施方式中，当第t个待处理音频数据包括N

基于上述步骤11的相关内容可知，在获取到第t个待处理音频数据之后，可以根据该第t个待处理音频数据生成第一更新规则，以使该第一更新规则能够准确地描述出对第t个待处理音频数据的身份信息进行调整时所需依据的调整规则，以便后续能够利用该第一更新规则对第t个待处理音频数据的身份信息进行调整。

步骤12：将第t个待处理音频数据的身份信息按照第一更新规则进行更新，得到第t+1个待处理音频数据的身份信息。

本申请实施例中，在获取到第一更新规则之后，可以按照该第一更新规则对第t个待处理音频数据的身份信息进行调整，得到第t+1个待处理音频数据的身份信息；而且该调整过程具体可以为：当第t个待处理音频数据包括N

基于上述步骤11至步骤12的相关内容可知，第t+1个待处理音频数据的身份信息可以根据第t个待处理音频数据和该第t个待处理音频数据的身份信息生成，使得该第t+1个待处理音频数据的身份信息可以同时携带有第t个待处理音频数据自身所携带的音频信息及其对应的身份信息。

基于上述S302的相关内容可知，当待处理音频数据的个数为T时，可以先根据该T个待处理音频数据对应的音频基础身份信息，确定第1个待处理音频数据的身份信息，以使第1个待处理音频数据的身份信息携带有录音设备与录音设备使用者之间的对应关系；再根据第t个待处理音频数据和第t个待处理音频数据的身份信息，生成第t+1个待处理音频数据的身份信息，以使第t+1个待处理音频数据的身份信息携带有第t个待处理音频数据自身所具有的音频信息及其对应的身份信息；t为正整数，t≤T-1，T为正整数。

S303：根据待处理音频数据和待处理音频数据的身份信息，生成目标音频数据，以使该目标音频数据携带有待处理音频数据和待处理音频数据的身份信息。

其中，目标音频数据是指待处理音频数据对应的存储数据；而且该目标音频数据同时携带有待处理音频数据和待处理音频数据的身份信息。

另外，本申请实施例不限定目标音频数据的生成过程，例如，可以直接将待处理音频数据和待处理音频数据的身份信息进行拼接，得到目标音频数据。

在一些情况下，若目标音频数据携带的身份信息是整体添加的，则非法分子很容易通过对目标音频数据进行简单地查看分析，确定出该目标音频数据的结构，如此导致非法分子可以利用该目标音频数据的结构将非法音频数据进行包装，以将非法音频数据伪装成合法音频数据并利用这些伪装的合法音频数据对转写设备进行攻击，从而导致转写设备需要花费大量的时间对这些伪装的合法音频数据进行转写，进而导致该转写设备无法及时地对真实的合法音频数据进行转写。

基于此，为了进一步提高目标音频数据的结构安全性，可以在目标音频数据的生成过程中将身份信息以散列(也就是，打散插入)的方式进行添加。基于此，本申请实施例还提供了生成目标音频数据(也就是S303)的一种可能的实施方式，在该实施方式中，当待处理音频数据包括N个第一音频数据，且该待处理音频数据的身份信息包括N个第一音频数据的身份信息时，S303具体可以包括S3031-S3032：

S3031：根据第i个第一音频数据和第i个第一音频数据的身份信息，生成第i个第二音频数据，以使第i个第二音频数据携带有第i个第一音频数据和第i个第一音频数据的身份信息；其中，i为正整数，i≤N，N为正整数。

本申请实施例中，在获取到第i个第一音频数据和第i个第一音频数据的身份信息之后，可以将第i个第一音频数据和第i个第一音频数据的身份信息进行信息整合，得到第i个第二音频数据，以使该第i个第二音频数据可以包括第i个第一音频数据和第i个第一音频数据的身份信息。

另外，本申请实施例不限定信息整合方式，可以采用现有或未来出现的任一种用于进行信息整合的信息整合方法进行实施。另外，为了便于理解，下面以一种可能的实施方式为例进行说明。

在一种可能的实施方式中，S3031具体可以为：将第i个第一音频数据的身份信息添加至第i个第一音频数据的预设位置上，得到第i个第二音频数据。

其中，预设位置可以根据应用场景预先设定。例如，预设位置可以是第i个第一音频数据的前置位置，也可以是第i个第一音频数据的后置位置，还可以是第i个第一音频数据中任意两个相邻字符之间的位置。

其中，第i个第一音频数据的前置位置是指位于第i个第一音频数据中首个字符所处位置之前的字符位置。例如，如图6所示，当第i个第一音频数据为“C

第i个第一音频数据的后置位置是指位于第i个第一音频数据中最后一个字符所处位置之后的字符位置。例如，如图6所示，当第i个第一音频数据为“C

基于上述S3031的相关内容可知，在获取到第i个第一音频数据和第i个第一音频数据的身份信息之后，可以将第i个第一音频数据的身份信息添加至第i个第一音频数据的预设位置上，得到第i个第二音频数据，以使第i个第二音频数据携带有第i个第一音频数据和第i个第一音频数据的身份信息。例如，如图7所示，当第i个第一音频数据的身份信息为“3”，第i个第一音频数据为“128B_A0”，且预设位置为前置位置时，第i个第二音频数据可以为“3128B_A0”。其中，i为正整数，i≤N，N为正整数。

S3032：根据第1个第二音频数据至第N个第二音频数据，得到目标音频数据。

本申请实施例中，若待处理音频数据包括N个第一音频数据，则在获取到第1个第一音频数据对应的第1个第二音频数据、第2个第一音频数据对应的第2个第二音频数据、……、第N个第一音频数据对应的第N个第二音频数据之后，直接将该第1个第二音频数据至第N个第二音频数据进行拼接，得到目标音频数据。例如，如图8所示，当第1个第二音频数据为“3128B_A0”，第2个第二音频数据为“4128B_A2”，……，第N个第二音频数据为“5128B_A9”时，目标音频数据为“3128B_A04128B_A2……5128B_A9”。

基于上述S3031至S3032的相关内容可知，在获取到待处理音频数据和该待处理音频数据的身份信息之后，可以将该待处理音频数据的身份信息散列到该待处理音频数据中，得到目标音频数据。其中，因目标音频数据携带的身份信息是以散列的方式进行添加的，使得目标音频数据的结构复杂，从而使得非法分子无法粗暴地分析出目标音频数据的结构，从而使得非法分子无法将非法音频伪装成合法音频数据，如此能够有效地避免转写设备遭受非法音频攻击，从而能够保证转写设备及时地对合法音频数据进行转写。

另外，在生成目标音频数据之后，可以将该目标音频数据进行存储，也可以使用该目标音频数据(如，播放该目标音频数据或者转写该目标音频数据)，本申请实施例对此不做具体限定。

基于上述S301至S303的相关内容可知，在本申请实施例提供的音频数据生成方法中，先获取待处理音频数据和该待处理音频数据的身份信息，再根据该待处理音频数据和该待处理音频数据的身份信息生成目标音频数据，以使该目标音频数据携带有该待处理音频数据和该待处理音频数据的身份信息。其中，因目标音频数据携带有身份信息，使得该身份信息能够表征该目标音频数据所携带的音频信息是合法的，从而使得后续转写设备能够依据该目标音频数据携带的身份信息来确定该目标音频数据为合法音频数据，如此能够在转写设备中实现音频数据的合法性筛选，从而能够实现该转写设备只需对合法音频数据进行转写即可，无需对非法音频数据进行转写，如此能够节省转写设备转写非法音频数据所消耗的时间，从而使得转写设备能够及时地对合法音频数据进行转写，如此能够提高该转写设备的转写实时性，尤其是提高该转写设备对合法音频数据的转写实时性。

基于上述方法实施例提供的音频数据生成方法，本申请实施例还提供了一种音频数据转写方法，下面结合附图进行解释和说明。

参见图9，该图为本申请实施例提供的一种音频数据转写方法的流程图。

本申请实施例提供的音频数据转写方法，包括S901-S904：

S901：获取待转写音频数据。

其中，待转写音频数据是利用上文

待转写音频数据携带有待转写音频数据对应的实际身份信息。其中，待转写音频数据对应的实际身份信息用于描述该待转写音频数据携带的音频信息的身份(如，录音设备信息、录音设备使用者信息、转写授权相关信息等等)。

待转写音频数据可以包括至少一个第二音频数据。其中，第二音频数据包括至少一个音频采样数据和该至少一个音频采样数据的身份信息。需要说明的是，“音频采样数据”的相关内容请参见上文S301中“音频采样数据”的相关内容；而且，第二音频数据的相关内容请参见上文S303中“第二音频数据”的相关内容。

另外，本申请实施例不限定待转写音频数据的个数，例如，待转写音频数据的个数为M。其中，M为正整数。

此外，本申请实施例不限定待转写音频数据的获取方式，例如，转写设备可以接收其他设备发送的待转写音频数据，也可以从指定的存储空间中读取待转写音频数据。

在一些情况下，目标用户可以选择一个包括多个待转写音频数据的已存储音频数据进行音频转写，故待转写音频数据可以根据该已存储音频数据进行确定。基于此，本申请实施例还提供了获取待转写音频数据(也就是S901)的一种可能的实施方式，其具体可以包括S9011-S9012：

S9011：从目标存储位置获取已存储音频数据。

其中，目标存储位置是指由用户指定的需要进行转写的音频数据的实际存储位置。另外，本申请实施例不限定目标存储位置，例如，目标存储位置可以位于触发音频转写请求的终端设备中存储空间。

已存储音频数据可以是指利用上文

基于上述S9011的相关内容可知，本申请实施例中，当用户想要将一个已存储音频数据进行转写时，可以先触发音频转写请求，以使该音频转写请求用于请求对该已存储音频数据进行转写；再依据该音频转写请求从目标存储位置获取该已存储音频数据，以便后续能够对该已存储音频数据进行转写处理。

S9012：将已存储音频数据按照第二划分规则进行划分，得到至少一个待转写音频数据。

其中，第二划分规则可以预先设定，也可以根据上文目标音频数据的结构生成。例如，若一个目标音频数据包括D个字符，则该第二划分规则可以设定为以D个字符作为一个划分单元。

基于上述S9012的相关内容可知，在获取到已存储音频数据之后，可以将该已存储音频数据按照第二划分规则进行划分，得到至少一个待转写音频数据。例如，当已存储音频数据包括D×M个字符，且第二划分规则为以D个字符作为一个划分单元时，可以将已存储音频数据按照第二划分规则进行划分，得到M个待转写音频数据，以使各个待转写音频数据均包括D个字符。其中，D为正整数，M为正整数。

基于上述S9011至S9012的相关内容可知，当用户想要将一个已存储音频数据进行转写时，可以先从目标存储位置中读取该已存储音频数据，再从该已存储音频数据中提取出至少一个待转写音频数据，以便后续能够基于该至少一个待转写音频数据实现对该已存储音频数据的转写过程。

S902：从待转写音频数据中提取出待转写音频数据对应的实际身份信息。

其中，待转写音频数据对应的实际身份信息用于描述该待转写音频数据携带的音频信息的身份。

本申请实施例不限定实际身份信息的提取过程，只需保证实际身份信息的提取过程与目标音频数据中身份信息的插入过程相对应即可。为了便于理解实际身份信息的提取过程(也就是S902)，下面结合示例进行说明。

作为示例，当目标音频数据携带的身份信息是以散列的方式进行添加的，而且待转写音频数据包括N个第二音频数据时，S902具体可以包括S9021-S9022：

S9021：从第k个第二音频数据中提取第k个第二音频数据对应的实际身份信息；其中，k为正整数，k≤N，N为正整数。

本申请实施例中，对于待转写音频数据中的第k个第二音频数据来说，可以直接从该第k个第二音频数据中提取该第k个第二音频数据对应的实际身份信息，以便后续能够基于该第k个第二音频数据对应的实际身份信息，生成待转写音频数据对应的实际身份信息。

需要说明的是，本申请实施例不限定第k个第二音频数据对应的实际身份信息在第k个第二音频数据中的位置，例如，当第k个第二音频数据对应的实际身份信息为一个字符时，该第k个第二音频数据对应的实际身份信息可以位于该第k个第二音频数据中的首个字符位置、中间字符位置或者最后一个字符位置。

S9022：根据第1个第二音频数据对应的实际身份信息至第N个第二音频数据对应的实际身份信息，生成待转写音频数据对应的实际身份信息。

本申请实施例中，在获取到待转写音频数据中各个第二音频数据对应的实际身份信息之后，可以直接将第1个第二音频数据对应的实际身份信息至第N个第二音频数据对应的实际身份信息进行拼接，得到待转写音频数据对应的实际身份信息。

基于上述S9021至S9022的相关内容可知，本申请实施例中，如图10所示，在获取到包括N个第二音频数据的待转写音频数据之后，可以先从第1个第二音频数据中提取第1个第二音频数据对应的实际身份信息，从第2个第二音频数据中提取第2个第二音频数据对应的实际身份信息，……(依次类推)，从第N个第二音频数据中提取第N个第二音频数据对应的实际身份信息；再将第1个第二音频数据对应的实际身份信息至第N个第二音频数据对应的实际身份信息进行拼接，得到待转写音频数据对应的实际身份信息。

基于上述S902的相关内容可知，本申请实施例中，在获取到待转写音频数据之后，可以直接从该待转写音频数据中提取出该待转写音频数据对应的实际身份信息，以便后续能够基于该实际身份信息确定出该待转写音频数据携带的音频信息的合法性。

S903：根据待转写音频数据对应的实际身份信息，确定待转写音频数据是否为合法音频数据。

本申请实施例不限定待转写音频数据是否为合法音频数据的确定过程，例如，可以通过身份信息比对的方式来确定待转写音频数据是否为合法音频数据。基于此，本申请实施例还提供了合法音频数据的确定过程，其具体可以包括步骤21-步骤23：

步骤21：获取待转写音频数据对应的理论身份信息。

其中，待转写音频数据对应的理论身份信息是指该待转写音频数据携带的音频信息的标准身份信息。

另外，待转写音频数据对应的理论身份信息的生成过程与上文待处理音频数据的身份信息的生成过程类似，故可以采用生成待处理音频数据的身份信息的任一实施方式进行实施。为了便于理解该理论身份信息的生成过程，下面结合示例进行说明。

作为示例，当待转写音频数据的个数为M，第m个待转写音频数据对应的收录时间早于第m+1个待转写音频数据对应的收录时间，且m为正整数，m≤M-1，M为正整数时，可以根据第m个待转写音频数据和第m个待转写音频数据对应的理论身份信息，生成第m+1个待转写音频数据对应的理论身份信息。其中，第1个待转写音频数据对应的理论身份信息是根据M个待转写音频数据对应的音频基础身份信息确定的。

本申请实施例不限定M个待转写音频数据对应的音频基础身份信息的确定方式。为了便于理解，下面以一种可能的实施方式为例进行说明。

在一种可能的实施方式中，M个待转写音频数据对应的音频基础身份信息的确定过程包括步骤31-步骤32：

步骤31：获取M个待转写音频数据对应的至少一个候选身份信息。

本申请实施例不限定步骤31的获取方式，例如，若M个待转写音频数据对应的音频转写请求是由目标用户触发的，则可以在预设映射关系中查找对应于该目标用户的用户身份标识的至少一个候选音频基础身份信息，确定为该M个待转写音频数据对应的候选身份信息。

其中，预设映射关系包括目标用户的用户身份标识与至少一个候选音频基础身份信息之间的对应关系。另外，每个候选音频基础身份信息可以根据目标用户的用户身份标识与该目标用户所拥有的每个录音设备的产品序列号生成；而且，目标用户的用户身份标识与该目标用户所拥有的录音设备的产品序列号之间存在对应关系。

例如，若用户甲拥有录音设备A、录音设备B和录音设备C，则用户甲的用户身份标识可以对应于录音设备A的产品序列号、录音设备B的产品序列号以及录音设备C的产品序列号。此时，可以先根据用户甲的用户身份标识和录音设备A的产品序列号生成第一候选音频基础身份信息，根据用户甲的用户身份标识和录音设备B的产品序列号生成第二候选音频基础身份信息，根据用户甲的用户身份标识和录音设备C的产品序列号生成第三候选音频基础身份信息；再建立用户甲的用户身份标识与第一音频基础身份信息之间的对应关系、用户甲的用户身份标识与第二音频基础身份信息之间的对应关系、以及用户甲的用户身份标识与第三音频基础身份信息之间的对应关系；最后，根据用户甲的用户身份标识与第一音频基础身份信息之间的对应关系、用户甲的用户身份标识与第二音频基础身份信息之间的对应关系、以及用户甲的用户身份标识与第三音频基础身份信息之间的对应关系，构建预设映射关系。

基于上述步骤31的相关内容可知，在一些情况下，因目标用户可以拥有多个录音设备，使得该目标用户对应于多个候选音频基础身份信息，从而使得当该目标用户触发了M个待转写音频数据对应的音频转写请求之后，可以将该目标用户对应的多个候选音频基础身份信息，确定为M个待转写音频数据对应的多个候选身份信息，以便后续能够从该多个候选身份信息中确定出该M个待转写音频数据对应的音频基础身份信息。

步骤32：根据第1个待转写音频数据对应的实际身份信息和M个待转写音频数据对应的至少一个候选身份信息，确定M个待转写音频数据对应的音频基础身份信息。

作为示例，步骤32具体可以为：分别将第1个待转写音频数据对应的实际身份信息与M个待转写音频数据对应的各个候选身份信息进行匹配，并将匹配成功的候选身份信息确定为该M个待转写音频数据对应的音频基础身份信息。

基于上述步骤31至步骤32的相关内容可知，在一些情况下，因目标用户可以拥有多个录音设备，可以先依据该目标用户的用户身份标识，确定出该用户身份标识对应的至少一个候选身份信息；再依据第1个待转写音频数据对应的实际身份信息，从该至少一个候选身份信息筛选出M个待转写音频数据对应的音频基础身份信息。

另外，本申请实施例也不限定第1个待转写音频数据对应的理论身份信息的确定方式，例如，可以直接将M个待转写音频数据对应的音频基础身份信息确定为第1个待转写音频数据对应的理论身份信息。

此外，本申请实施例中，第m+1个待转写音频数据对应的理论身份信息的生成过程类似于上文第t+1个待处理音频数据的身份信息的生成过程。为了便于理解，下面结合示例进行说明。

作为示例，第m+1个待转写音频数据对应的理论身份信息的生成过程可以包括步骤41-步骤42：

步骤41：根据第m个待转写音频数据，生成第二更新规则。

其中，第二更新规则用于描述对第m个待转写音频数据对应的理论身份信息进行调整时所需依据的调整规则。需要说明的是，第二更新规则类似于上文第一更新规则，相关内容请参见上文第一更新规则。

另外，第二更新规则的生成过程类似于上文第一更新规则的生成过程，故第二更新规则可以依据第m个待转写音频数据携带的音频信息进行生成即可。基于此，本申请实施例提供了步骤41的一种可能的实施方式，其具体为：先从第m个待转写音频数据中提取出该第m个待转写音频数据对应的音频信息，再根据该第m个待转写音频数据对应的音频信息，生成第二更新规则。

其中，第m个待转写音频数据对应的音频信息用于描述第m个待转写音频数据携带的音频采样数据。可见，第m个待转写音频数据对应的音频信息可以包括将第m个待转写音频数据中的身份信息剔除之后的剩余信息。例如，当第m个待转写音频数据为“3128B_A0”，且第m个待转写音频数据对应的身份信息为“3”时，第m个待转写音频数据对应的音频信息可以为“128B_A0”。

此外，由于第m个待转写音频数据对应的音频信息类似于上文的第t个待处理音频数据，而且第二更新规则类似于上文第一更新规则，故步骤“根据该第m个待转写音频数据对应的音频信息，生成第二更新规则”的实施方式类似于上文步骤11的实施方式，相关内容请参照上文步骤11。

基于上述步骤41的相关内容可知，对于第m个待转写音频数据来说，可以先从第m个待转写音频数据中提取出该第m个待转写音频数据对应的音频信息，再依据该第m个待转写音频数据对应的音频信息生成第二更新规则，以使该第二更新规则能够用于描述对第m个待转写音频数据对应的身份信息进行调整时所需依据的调整规则，从而使得后续能够依据该第二更新规则，确定出第t+1个待转写音频数据对应的理论身份信息。

步骤42：将第m个待转写音频数据对应的理论身份信息按照第二更新规则进行更新，得到第m+1个待转写音频数据对应的理论身份信息。

实际上，由于第二更新规则类似于上文第一更新规则，且第m个待转写音频数据对应的理论身份信息类似于上文第t个待处理音频数据的身份信息，故步骤42的实施方式类似于上文步骤12的实施方式，相关内容请参见上文步骤12。为了便于理解，下面结合示例进行说明。

作为示例，当第m个待转写音频数据包括N

需要说明的是，第二排序目标类似于上文第一排序目标，相关内容请参见上文第一排序目标。

基于上述步骤41至步骤42的相关内容可知，第m+1个待转写音频数据对应的理论身份信息可以根据第m个待转写音频数据对应的音频信息及其身份信息进行生成，使得第m+1个待转写音频数据对应的理论身份信息可以携带有第m个待转写音频数据自身所携带的音频信息及其对应的身份信息。

基于上述步骤21的相关内容可知，本申请实施例中，对于M个待转写音频数据来说，可以先根据该M个待转写音频数据对应的音频基础身份信息，确定第1个待转写音频数据对应的理论身份信息；再根据第1个待转写音频数据和第1个待转写音频数据对应的理论身份信息，生成第2个待转写音频数据对应的理论身份信息；再根据第2个待转写音频数据和第2个待转写音频数据对应的理论身份信息，生成第3个待转写音频数据对应的理论身份信息；……(依次类推)；再根据第M-1个待转写音频数据和第M-1个待转写音频数据对应的理论身份信息，生成第M个待转写音频数据对应的理论身份信息，以便后续能够依据上述M个待转写音频数据对应的理论身份信息分析该M个待转写音频数据的合法性。

步骤22：将待转写音频数据对应的实际身份信息和待转写音频数据对应的理论身份信息进行匹配，得到待转写音频数据对应的身份匹配结果。

作为示例，当待转写音频数据的个数为M时，步骤22具体可以为：将第r个待转写音频数据对应的实际身份信息和第r个待转写音频数据对应的理论身份信息进行匹配，得到第r个待转写音频数据对应的身份匹配结果；其中，r为正整数，r≤M，M为正整数。

可见，本申请实施例中，若待转写音频数据的个数为M，则可以将第1个待转写音频数据对应的实际身份信息及其理论身份信息进行匹配，得到第1个待转写音频数据对应的身份匹配结果；将第2个待转写音频数据对应的实际身份信息及其理论身份信息进行匹配，得到第2个待转写音频数据对应的身份匹配结果；……(依次类推)；将第M个待转写音频数据对应的实际身份信息及其理论身份信息进行匹配，得到第M个待转写音频数据对应的身份匹配结果，以便后续能够利用上述M个待转写音频数据对应的身份匹配结果判断该M个待转写音频数据的合法性。

步骤23：根据待转写音频数据对应的身份匹配结果，确定待转写音频数据是否为合法音频数据。

在一些情况(例如，M个待转写音频数据是根据已存储音频数据确定)下，M个待转写音频数据的合法性应该进行整体性判断。基于此，本申请实施例提供步骤23的一种可能的实施方式，其具体可以为：若M个待转写音频数据对应的身份匹配结果均表示匹配成功，则确定M个待转写音频数据是合法音频数据；若M个待转写音频数据对应的身份匹配结果中存在至少一个表示匹配失败，则确定M个待转写音频数据为非法音频数据。

可见，对于包括M个待转写音频数据的已存储音频数据来说，当第1个待转写音频数据对应的身份匹配结果为匹配成功，第2个待转写音频数据对应的身份匹配结果为匹配成功，……(依次类推)，第M个待转写音频数据对应的身份匹配结果为匹配成功时，确定该M个待转写音频数据为合法音频数据，从而可以确定包括该M个待转写音频数据的已存储音频数据为合法音频数据；反之，则可以确定包括该M个待转写音频数据的已存储音频数据为非法音频数据。

基于上述步骤21至步骤23的相关内容可知，本申请实施例中可以依据待转写音频数据对应的理论身份信息及其实际身份信息的匹配结果，确定出该待转写音频数据是否为合法音频数据。

需要说明的是，在一些情况(如，音频基础身份信息可以表示根据录音设备与使用者的对应关系)下，因非法音频数据是由不具有转写授权的非法录音设备采集的，使得转写设备中不存在该非法录音设备对应的对应关系，从而使得转写设备无法从已存储音频基础身份信息中查询到与从该非法音频数据中提取的第1个待转写音频数据的实际身份信息相匹配的音频基础身份信息。可见，可以在确定第1个待转写音频数据对应的实际身份信息和M个待转写音频数据对应的至少一个候选身份信息匹配失败时，可以确定包括第1个待转写音频数据的已存储音频数据为非法音频数据。

S904：在确定待转写音频数据为合法音频数据时，对待转写音频数据进行转写处理，得到待转写音频数据对应的文字。

其中，转写处理是指将待转写音频数据中携带的音频信息转写为文字。

在一些情况下，若待转写音频数据包括经过加密处理后的音频采样点，则可以先对该待转写音频数据中的音频信息进行解密处理，再对解密后的音频信息进行转写。基于此，本申请实施例还提供了S904的一种可能的实施方式，其具体可以包括S9041-S9043：

S9041：从待转写音频数据中提取待转写音频数据对应的待解密音频数据。

其中，待转写音频数据对应的待解密音频数据是指待转写音频数据中携带的音频信息。另外，待转写音频数据对应的待解密音频数据的提取过程类似于上文步骤41中“第m个待转写音频数据对应的音频信息”的提取过程，相关内容请参见上文。

S9042：将待转写音频数据对应的待解密音频数据进行解密，得到待转写音频数据对应的解密音频数据。

其中，待转写音频数据对应的解密音频数据包括至少一个音频采样点。

在一些情况下，若待转写音频数据对应的待解密音频数据是利用预设加密算法加密得到的，则S9042具体可以为：利用该预设加密算法对应的解密算法对待转写音频数据对应的待解密音频数据进行解密，得到待转写音频数据对应的解密音频数据。

S9043：将待转写音频数据对应的解密音频数据，得到待转写音频数据对应的文字。

需要说明的是，本申请实施例不限定转写方法，可以采用现有的或将来出现的任一种能够将音频转写为文字的方法进行实施。

基于上述S9041至S9043的相关内容可知，若待转写音频数据包括加密后的音频信息，则可以先从该待转写音频数据中提取出该加密后的音频信息，再将该加密后的音频信息进行解密得到解密后的音频信息，最后将解密后的音频信息进行转写，得到该待转写音频数据对应的文字。

基于上述S901至S904的相关内容可知，本申请实施例中，若目标用户想要对一个已存储音频数据进行转写，该目标用户可以触发用于请求转写该已存储音频数据的音频转写请求，以使转写设备能够基于该音频转写请求，采用上述S901至S904对该已存储音频数据携带的音频信息进行转写，得到该已存储音频数据对应的文字。其中，因已存储音频数据携带有音频信息的身份信息，使得转写设备能够基于该已存储音频数据携带的身份信息，确定该已存储音频数据是否为合法音频数据，如此能够实现音频数据的合法性筛选，使得转写设备只需对合法音频数据进行转写即可，无需对非法音频数据进行转写，如此能够节省转写设备转写非法音频数据所消耗的时间，从而使得转写设备能够及时地对合法音频数据进行转写，如此能够提高该转写设备的转写实时性，尤其是提高该转写设备对合法音频数据的转写实时性。

为了便于理解上文的音频数据生成方法和音频数据转写方法，下面结合场景实施例进行说明。

在一些情况下，录音设备可以进行音频的录制及其存储，但是该录音设备无法进行其他复杂操作(如，音频转写操作)，此时可以借助用户终端设备(如，手机、电脑等终端设备)进行其他复杂操作。为了便于理解，下面结合图11所示的应用场景进行说明。其中，图11为本申请实施例提供的一种应用场景示意图。

在图11所示的应用场景中，录音笔1101能够进行音频的录制以及存储；录音笔1101能够通过预设连接方式(如，USB接口连接方式)挂载至用户终端设备1102，以使用户终端设备1102能够直接读取录音笔1101中存储的音频数据；录音笔1101还能够通过第一通信方式(例如，无线通信方式)与用户终端设备1102进行通信，以使录音设备1101能够借助用户终端设备1102获取转写服务器1103发送的信息。其中，转写服务器1103能够通过第二通信方式与用户终端设备1102进行通信。

需要说明的是，本申请实施例不限定用户终端设备1102，例如，用户终端设备1102可以是智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑等。

另外，为了能够实现转写服务器1103能够区分出合法音频数据和非法音频数据，转写服务器1103可以向录音笔1101发送转写授权码。其中，转写授权码是依据录音笔1101及其使用者之间的对应关系确定，而且该转写授权码的生成过程具体可以包括步骤51-步骤53：

步骤51：在用户终端设备1102与录音笔1101通过第一通信方式和/或预设连接方式连接成功时，使用者可以在用户终端设备1102上触发音频转写授权请求，以使该用户终端设备1102将该音频转写授权请求发送给转写服务器1102。其中，音频转写授权请求携带有该使用者的用户身份标识和录音笔1101的产品序列号。

步骤52：转写服务器1102根据音频转写授权请求携带的使用者的用户身份标识和录音笔1101的产品序列号，生成使用者的用户身份标识对应的音频基础身份信息，并记录使用者的用户身份标识及其使用者的用户身份标识对应的音频基础身份信息之间的对应关系。

步骤53：转写服务器1102将使用者的用户身份标识对应的音频基础身份信息反馈给用户终端设备1102，以使用户终端设备1102将该音频基础身份信息转发给录音笔1101进行存储，以便后续录音笔1101能够基于该音频基础身份信息生成携带有身份信息的音频数据。

基于上述步骤51至步骤53的相关内容可知，因音频基础身份信息是根据使用者的用户身份标识和录音笔1101的产品序列号生成的，使得音频基础身份信息中隐含了使用者的用户身份标识与录音笔1101的产品序列号之间的对应关系，从而使得录音笔1101接收到音频基础身份信息之后，该录音笔1101能够确定出转写服务器1103所认可的使用者的用户身份标识与录音笔1101的产品序列号之间的对应关系，从而使得转写服务器1103能够将携带有基于音频基础身份信息生成的身份信息的音频数据识别成合法音频数据。

另外，录音笔1101可以基于音频基础身份信息实现音频存储数据的生成以及存储，如图12所示，其过程具体可以包括S1201-S1209：

S1201：录音笔1101接收到录音请求之后，录音笔1101处于音频采样点的收录状态。

其中，录音请求用于请求录音笔1101进行声音收录。另外，收录状态是指录音笔1101处于声音采集状态。

S1202：录音笔1101按照预设收录频率收录音频采样点，并将收录到的音频采样点，确定为未处理采样数据。其中，预设收录频率可以预先根据应用场景设定。

S1203：判断未处理采样数据的数量是否达到第一数值；若是，则执行S1204；若否，则返回执行S1203。

其中，第一数值可以预先设定，例如，第一数值可以为128。

S1204：对第一数值的未处理采样数据进行加密，得到第一数值的加密采样数据，删除第一数值的未处理采样数据，并将第一数值的加密采样数据的集合确定为第一音频数据。

需要说明的是，S1204中的加密过程类似于与上文S3012中的加密过程，相关内容请参见上文S3012。

S1205：判断第一音频数据的数量是否达到第二数值；若是，则执行S1206；若否，则返回执行S1203。

其中，第二数值可以预先设定，例如，第二数值可以为N(如，10)。

S1206：将第二数值的第一音频数据的集合，确定为当前待处理音频数据，并删除第二数值的第一音频数据。

S1207：获取当前待处理音频数据的身份信息。

需要说明的是，S1207可以采用上文S302的具体实施方式进行实施。例如，若当前待处理音频数据为第1个待处理音频数据，则可以将录音笔1101存储的音频基础身份信息，确定为当前待处理音频数据的身份信息；而且，若当前待处理音频数据为第t+1个待处理音频数据的身份信息，则可以根据第t个待处理音频数据和该第t个待处理音频数据的身份信息，生成当前待处理音频数据的身份信息。其中，t为正整数，t≤T-1，T为此次音频录制过程中生成的待处理音频数据的总数。

S1208：根据当前待处理音频数据和当前待处理音频数据的身份信息，生成当前目标音频数据，以使当前目标音频数据携带有当前待处理音频数据和当前待处理音频数据的身份信息，并存储当前目标音频数据。

需要说明的是，S1208可以采用上文S303的具体实施方式进行实施。例如，将当前待处理音频数据的身份信息以散列的方式添加到当前待处理音频数据中各个第一音频数据的预设位置上，得到当前目标音频数据，并将该当前目标音频数据进行存储。

S1209：判断是否达到停止条件，若是，则结束音频数据的生成过程；若否，则返回执行S1203。

其中，停止条件可以预先设定，例如，停止条件可以为不存在未处理采样数据。

基于上述S1201至S1209的相关内容可知，当使用者想要利用录音笔1101录制音频时，使用者可以触发录音请求，以使该录音笔1101在接收到录音请求之后，收录音频采样点，并在音频采样点收录过程中对已收录的音频采样点进行处理及存储，以使录音笔1101中的已存储音频数据均携带有身份信息，以便后续转写服务器1103能够基于该身份信息确定出这些已存储音频数据为合法音频数据。

另外，当使用者想要对录音笔1101中的已存储音频数据进行转写时，该使用者可以将录音笔1101挂载至用户终端设备1102上，并在用户终端设备1102中触发音频转写请求，并由用户终端设备1102将该音频转写请求以及使用者选择的已存储音频数据发送给转写服务器1103，以使转写服务器1103可以利用本申请实施例提供的音频数据转写方法的任一实施方式进行音频转写。其中，音频转写请求携带有使用者的用户身份标识。

作为示例，转写服务器1101具体可以包括步骤61-步骤65：

步骤61：转写服务器1101将接收到的已存储音频数据按照第二划分规则进行划分，得到至少一个待转写音频数据。

需要说明的是，步骤61可以采用上文S9012的任一实施方式进行实施。

步骤62：从各个待转写音频数据中提取各个待转写音频数据对应的实际身份信息。

需要说明的是，每个待转写音频数据对应的实际身份信息的提取过程类似于上文S902的提取过程，相关内容参见上文S902。

步骤63：转写服务器1101根据音频转写请求携带的使用者的用户身份标识，在已存储的预设映射关系中查找对应于该用户身份标识的至少一个候选音频基础身份信息，确定为至少一个候选身份信息。

需要说明的是，“至少一个候选身份信息”的确定过程类似于上文“M个待转写音频数据对应的至少一个候选身份信息”的确定过程，相关内容请参见上文。

步骤64：判断至少一个候选身份信息中是否存在与第1个待转写音频数据对应的实际身份信息匹配成功的候选身份信息，若是，则执行步骤65；若否，则确定已存储音频数据为非法音频数据，并采取非法音频数据对应的处理操作。

其中，非法音频数据对应的处理操作可以预先设定，例如，非法音频数据对应的处理操作可以包括音频转写付费的相关操作，也可以包括结束已存储音频数据的转写流程的操作。

步骤65：获取各个待转写音频数据对应的理论身份信息。

需要说明的是，步骤65可以采用上文步骤21的实施方式进行实施。例如，将与第1个待转写音频数据对应的实际身份信息匹配成功的候选身份信息，确定为第1个待转写音频数据对应的理论身份信息；而且，根据第m个待转写音频数据和第m个待转写音频数据对应的理论身份信息，生成第m+1个待转写音频数据对应的理论身份信息。其中，m为正整数，m≤M-1，M为正整数，M为从已存储音频数据中提取到的待转写音频数据的总数。

步骤66：将各个待转写音频数据对应的理论身份信息机器实际身份信息进行匹配，得到各个待转写音频数据对应的身份匹配结果。

需要说明的是，步骤66可以采用上文步骤22的实施方式进行实施。

步骤67：若所有待转写音频数据对应的身份匹配结果均为匹配成功，则确定所有待转写音频数据为合法音频数据(也就是，已存储音频数据为合法音频数据)，并将所有待转写音频数据进行转写处理，得到所有待转写音频数据对应的文字(也就是，已存储音频数据对应的文字)。

需要说明的是，步骤67中的“转写处理”可以采用上文S904的实施方式进行实施。

步骤68：若所有待转写音频数据对应的身份匹配结果中存在至少一个匹配失败，则确定已存储音频数据为非法音频数据，并采取非法音频数据对应的处理操作。

基于上述步骤61至步骤68的相关内容可知，转写服务器1103在接收到音频转写请求以及已存储音频数据之后，可以先依据音频转写请求携带的用户身份标识，确定使用者对应的至少一个候选音频基础身份信息；再依据使用者对应的至少一个候选音频基础身份信息以及已存储音频数据携带的音频信息及其身份信息，确定存储音频数据是否为合法音频数据，以便在确定存储音频数据为合法音频数据时，将已存储音频数据进行转写处理，得到已存储音频数据对应的文字。

基于上述图11的相关内容可知，若录音笔1101无法与转写服务器1103直接进行通信，则录音笔1101可以借助用户终端设备1102实现与转写服务器的通信过程。

然而，在一些情况下，若录音笔能够直接与转写服务器进行通信，则录音笔无需借助用户终端设备，该录音笔可以直接向转写服务器发送音频转写请求，也可以直接向转写服务器发送使用者的用户身份标识以及录音笔的产品序列号，以便直接从转写服务器接收到使用者的用户身份标识对应的音频基础身份信息。

基于上述方法实施例提供的音频数据生成方法，本申请实施例还提供了一种音频数据生成装置，下面结合附图进行解释和说明。

装置实施例一对音频数据生成装置进行介绍，相关内容请参见上述方法实施例。

参见图13，该图为本申请实施例提供的音频数据生成装置的结构示意图。

本申请实施例提供的音频数据生成装置1300，包括：

第一获取单元1301，用于获取待处理音频数据和所述待处理音频数据的身份信息；

数据生成单元1302，用于根据所述待处理音频数据和所述待处理音频数据的身份信息，生成目标音频数据，以使所述目标音频数据携带有所述待处理音频数据和所述待处理音频数据的身份信息。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述数据生成单元1302，包括：

第一生成子单元，用于当所述待处理音频数据包括N个第一音频数据，且所述待处理音频数据的身份信息包括N个第一音频数据的身份信息时，根据所述第i个第一音频数据和所述第i个第一音频数据的身份信息，生成第i个第二音频数据，以使所述第i个第二音频数据携带有所述第i个第一音频数据和所述第i个第一音频数据的身份信息；其中，i为正整数，i≤N，N为正整数；

第二生成子单元，用于根据第1个第二音频数据至第N个第二音频数据，得到目标音频数据。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第一生成子单元，具体用于：

将所述第i个第一音频数据的身份信息添加至所述第i个第一音频数据的预设位置上，得到第i个第二音频数据。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第一获取单元1301，包括：

第一获取子单元，用于若待处理音频数据的个数为T，则根据第t个待处理音频数据和所述第t个待处理音频数据的身份信息，生成第t+1个待处理音频数据的身份信息；其中，所述第t个待处理音频数据对应的收录时间早于所述第t+1个待处理音频数据对应的收录时间；t为正整数，t≤T-1，T为正整数；第1个待处理音频数据的身份信息是根据T个待处理音频数据对应的音频基础身份信息确定的。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述T个待处理音频数据对应的音频基础身份信息的获取过程为：

根据所述T个待处理音频数据对应的用户身份标识和所述T个待处理音频数据对应的产品序列号，生成所述T个待处理音频数据对应的音频基础身份信息。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第一获取子单元，包括：

第三生成子单元，用于根据所述第t个待处理音频数据，生成第一更新规则；

第四生成子单元，用于将所述第t个待处理音频数据的身份信息按照所述第一更新规则进行更新，得到所述第t+1个待处理音频数据的身份信息。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第四生成子单元，具体用于：

当所述第t个待处理音频数据包括N

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第一获取单元1301，包括：

第二获取子单元，用于获取原始音频数据；对所述原始音频数据进行加密，得到所述待处理音频数据。

基于上述方法实施例提供的音频数据转写方法，本申请实施例还提供了一种音频数据转写装置，下面结合附图进行解释和说明。

装置实施例二

装置实施例二对音频数据转写装置进行介绍，相关内容请参见上述方法实施例。

参见图14，该图为本申请实施例提供的音频数据转写装置的结构示意图。

本申请实施例提供的音频数据转写装置1400，包括：

第二获取单元1401，用于获取待转写音频数据；其中，所述待转写音频数据是利用本申请实施例提供的音频数据生成方法的任一实施方式生成的目标音频数据；

信息提取单元1402，用于从所述待转写音频数据中提取出所述待转写音频数据对应的实际身份信息；

合法性确定单元1403，用于根据所述待转写音频数据对应的实际身份信息，确定所述待转写音频数据是否为合法音频数据；

音频转写单元1404，用于在确定所述待转写音频数据为合法音频数据时，对所述待转写音频数据进行转写处理，得到所述待转写音频数据对应的文字。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述信息提取单元1402，包括：

信息提取子单元，用于若所述待转写音频数据包括N个第二音频数据，从所述第k个第二音频数据中提取所述第k个第二音频数据对应的实际身份信息；其中，k为正整数，k≤N，N为正整数；

第五生成子单元，用于根据第1个第二音频数据对应的实际身份信息至第N个第二音频数据对应的实际身份信息，生成所述待转写音频数据对应的实际身份信息。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述音频数据转写装置1400还包括：

第三获取单元，用于获取所述待转写音频数据对应的理论身份信息；

所述合法性确定单元1403，包括：

第三获取子单元，用于将所述待转写音频数据对应的实际身份信息和所述待转写音频数据对应的理论身份信息进行匹配，得到所述待转写音频数据对应的身份匹配结果；

第一确定子单元，用于根据所述待转写音频数据对应的身份匹配结果，确定所述待转写音频数据是否为合法音频数据。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第三获取单元，具体用于：

若所述待转写音频数据的个数为M，则根据第m个待转写音频数据和所述第m个待转写音频数据对应的理论身份信息，生成第m+1个待转写音频数据对应的理论身份信息；其中，m为正整数，m≤M-1，M为正整数；所述第m个待转写音频数据对应的收录时间早于所述第m+1个待转写音频数据对应的收录时间；第1个待转写音频数据对应的理论身份信息是根据M个待转写音频数据对应的音频基础身份信息确定的。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第三获取单元，具体用于：

第六生成子单元，用于根据第m个待转写音频数据，生成第二更新规则；

第七生成子单元，用于将所述第m个待转写音频数据对应的理论身份信息按照所述第二更新规则进行更新，得到第m+1个待转写音频数据对应的理论身份信息。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第七生成子单元，具体用于：

当第m个待转写音频数据包括N

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述第三获取子单元，具体用于：

若所述待转写音频数据的个数为M，则将第r个待转写音频数据对应的实际身份信息和第r个待转写音频数据对应的理论身份信息进行匹配，得到第r个待转写音频数据对应的身份匹配结果；其中，r为正整数，r≤M，M为正整数；

所述第一确定子单元，具体用于：

若M个待转写音频数据对应的身份匹配结果均表示匹配成功，则确定所述M个待转写音频数据是合法音频数据；

若所述M个待转写音频数据对应的身份匹配结果中存在至少一个表示匹配失败，则确定所述M个待转写音频数据为非法音频数据。

在一种可能的实施方式下，为了提高提高转写设备的转写实时性，所述音频转写单元1404，具体用于：

从所述待转写音频数据中提取所述待转写音频数据对应的待解密音频数据；将所述待转写音频数据对应的待解密音频数据进行解密，得到所述待转写音频数据对应的解密音频数据；将所述待转写音频数据对应的解密音频数据，得到所述待转写音频数据对应的文字。

进一步地，本申请实施例还提供了一种音频数据生成设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述音频数据生成方法的任一种实现方法。

进一步地，本申请实施例还提供了一种音频数据转写设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述音频数据转写方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述音频数据生成方法的任一种实现方法或者执行上述音频数据转写方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述音频数据生成方法的任一种实现方法或者执行上述音频数据转写方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种音频数据生成方法、音频数据转写方法及其装置 [P] . 中国专利： CN112837690A . 2021-05-25
2. 音频数据生成方法及装置、数据集构建方法、介质、设备 [P] . 中国专利： CN112951199A . 2021-06-11
3. Method for encoding audio data with Adaptive Compensation of low frequency, which includes Detection of tone in the audio Data, generate a masking value preliminary for the audio Data, to determine a value for the audio Data masking; S Amplifier; System; and a method for decoding encoded audio data [P] . CL2014001805A1 . 2015-02-27

机译：一种利用低频自适应补偿对音频数据进行编码的方法，包括：检测音频数据中的音调，生成音频数据的初步掩蔽值，确定音频数据的掩蔽值。 S放大器;系统;和用于解码编码的音频数据的方法
4. AUTOMATIC OUTPUT PATTERN GENERATION METHOD HARMONIZED WITH THE CHARACTERISTICS OF AUDIO DATA, AND A DEVICE THEREOF, PARTICULARLY FOR AUTOMATICALLY GENERATING AN OUTPUT PATTERN ACCORDING TO THE CHARACTERISTICS OF AUDIO DATA [P] . 韩国专利： KR101005303B1 . 2011-01-04

机译：一种与音频数据的特性相协调的自动输出模式生成方法及其装置，特别是用于根据音频数据的特性自动生成输出模式的设备
5. METHOD AND DEVICE FOR ENCODING AN AUDIO SIGNAL, METHOD AND DEVICE FOR GENERATING ENCODED AUDIO DATA AND METHOD AND DEVICE FOR DETERMINING A BIT-RATE OF AN ENCODED AUDIO SIGNAL [P] . 世界知识产权组织专利： WO2009136872A1 . 2009-11-12

机译：用于编码音频信号的方法和装置，用于生成编码音频数据的方法和装置以及用于确定编码音频信号的比特率的方法和装置