首页> 中国专利> 音频采集装置、音频接收装置及音频处理方法

音频采集装置、音频接收装置及音频处理方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请实施例提供一种音频采集装置，包括：麦克风、处理器以及无线收发器；所述处理器，用于对所述麦克风采集的音频数据进行指令识别处理，得到控制指令；还用于通过所述无线收发器将所述音频数据和所述控制指令发送给音频接收装置；其中，所述音频数据用于一个或多个电子设备执行媒体处理，所述控制指令用于一个或多个电子设备执行控制处理，所述电子设备为所述音频接收装置或与所述音频接收装置通信连接的其他电子设备。本申请实施例提供的音频采集装置，可以采集到清晰的音频数据，提高语音识别的准确性。此外，由于在音频采集装置侧、在音频数据无线传输之前，对音频数据进行了识别，从而进一步保证了语音识别的准确率。

著录项

公开/公告号CN112639963A

专利类型发明专利
公开/公告日2021-04-09

原文格式PDF
申请/专利权人深圳市大疆创新科技有限公司;
展开▼

申请/专利号CN202080004930.8
发明设计人边云锋;莫品西;薛政;刘洋;吴俊峰;
展开▼

申请日2020-03-19
分类号G10L15/22(20060101);G10L15/14(20060101);G10L15/16(20060101);G10L19/018(20130101);G10L19/26(20130101);G10L21/013(20130101);G10L21/02(20130101);G10L21/0216(20130101);G10L21/0232(20130101);G10L25/24(20130101);G10L25/87(20130101);H04N5/232(20060101);
代理机构11415 北京博思佳知识产权代理有限公司;
代理人艾佳
地址 518057 广东省深圳市南山区高新区南区粤兴一道9号香港科大深圳产学研大楼6楼
入库时间 2023-06-19 10:32:14

说明书

技术领域

本申请实施例涉及信息处理技术领域，尤其涉及一种音频采集装置、音频接收装置、音频处理方法及音频采集系统。

背景技术

语音交互，是一种常见的人机交互方式。在语音交互时，人可以通过语音对被控设备进行控制，从而解放双手。但在某些场景中，若用户与被控设备距离较远，由于被控设备采集的音频数据的信噪比降低，被控设备很可能无法准确识别用户的指令。比如在一个场景中，用户使用了自拍杆夹持运动相机进行拍摄，在对运动相机进行语音控制时，由于自拍杆增加了控制距离，运动相机难以采集到的清晰的音频数据，因此语音识别的准确率也将大大降低。

发明内容

为克服相关技术中存在的问题，本申请实施例提供了一种音频采集装置、音频接收装置、音频处理方法及音频采集系统。

根据本申请实施例的第一方面，提供一种音频采集装置，包括：麦克风、处理器以及无线收发器；

所述处理器，用于对所述麦克风采集的音频数据进行指令识别处理，得到控制指令；还用于通过所述无线收发器将所述音频数据和所述控制指令发送给音频接收装置；

其中，所述音频数据用于一个或多个电子设备执行媒体处理，所述控制指令用于一个或多个电子设备执行控制处理，所述电子设备为所述音频接收装置或与所述音频接收装置通信连接的其他电子设备。

根据本申请实施例的第二方面，提供一种音频采集装置，包括：麦克风，处理器以及无线收发器，所述处理器，用于对所述麦克风采集的音频数据进行识别处理，得到辅助识别信息；还用于通过所述无线收发器将所述音频数据和所述辅助识别信息发送给音频接收装置；

其中，所述音频数据用于一个或多个电子设备执行媒体处理，所述辅助识别信息用于一个或多个电子设备根据所述辅助识别信息从所述音频数据中识别控制指令，所述电子设备为所述音频接收装置或与所述音频接收装置通信连接的其他电子设备。

根据本申请实施例的第三方面，提供一种音频接收装置，包括：无线收发器与处理器；

所述处理器，用于通过所述无线收发器接收音频采集装置发送的音频数据与控制指令；其中，所述控制指令是所述音频采集装置对所采集的音频数据进行指令识别处理得到；

所述音频数据用于一个或多个电子设备执行媒体处理，所述控制指令用于一个或多个电子设备执行控制处理，所述电子设备为所述音频接收装置或与所述音频接收装置通信连接的其他电子设备。

根据本申请实施例的第四方面，提供一种音频接收装置，包括：无线收发器与处理器；

所述处理器，用于通过所述无线收发器接收音频采集装置发送的音频数据与辅助识别信息；其中，所述辅助识别信息是所述音频采集装置对所采集的音频数据进行识别处理得到；

所述音频数据用于一个或多个电子设备执行媒体处理，所述辅助识别信息用于一个或多个电子设备根据所述辅助识别信息从所述音频数据中识别控制指令，所述电子设备为所述音频接收装置或与所述音频接收装置通信连接的其他电子设备。

根据本申请实施例的第五方面，提供一种音频处理方法，应用于音频采集装置，所述方法包括：

对采集的音频数据进行指令识别处理，得到控制指令；

通过无线网络将所述音频数据和所述控制指令发送给音频接收装置；

根据本申请实施例的第六方面，提供一种音频处理方法，应用于音频采集装置，所述方法包括：

对采集的音频数据进行识别处理，得到辅助识别信息；

通过无线网络将所述音频数据和所述辅助识别信息发送给音频接收装置；

根据本申请实施例的第七方面，提供一种音频处理方法，应用于音频接收装置，所述方法包括：

通过无线网络接收音频采集装置发送的音频数据与控制指令；

其中，所述控制指令是所述音频采集装置对所采集的音频数据进行指令识别处理得到，所述音频数据用于一个或多个电子设备执行媒体处理，所述控制指令用于一个或多个电子设备执行控制处理，所述电子设备为所述音频接收装置或与所述音频接收装置通信连接的其他电子设备。

根据本申请实施例的第八方面，提供一种音频处理方法，应用于音频接收装置，所述方法包括：

通过无线网络接收音频采集装置发送的音频数据与辅助识别信息；

其中，所述辅助识别信息是所述音频采集装置对所采集的音频数据进行识别处理得到；所述音频数据用于一个或多个电子设备执行媒体处理，所述辅助识别信息用于一个或多个电子设备根据所述辅助识别信息从所述音频数据中识别控制指令，所述电子设备为所述音频接收装置或与所述音频接收装置通信连接的其他电子设备。

根据本申请实施例的第九方面，提供一种音频采集系统，包括：

音频采集装置与音频接收装置；

所述音频采集装置，用于对采集的音频数据进行指令识别处理，得到控制指令；通过无线网络将所述音频数据和所述控制指令发送给所述音频接收装置；

根据本申请实施例的第十方面，提供一种音频采集系统，包括：

音频采集装置与音频接收装置；

所述音频采集装置，用于对采集的音频数据进行识别处理，得到辅助识别信息；通过无线网络将所述音频数据和所述辅助识别信息发送给所述音频接收装置；

本申请实施例提供的技术方案可以包括以下有益效果：

本申请实施例提供的音频采集装置，与音频接收装置通过无线网络进行通信连接。由于音频采集装置可以在很靠近用户的位置，因此音频采集装置可以采集到清晰的音频数据，使得语音识别的准确性大大提高。此外，考虑到无线通信过程中信号会有一定的损耗，并且无线通信的稳定性也不够高，为确保用户发出的语音指令能被准确识别，本申请实施例在音频采集装置侧、在音频数据无线传输之前，对音频数据进行了识别，从而进一步保证了语音识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请实施例。

附图说明

此处的附图被并入说明书中并构成本申请实施例的一部分，示出了符合本申请实施例的实施例，并与说明书一起用于解释本申请实施例的原理。

图1为本申请根据一示例性实施例示出的第一种音频采集装置的结构示意图。

图2a是本申请根据一示例性实施例示出的一种应用场景图。

图2b是本申请根据一示例性实施例示出的另一种应用场景图。

图2c是本申请根据一示例性实施例示出的又一种应用场景图。

图2d是本申请根据一示例性实施例示出的再一种应用场景图。

图3a为本申请根据一示例性实施例示出的第一种音频采集装置的工作流程图。

图3b为本申请根据一示例性实施例示出的第一种音频接收装置的工作流程图。

图3c为本申请根据一示例性实施例示出的第一种音频接收装置与电子设备之间的分工示意图。

图4a为本申请根据一示例性实施例示出的第二种音频采集装置的工作流程图。

图4b为本申请根据一示例性实施例示出的第二种音频接收装置的工作流程图。

图5为本申请根据一示例性实施例示出的一种音频采集系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为解决上述问题，本申请实施例提出一种音频采集装置，该音频采集装置设置有无线收发器，可以与音频接收装置进行无线通信。在一种实施中，无线收发器可以是无线网卡，在另一种实施中，无线收发器也可以一个集成的模块，当然，也可以有其他的硬件形态，本申请对此不作限制。

由于具有无线收发器，因此音频采集装置可以与被控设备远程通信，方便用户放置或佩戴在自己身上，从而能够采集到信噪比足够高的、清晰的音频数据，使得语音识别的准确率大大提升。

可以理解的，音频采集装置在不同的场景中可以以不同的产品形态呈现。比如，在一种场景中，音频采集装置可以是无线麦克风，由用户手持麦克风进行语音输入。在另一种场景中，音频采集装置还可以是智能音箱，由用户放置在离自己较近的位置。在又一种场景中，音频采集装置可以是能够让用户穿戴在身上的设备，如无线耳机、可穿戴式音箱等等。

在一种实现方式中，音频采集装置采集到的音频数据可以无线传输给被控设备，被控设备根据该采集的音频数据进行指令识别处理，从而得到控制指令，进行响应。但在上述实现方式下，音频数据在用于指令识别处理之前需要经过无线传输，而信号在无线传输过程中会有一定的损耗，并且无线传输也需要考虑稳定性问题(比如丢包)，这些情况的存在使得被控设备接收到的音频数据可能存在一些缺陷，从而导致其在进行指令识别处理时仍然不能准确识别出控制指令。

基于上述问题，可以参见图1，图1为本申请根据一示例性实施例示出的第一种音频采集装置的结构示意图。该音频采集装置10包括：

麦克风101、处理器102以及无线收发器103。

其中，处理器102，用于对麦克风101采集的音频数据进行指令识别处理，得到控制指令，还用于通过无线收发器103将音频数据和控制指令发送给音频接收装置。其中，音频数据用于媒体处理。

需要说明的是，音频接收装置是接收音频数据与控制指令的任何装置，其内设置有无线收发器，可以与音频采集装置的无线收发器建立无线连接通道。对于音频接收装置的硬件形态，在一种实施中，音频接收装置本身可以是需要使用音频数据以及响应控制指令的电子设备。比如，在一种场景下，如图2a所示，音频接收装置本身可以是运动相机，运动相机可以与音频采集装置10无线通信，接收音频采集装置10发送的音频数据与控制指令，并使用接收到音频数据进行媒体处理，也可以响应接收到的控制指令。

在另一种实施中，音频接收装置可以与电子设备电性连接，音频接收装置接收到的音频数据与控制指令将发送给与其连接的电子设备，由该电子设备利用音频数据进行媒体处理，执行控制指令对应的操作。比如，在一种场景下，如图2b所示，电子设备可以是运动相机，音频接收装置可以是运动相机的一个外接插件。

还需要注意的是，音频接收装置可以有多个，相应的，电子设备也可以有多个。为方便理解，可以参见图2c，图2c示出一种场景，包括两个音频接收装置，音频接收装置本身为电子设备，第一个音频接收装置是云台，第二个音频接收装置是运动相机。如此，两个音频接收装置都可以接收到音频采集装置10发送的音频数据与控制指令，其中，音频数据可以用于运动相机进行媒体处理，而控制指令可以是针对运动相机，也可以是针对云台。比如，在一个更具体的场景中，用户可以在拍摄时发出这样的指令：“云台向左转动45度，相机对焦人脸。”此时，音频采集装置10对于采集到的对应“云台向左转动45度”的音频数据，可以识别出用于控制云台的控制指令，云台在接收到该控制指令后将作出相应的响应，而对于采集到的对应“相机对焦人脸”的音频数据，音频采集装置10可以识别出用于控制运动相机的控制指令，运动相机在接收到该控制指令后将作出相应的响应。

上述的场景中，音频接收装置本身为需要使用音频数据以及响应控制指令的电子设备。而另一个可能的场景中，音频接收装置也可以仅仅作为中继器，其与电子设备电性连接，与音频采集装置10无线通信。可以参见图2d，图2d示出一种场景，包括两个音频接收装置与两个电子设备，两个电子设备分别为运动相机与云台，而运动相机配备了一个以插件形式体现的音频接收装置，云台也配备了一个以插件形式体现的音频接收装置。该场景的其他说明可以参考对图2c所示场景的相关说明，在此不再赘述。

具体的，所述音频采集装置和所述音频接受装置均可以有设置在装置上的独立供电系统。

对于音频数据的媒体处理，具体可以包括音频编辑和/或音视频编辑。其中，音频编辑可以是对音频数据进行剪辑，也可以对音频数据进行音效上的变化，包括但不限于增强、润色、变声等等，还可以是对音频数据进行降噪滤波，或者进行音频录制、音频广播等工作。音视频编辑也有多种，比如其中的一种是将音频数据与拍摄的视频数据进行封装后生成视频文件等，当然还有其他的音视频编辑方式，在此不一一列举。

对于电子设备，除上述举例的运动相机、云台之外，还可以是摄影机、无人机、无人车或机器人等电子设备。电子设备可以包括一个或多个摄像头，具有拍摄图像的功能。

本申请实施例提供的音频采集装置，由于指令识别处理转移至音频采集装置进行，不再由音频接收装置或与音频接收装置连接的电子设备进行，因此音频数据在被用于指令识别处理时，没有经过无线传输的过程，从而不会有无线传输带来的损耗，因此指令识别的准确性可以进一步的提高。

虽然目前在无线传输上存在无压缩的传输标准，比如WHDI技术，但无压缩传输对无线传输的带宽要求极高，因此，为减轻无线传输的带宽压力，音频数据在传输之前可以进行编码。在一种实施方式中，音频采集装置的处理器在通过无线收发器将音频数据发送给音频接收装置之前，可以对音频数据进行编码。

进一步的，考虑到对音频数据进行编码的过程实际上是对音频数据进行了一定程度的压缩，若利用编码后的音频数据进行指令识别，识别的准确率也会一定程度的下降。因此，为保证指令识别的准确性，一种优选的实施方式是，利用编码前的音频数据进行指令识别处理，即利用麦克风采集的原始音频数据进行指令识别处理，如此，可以保证识别的准确率维持在较高的水平。

实现指令识别处理的方式有多种，但较为主要的方式是通过识别模型实现。在本申请实施例中，提供一种可选的采用了语音识别模型进行指令识别的方式。具体的，包括以下步骤：

S1、截取音频数据中包含语音的音频片段。

S2、提取音频片段的音频特征。

S3、将提取的音频特征输入指定的语音识别模型，识别出控制指令。

在步骤S1中，首先需要检测出可能包含语音的音频片段，在具体实现时，可以通过语音活性检测算法进行检测，当然也可以通过滑动窗口进行检测。

需要注意的是，可能包含语音的音频片段并不一定仅指包含人声语音的音频片段，也可以是包括非人声语音的音频片段。比如，控制指令对应的音频可以是短时间内的三下敲击声，也可以是两下拍掌声等诸如此类的非语音的音频。

在步骤S2中，需要说明的是，提取的音频特征也有多种选择。比如可以是MFCC(梅尔频率倒谱系数)特征，也可以是LPC特征、Fbank特征、瓶颈特征等，本领域技术人员可以根据实际需要进行选择。

在步骤S3中，指定的语音识别模型是预先训练好的模型。对于语音识别模型也有多种选择，比如可以是GMM-HMM(Gaussian Mixed Model-Hidden Markov Model，高斯混合模型-隐马尔科夫模型)，也可以是DNN(Deep Neural Networks，深度神经网络)、LSTM(LongShort Term Memory networks，长短时记忆网络)、CNN(Convolutional Neural Networks，卷积神经网络)等模型。

对语音识别模型的训练，下面提供一个例子。比如，模型可以选择上述的GMM-HMM模型，音频特征选择MFCC特征，则训练的流程包括以下步骤。

步骤A、使用若干指令语音、负样本作为训练数据。

步骤B、对训练数据进行MFCC特征提取。

步骤C、利用提取的MFCC特征进行GMM-HMM语音识别模型的训练，得到所需的GMM-HMM模型。训练过程中HMM参数估计可以采用Baum-welch算法，高斯数量若干，GMM模型训练可以使用EM(Expectation Maximization，期望最大化)方法。

识别出的控制指令需要与音频数据一起发送给音频接收装置。在一种实施方式中，控制指令可以与音频数据封装成数据包，由无线收发器将数据包发送给音频接收装置。需要说明的是，无线网络传输中使用的协议可以是公开的协议，也可以是私有的协议，且不限于2.4G或1.9G的无线通信频带。

考虑到控制指令与音频数据直接封装成数据包发送需要占用较多的传输带宽，并且控制指令的传输也不够实时，因此，在一种优选的实施方式中，可以在封装数据包之前将控制指令嵌入音频数据，之后，对嵌入了控制指令的音频数据进行数据包的封装，再将封装得到的数据包发送给音频接收装置。采用这种实施方式，可以减少无线传输时需要的带宽，也提高了控制指令传输的实时性，使得用户发出的语音指令能够被快速响应。

进一步的，由于音频数据在发送至音频接收装置之后，需要被用于进行媒体处理。因此，控制指令嵌入音频数据时，应当尽可能不影响音频数据本身。为此，在一种优选的实施方式中，控制指令可以转化为音频数字水印后嵌入音频数据，从而不会影响音频数据。

控制指令转化为音频数字水印有多种实现方式，包括调幅、调相、变换频域水印等等。本申请实施例提供一种实现方式，采用调频的手段将控制指令转化为音频数字水印，即，将控制指令转化为频率在指定频率范围内的音频数字水印，其中，指定频率范围为人耳听觉频率范围以外的频率范围。具体的实现步骤如下：

步骤X、将控制指令c(t)转换为长度为M的二进制控制指令cb，其中cb(i)为第i位的比特值。

步骤Y、为不影响音频数据本身的内容，可以选择人耳听觉频率范围以外的频率范围作为控制指令的传输频带，比如可以选择20kHz-24kHz的频率范围。在具体转化时，可以利用二进制控制指令cb，生成20kHz-24kHz频率范围的音频数字水印S(t)。

通过上述步骤可以得到控制指令转化后的音频数字水印S(t)。

接下来，在将音频数字水印S(t)嵌入音频数据x(t)时，可以先滤去音频数据x(t)中的高频信号，比如可以使音频数据x(t)通过低通滤波器。如此，可以滤去音频数据x(t)中原有的在20kHz-24kHz频率范围的信号，使得音频数字水印S(t)在与音频数据x(t)组合后不会被叠加而失真。通过低通滤波器后的音频数据x(t)可以与音频数字水印S(t)组合起来。上述过程用数学公式表示如下：

z(t)＝S(t)+hpf(x(t))

其中，z(t)表示嵌入了控制指令的音频数据。

在一种实施中，由于音频数据需要进行编码，因此控制指令嵌入的音频数据可以是编码后的音频数据，也可以是编码前的音频数据。但优选的，控制指令嵌入的音频数据为编码前的音频数据，如此，在得到嵌入控制指令的音频数据之后，可以再对该嵌入控制指令的音频数据进行编码压缩，相比直接对未嵌入控制指令的音频数据进行压缩，可压缩空间会更大，从而可以减少无线传输需要的带宽。

为更直观的体现音频采集装置对音频数据的处理，可以参见图3a，图3a为本申请根据一示例性实施例示出的第一种音频采集装置的工作流程图。如图3a所示，音频采集装置将控制指令转化为音频数字水印后嵌入音频数据，嵌入了控制指令的音频数据在经过编码后被封装成数据包发送给音频接收装置。

可以理解的是，对于音频采集装置侧的处理，音频接收装置也需要有相应的处理。比如，在一种实施方式中，音频采集装置对音频数据的处理如图3a所示，那么，音频接收装置的工作流程可以参见图3b。图3b中，音频接收装置20包括无线收发器201以及处理器202。处理器202可以通过无线收发器201接收到音频采集装置发送的数据包，对数据包进行解封装，得到编码后的嵌入了控制指令的音频数据。进一步的，处理器202还可以对解封装得到的音频数据进行解码，得到嵌入了控制指令的音频数据。最后，再从该嵌入了控制指令的音频数据中分离出音频数据与控制指令。

对嵌入了控制指令的音频数据进行分离操作，在具体实现时，可以以前文中将控制指令转化成20kHz-24kHz的音频数字水印为例进行说明。对嵌入了控制指令的音频数据进行分离可以包括以下步骤：

步骤a)、对嵌入了控制指令的音频数据通过滤波器滤除频率在20kHz以上的信号，得到音频数据x(t)。

步骤b)、对嵌入了控制指令的音频数据z(t)提取频率在20kHz-24kHz的信号得到音频数字水印S(t)。对音频数字水印S(t)，分析其频域信息，得到相应的二进制控制指令cb。对该二进制控制指令cb进行转化，便可得到控制指令c(t)。

当音频接收装置作为中继器，音频数据与控制指令需要提供给音频接收装置连接的电子设备进行处理时，在音频接收装置与电子设备之间，可以对数据包的解封装、音频的解码、水印提取等工作进行灵活的分配。比如，在一种实施中，音频接收装置可以只用于将接收到的数据包直接发送给与其连接的电子设备，数据包的解封装、音频的解码等工作均由电子设备执行。但在另一种实施中，音频接收装置也可以将数据包的解封装、音频解码、水印提取等工作均完成后，将分离出的直接可用的控制指令与音频数据发送给电子设备。但如此分工时，音频接收装置与电子设备之间需要配置两条硬件链路，以分别传输音频数据与控制指令，增加了硬件上的成本。

因此本申请实施例提供了一种优选的实施方式，可以参见图3c，图3c为本申请根据一示例性实施例示出的一种音频接收装置与电子设备之间的分工示意图。在图3c所示的实施方式中，与图3b中音频接收装置执行的步骤不同，图3c中，音频接收装置20在对解封装得到的音频数据进行解码、得到嵌入了控制指令的音频数据后，可以将该嵌入了控制指令的音频数据发送给电子设备30，由电子设备30进行对嵌入了控制指令的音频数据的分离工作。如此，音频接收装置20与电子设备30之间仅需要配置一条用于传输该嵌入了控制指令的音频数据的硬件链路，相比前述的在音频接收装置20侧分离出音频数据与控制指令而言，可以节省一条硬件链路，降低成本。

进一步的，音频采集装置还可以设置有控制传感器。控制传感器可以是按压的按键，也可以是触摸的感应模块，其可以根据用户的触发生成相应的控制指令。控制传感器的设置为用户提供更多样的控制方式，在一个场景中，用户想控制在远处的运动相机按下快门，除了可以通过音频采集装置进行语音控制之外，还可以通过触摸控制传感器上的按键进行控制，十分方便。

控制传感器生成的控制指令也可以与音频数据一起封装成数据包发送给音频接收装置。当然，控制传感器生成的控制指令也可以嵌入音频数据，或转化为音频数字水印后嵌入音频数据。该部分内容可以参考语音识别出的控制指令的相关内容，在此不再赘述。

考虑到用户的某些特殊需求，可以进一步对能够识别出控制指令的音频片段(下称目标音频片段)进行处理。对目标音频片段的处理可以包括消音、增强、变声等音频效果处理。比如在一种可能的场景下，电子设备为无人机，无人机正在对地面进行拍摄，用户在利用本申请实施例提供的音频采集装置对无人机拍摄的视频进行配音。此时，若用户觉得无人机拍摄的角度需要改变，发出“将镜头向上转动5度”的语音指令，则该句语音指令将被录制到拍摄的视频中，显然这不是用户希望录进去的语音。对应此场景，音频采集装置可以在确定目标音频片段后，对该目标音频片段进行消音，从而消除上述的用户不希望录入的语音指令。

在另一种可能的场景中，还可以对目标音频片段进行增强或变声等处理，以凸显出该语音指令。凸显该语音指令，在一种实施中，可以是为了电子设备进行二次识别，以更准确的识别语音指令；而在另一种实施中，可以是为了后期对视频进行编辑时更方便消除该语音指令。当然，对于变声处理，还有一种可能是，为了增加视频的趣味性。

以上为对本申请实施例提供的第一种音频采集装置的详细说明。本申请实施例提供的第一种音频采集装置，与音频接收装置通过无线网络进行通信连接。由于音频采集装置可以在很靠近用户的位置，因此音频采集装置可以采集到清晰的音频数据，使得语音识别的准确性大大提高。此外，考虑到无线通信过程中信号会有一定的损耗，并且无线通信的稳定性也不够高，为确保用户发出的语音指令能被准确识别，本申请实施例在音频采集装置侧、在音频数据无线传输之前，对音频数据进行了识别，从而进一步保证了语音识别的准确率。

由前文可知，若由音频接收装置侧进行指令识别处理，由于音频数据在用于指令识别处理之前需要经过无线传输，而信号在无线传输过程中会有一定的损耗，并且无线传输也存在稳定性的问题(比如丢包)，因此，音频接收装置接收到的音频数据可能存在一些缺陷，从而导致其在进行指令识别处理时仍然不能准确识别出控制指令。

而针对此问题，本申请实施例提供了第二种音频采集装置。该音频采集装置同样包括麦克风，处理器以及无线收发器。与本申请实施例提供的第一种音频采集装置的不同之处在于，处理器对麦克风采集的音频数据进行的是初步的识别处理，该初步的识别处理得到的是辅助识别信息，而非控制指令。

识别出的辅助识别信息与音频数据可以发送给音频接收装置。其中，音频数据仍然用于媒体处理，但辅助识别信息是用于辅助电子设备进行二次识别的。具体的，电子设备可以根据该辅助识别信息对接收到的音频数据进行二次识别，从而识别得到控制指令。电子设备可以是上述音频接收装置或是与音频接收装置通信连接的其他电子设备，即音频接收装置本身可以为所述的电子设备，其也可以作为中继器连接电子设备与音频采集装置，该部分内容可以参考本申请实施例提供的第一种音频采集装置的相关说明。

由于辅助识别信息是根据无线传输前的音频数据进行识别处理得到的，因此辅助识别信息的识别准确率是有所保证的。在电子设备进行二次识别时，虽然其是对经过无线传输后的音频数据进行的指令识别处理，但其在识别过程中可以借助上述的辅助识别信息，因此识别准确率也将得到提升。此外，由于音频采集装置只需要识别出辅助识别信息，相比直接识别出控制指令，可以减少需要的算力。

关于辅助识别信息，即用于辅助电子设备进行二次识别的信息。具体的，辅助识别信息可以以下的一种或多种信息：用于指示出控制指令所对应的音频片段的片段标识信息、控制指令所对应的音频数据的类型、控制指令所对应的控制内容信息。

对于上述的片段标识信息，其可以在音频数据中标识出控制指令所对应的音频片段，因此，电子设备在进行二次识别时，可以根据该片段识别信息确定控制指令所对应的音频片段，从而减少控制指令遗漏的概率。对于上述的控制指令所对应的音频数据的类型，在一种实施例中，其可以指示出控制指令所对应的音频数据是语音类型(比如人声语言)或非语音类型(比如击掌声、敲击声等)；在另一种实施例中，其也可以指示出控制指令所对应的音频数据是中文或英语或日本语等不同国家的语言。指示出音频数据的类型，可以帮助电子设备在二次识别时更精准的提取音频特征，从而使得指令识别更为准确。对于上述的控制指令所对应的控制内容信息，即控制指令所对应的具体内容，比如控制内容信息可以是“调整镜头焦距至50mm”或者是“切换至防抖模式”等等。该控制内容信息可以帮助电子设备在二次识别时进行比对和校正，从而避免识别出错误的控制指令。

与本申请实施例提供的第一种音频采集装置相同，在接收侧的硬件形态上，电子设备可以是一个或多个，音频接收装置也可以是一个或多个，该部分内容请参见本申请实施例提供的第一种音频采集装置中的相关说明，不在此重复。

对于辅助识别信息在音频采集装置侧的处理，也可以参考本申请实施例提供的第一种音频采集装置中控制指令的相关处理，比如与控制指令相同的，辅助识别信息可以与音频数据封装成数据包，也可以转化成音频数字水印嵌入音频数据等等。可以参见图4a与图4b，图4a为本申请根据一示例性实施例示出的第二种音频采集装置的工作流程图，图4b为本申请根据一示例性实施例示出的第二种音频接收装置的工作流程图。

需要说明的是，在本申请实施例提供的第二种音频采集装置中，处理器对控制指令所对应的音频片段进行的处理包括但不限于以下一种或多种：增强、降噪、润色。对音频片段进行这些处理，可以使音频数据中的语音指令更为突出，从而使得电子设备在进行二次识别时能够更为准确。

关于本申请实施例提供的第二种音频采集装置的其他内容，均可以参考本申请实施例提供的第一种音频采集装置中的相应说明，在此不再赘述。

本申请实施例提供的第二种音频采集装置，利用无线传输前的音频数据进行识别处理得到辅助识别信息。该辅助识别信息被发送给音频接收装置侧后，可以辅助电子设备对音频数据进行二次识别，从而提升电子设备二次识别的准确率。此外，该第二种音频采集装置相较第一种音频采集装置，由于只需要识别出辅助识别信息，不需要识别出控制指令，因此需要的算力更少，更容易实现。

与前文中本申请实施例提供的第一种音频采集装置相对应，本申请实施例还提供了第一种音频接收装置。该音频接收装置包括：

包括：无线收发器与处理器；

在一个可选的实施例中，所述处理器还用于，对接收到的音频数据进行解码。

在一个可选的实施例中，所述控制指令是所述音频采集装置对编码前的音频数据进行指令识别处理得到。

在一个可选的实施例中，所述处理器还用于，对通过所述无线收发器接收到的数据包进行解封装，得到所述音频数据与所述控制指令。

在一个可选的实施例中，对所述数据包进行解封装得到的是嵌入有所述控制指令的音频数据。

在一个可选的实施例中，所述处理器还用于，对所述嵌入有所述控制指令的音频数据进行分离，得到所述控制指令所转化的音频数字水印与音频数据。

在一个可选的实施例中，所述音频数字水印的频率在指定频率范围内，其中，所述指定频率范围为人耳听觉频率范围以外的频率范围。

在一个可选的实施例中，对所述嵌入有所述控制指令的音频数据进行分离得到的音频数据是编码前音频数据。

在一个可选的实施例中，所述控制指令是，所述音频采集装置通过截取音频数据中包含语音的音频片段，提取所述音频片段的音频特征，再将所述音频特征输入指定的语音识别模型后得到的。

在一个可选的实施例中，接收到的所述控制指令还包括另一种由所述音频采集装置的控制传感器响应于用户的触发生成的控制指令。

在一个可选的实施例中，接收到的音频数据中的目标音频片段经过所述音频采集装置的处理，所述目标音频片段为所述控制指令对应的音频片段。

在一个可选的实施例中，所述目标音频片段经过的处理包括以下一种或多种：消音、增强、变声。

在一个可选的实施例中，所述控制指令对应的音频数据的类型包括：语音类型和/或非语音类型。

在一个可选的实施例中，所述电子设备为所述音频接收装置通信连接的其他电子设备；

所述处理器还用于，将接收到的音频数据和控制指令发送给所述电子设备。

在一个可选的实施例中，所述电子设备为所述音频接收装置；

所述处理器还用于，利用所述音频数据执行媒体处理，执行所述控制指令对应的操作。

在一个可选的实施例中，所述媒体处理包括：音频编辑和/或音视频编辑。

在一个可选的实施例中，所述电子设备包括一个或多个摄像头。

在一个可选的实施例中，所述电子设备包括以下任一设备：无人机、相机、云台、无人车。

可以理解，上述的本申请实施例提供的第一种音频接收装置，其功能上的具体实现在前文中已有相关说明，在此不再赘述。

与前文中本申请实施例提供的第二种音频采集装置相对应，本申请实施例还提供了第二种音频接收装置。该音频接收装置包括：

包括：无线收发器与处理器；

在一个可选的实施例中，所述辅助识别信息包括以下一种或者多种信息：用于指示出控制指令所对应的音频片段的片段标识信息、控制指令所对应的音频数据的类型、控制指令所对应的控制内容信息。

在一个可选的实施例中，控制指令所对应的音频数据的类型包括：语音类型和/或非语音类型。

在一个可选的实施例中，所述处理器还用于，对接收到的音频数据进行解码。

在一个可选的实施例中，所述辅助识别信息是所述音频采集装置对编码前的音频数据进行识别处理得到。

在一个可选的实施例中，所述处理器还用于，对通过所述无线收发器接收到的数据包进行解封装，得到所述音频数据与所述辅助识别信息。

在一个可选的实施例中，对所述数据包进行解封装得到的是嵌入有所述辅助识别信息的音频数据。

在一个可选的实施例中，所述处理器还用于，对所述嵌入有所述辅助识别信息的音频数据进行分离，得到所述辅助识别信息所转化的音频数字水印与音频数据。

在一个可选的实施例中，所述音频数字水印的频率在指定频率范围内，其中，所述指定频率范围为人耳听觉频率范围以外的频率范围。

在一个可选的实施例中，对所述嵌入有所述辅助识别信息的音频数据进行分离得到的音频数据是编码前音频数据。

在一个可选的实施例中，所述处理器还用于，通过所述无线收发器接收所述音频采集装置发送的控制指令；所接收的控制指令是另一种所述音频采集装置的控制传感器响应于用户的触发生成的控制指令。

在一个可选的实施例中，接收到的音频数据中的目标音频片段经过所述音频采集装置的处理，所述目标音频片段为所述控制指令对应的音频片段。

在一个可选的实施例中，所述目标音频片段经过的处理包括以下一种或多种：增强、降噪、润色。

在一个可选的实施例中，所述媒体处理包括：音频编辑和/或音视频编辑。

在一个可选的实施例中，所述电子设备为所述音频接收装置通信连接的其他电子设备；

所述处理器还用于，将接收到的音频数据和辅助识别信息发送给所述电子设备。

在一个可选的实施例中，所述电子设备为所述音频接收装置；

所述处理器还用于，利用所述音频数据执行媒体处理，根据所述辅助识别信息从所述音频数据中识别控制指令。

在一个可选的实施例中，所述电子设备包括一个或多个摄像头。

在一个可选的实施例中，所述电子设备包括以下任一设备：无人机、相机、云台、无人车。

可以理解，上述的本申请实施例提供的第二种音频接收装置，其功能上的具体实现在前文中已有相关说明，在此不再赘述。

需要注意的是，以上所述的处理器所执行的功能，在实际实现时，可以其所实现的功能可以分配给多个不同的模块进行。比如，在一个实施例中，可以参见图5，图5示出一种通过模块实现的音频采集系统，该系统包括音频采集装置10、音频接收装置20与电子设备30。在图5所示的实施例中，在音频采集装置10侧，麦克风采集音频数据，采集的音频数据提供给指令识别模块。指令识别模块识别出控制指令，将控制指令提供给水印嵌入模块。在水印嵌入模块中，控制指令被转化为音频数字水印嵌入音频数据。嵌入有控制指令的音频数据通过音频编码模块进行编码，再经过数据封装模块封装成数据包，通过无线收发器发送给对端。

在对端，音频接收装置20通过无线收发器接收到数据包，通过数据解封装模块对数据包进行解封装，解封装得到的嵌入有控制指令的音频数据发送给音频解码模块进行解码。完成解码后，音频接收装置20通过硬件链路将解码后的嵌入有控制指令的音频数据发送给电子设备30，由电子设备30的水印提取模块对嵌入有控制指令的音频数据进行分离与转化的操作，从而得到音频数据与控制指令。

上述过程的具体实现在前文中已有详细说明，在此不再赘述。

可以理解，上述图5仅仅是作为一种可选的实施方式，在实际实施时，可以使用其他的模块实现本申请的技术方案。但无论实际中采用何种模块实现，均与本申请实施例所描述的处理器本质上相同，换言之，本申请实施例所描述的处理器在实际上可以指代各种执行相应功能的模块。

与前文中本申请实施例提供的第一种音频采集装置相对应，本申请实施例还提供了第一种音频处理方法，应用于音频采集装置，所述方法包括：

对采集的音频数据进行指令识别处理，得到控制指令；

通过无线网络将所述音频数据和所述控制指令发送给音频接收装置；

在一个可选的实施例中，在将所述音频数据发送给所述音频接收装置之前，所述方法还包括：

对所述音频数据进行编码。

在一个可选的实施例中，进行指令识别处理的音频数据为编码前的音频数据。

在一个可选的实施例中，将所述音频数据和所述控制指令发送给音频接收装置，包括：

将所述音频数据与所述控制指令封装成数据包发送给所述音频接收装置。

在一个可选的实施例中，将所述音频数据与所述控制指令封装成数据包，包括：

将所述控制指令嵌入所述音频数据；

将嵌入有所述控制指令的音频数据封装成数据包。

在一个可选的实施例中，在将所述控制指令嵌入所述音频数据之前，所述方法还包括：

将所述控制指令转化为音频数字水印。

在一个可选的实施例中，所述音频数字水印的频率在指定频率范围内，其中，所述指定频率范围为人耳听觉频率范围以外的频率范围。

在一个可选的实施例中，所述控制指令嵌入的音频数据为编码前的音频数据。

在一个可选的实施例中，对采集的音频数据进行指令识别处理，包括：

截取所述音频数据中包含语音的音频片段；

提取所述音频片段的音频特征；

将所述音频特征输入指定的语音识别模型，识别出所述控制指令。

在一个可选的实施例中，所述控制指令还包括另一种响应于用户的触发生成的控制指令。

在一个可选的实施例中，还包括：

对识别出所述控制指令的目标音频片段进行处理。

在一个可选的实施例中，对所述目标音频片段的处理包括以下一种或多种：消音、增强、变声。

在一个可选的实施例中，所述控制指令对应的音频数据的类型包括：语音类型和/或非语音类型。

在一个可选的实施例中，所述电子设备为所述音频接收装置通信连接的其他电子设备；

所述音频数据用于所述音频接收装置将所述音频数据发送给所述电子设备以执行媒体处理；

所述控制指令用于所述音频接收装置将所述控制指令发送给所述电子设备以执行控制处理。

在一个可选的实施例中，所述电子设备为所述音频接收装置；

所述音频数据用于所述音频接收装置执行媒体处理；

所述控制指令用于所述音频接收装置执行控制处理。

在一个可选的实施例中，所述电子设备包括一个或多个摄像头。

在一个可选的实施例中，所述电子设备包括以下任一设备：无人机、相机、云台、无人车。

在一个可选的实施例中，所述媒体处理包括：音频编辑和/或音视频编辑。

可以理解，上述的本申请实施例提供的第一种音频处理方法，其功能上的具体实现在前文中已有相关说明，在此不再赘述。

与前文中本申请实施例提供的第二种音频采集装置相对应，本申请实施例还提供了第二种音频处理方法，应用于音频采集装置，所述方法包括：

对采集的音频数据进行识别处理，得到辅助识别信息；

通过无线网络将所述音频数据和所述辅助识别信息发送给音频接收装置；

在一个可选的实施例中，控制指令所对应的音频数据的类型包括：语音类型和/或非语音类型。

在一个可选的实施例中，在将所述音频数据发送给所述音频接收装置之前，所述方法还包括：

对所述音频数据进行编码。

在一个可选的实施例中，进行识别处理的音频数据为编码前的音频数据。

在一个可选的实施例中，将所述音频数据和所述辅助识别信息发送给音频接收装置，包括：

将所述音频数据与所述辅助识别信息封装成数据包发送给所述音频接收装置。

在一个可选的实施例中，将所述音频数据与所述辅助识别信息封装成数据包，包括：

将所述辅助识别信息被嵌入所述音频数据；

将嵌入有所述辅助识别信息的音频数据封装成数据包。

在一个可选的实施例中，在将所述辅助识别信息嵌入所述音频数据之前，所述方法还包括：

将所述辅助识别信息转化为音频数字水印。

在一个可选的实施例中，所述音频数字水印的频率在指定频率范围内，其中，所述指定频率范围为人耳听觉频率范围以外的频率范围。

在一个可选的实施例中，所述辅助识别信息嵌入的音频数据为编码前的音频数据。

在一个可选的实施例中，所述控制指令还包括另一种响应于用户的触发生成的控制指令。

在一个可选的实施例中，还包括：

对控制指令所对应的目标音频片段进行处理。

在一个可选的实施例中，对控制指令所对应的音频片段的处理包括以下一种或多种：增强、降噪、润色。

在一个可选的实施例中，所述电子设备为所述音频接收装置通信连接的其他电子设备；

所述音频数据用于所述音频接收装置将所述音频数据发送给所述电子设备以执行媒体处理；

所述辅助识别信息用于所述音频接收装置将所述辅助识别信息发送给所述电子设备，以根据所述辅助识别信息从所述音频数据中识别控制指令。

在一个可选的实施例中，所述电子设备为所述音频接收装置；

所述音频数据用于所述音频接收装置执行媒体处理；

所述辅助识别信息用于所述音频接收装置根据所述辅助识别信息从所述音频数据中识别控制指令。

在一个可选的实施例中，所述电子设备包括一个或多个摄像头。

在一个可选的实施例中，所述电子设备包括以下任一设备：无人机、相机、云台、无人车。

在一个可选的实施例中，所述媒体处理包括：音频编辑和/或音视频编辑。

可以理解，上述的本申请实施例提供的第二种音频处理方法，其功能上的具体实现在前文中已有相关说明，在此不再赘述。

与前文中本申请实施例提供的第一种音频接收装置相对应，本申请实施例还提供了第三种音频处理方法，应用于音频接收装置，所述方法包括：

通过无线网络接收音频采集装置发送的音频数据与控制指令；

在一个可选的实施例中，在接收到所述音频数据之后，所述方法还包括：

对接收到的所述音频数据进行解码。

在一个可选的实施例中，所述控制指令是所述音频采集装置对编码前的音频数据进行指令识别处理得到。

在一个可选的实施例中，所述通过无线网络接收音频采集装置发送的音频数据与控制指令，包括：

通过无线网络接收到数据包，对所述数据包进行解封装，得到所述音频数据与所述控制指令。

在一个可选的实施例中，所述对所述数据包进行解封装，得到所述音频数据与所述控制指令，包括：

对所述数据包进行解封装，得到嵌入有所述控制指令的音频数据；

对所述嵌入有所述控制指令的音频数据进行分离，得到所述音频数据与所述控制指令。

在一个可选的实施例中，对所述嵌入有所述控制指令的音频数据进行分离，得到所述音频数据与所述控制指令，包括：

对所述嵌入有所述控制指令的音频数据进行分离，得到音频数字水印与音频数据，对所述音频数据水印进行转化，得到所述控制指令。

在一个可选的实施例中，所述音频数字水印的频率在指定频率范围内，其中，所述指定频率范围为人耳听觉频率范围以外的频率范围。

在一个可选的实施例中，对所述嵌入有所述控制指令的音频数据进行分离得到的音频数据是编码前音频数据。

在一个可选的实施例中，接收到的所述控制指令还包括另一种由所述音频采集装置的控制传感器响应于用户的触发生成的控制指令。

在一个可选的实施例中，接收到的音频数据中的目标音频片段经过所述音频采集装置的处理，所述目标音频片段为所述控制指令对应的音频片段。

在一个可选的实施例中，所述目标音频片段经过的处理包括以下一种或多种：消音、增强、变声。

在一个可选的实施例中，所述控制指令对应的音频数据的类型包括：语音类型和/或非语音类型。

在一个可选的实施例中，所述电子设备为所述音频接收装置通信连接的其他电子设备；所述方法还包括：

将接收到的音频数据和控制指令发送给所述电子设备。

在一个可选的实施例中，所述电子设备为所述音频接收装置；所述方法还包括：

利用所述音频数据执行媒体处理，执行所述控制指令对应的操作。

在一个可选的实施例中，所述媒体处理包括：音频编辑和/或音视频编辑。

在一个可选的实施例中，所述电子设备包括一个或多个摄像头。

在一个可选的实施例中，所述电子设备包括以下任一设备：无人机、相机、云台、无人车。

可以理解，上述的本申请实施例提供的第三种音频处理方法，其功能上的具体实现在前文中已有相关说明，在此不再赘述。

与前文中本申请实施例提供的第二种音频接收装置相对应，本申请实施例还提供了第四种音频处理方法，应用于音频接收装置，所述方法包括：

通过无线网络接收音频采集装置发送的音频数据与辅助识别信息；

在一个可选的实施例中，控制指令所对应的音频数据的类型包括：语音类型和/或非语音类型。

在一个可选的实施例中，在接收到所述音频数据之后，所述方法还包括：

对接收到的所述音频数据进行解码。

在一个可选的实施例中，所述辅助识别信息是所述音频采集装置对编码前的音频数据进行识别处理得到。

在一个可选的实施例中，所述通过无线网络接收音频采集装置发送的音频数据与辅助识别信息，包括：

通过无线网络接收到数据包，对所述数据包进行解封装，得到所述音频数据与所述辅助识别信息。

在一个可选的实施例中，所述对所述数据包进行解封装，得到所述音频数据与所述辅助识别信息，包括：

对所述数据包进行解封装，得到嵌入有所述辅助识别信息的音频数据；

对所述嵌入有所述辅助识别信息的音频数据进行分离，得到所述音频数据与所述辅助识别信息。

在一个可选的实施例中，对所述嵌入有所述辅助识别信息的音频数据进行分离，得到所述音频数据与所述辅助识别信息，包括：

对所述嵌入有所述辅助识别信息的音频数据进行分离，得到音频数字水印与音频数据，对所述音频数据水印进行转化，得到所述辅助识别信息。

在一个可选的实施例中，所述音频数字水印的频率在指定频率范围内，其中，所述指定频率范围为人耳听觉频率范围以外的频率范围。

在一个可选的实施例中，对所述嵌入有所述辅助识别信息的音频数据进行分离得到的音频数据是编码前音频数据。

在一个可选的实施例中，所述方法还包括：

通过无线网络接收所述音频采集装置发送的控制指令；所接收的控制指令是另一种所述音频采集装置的控制传感器响应于用户的触发生成的控制指令。

在一个可选的实施例中，接收到的音频数据中的目标音频片段经过所述音频采集装置的处理，所述目标音频片段为所述控制指令对应的音频片段。

在一个可选的实施例中，所述目标音频片段经过的处理包括以下一种或多种：增强、降噪、润色。

在一个可选的实施例中，所述媒体处理包括：音频编辑和/或音视频编辑。

在一个可选的实施例中，所述电子设备为所述音频接收装置通信连接的其他电子设备；所述方法还包括：

将接收到的音频数据和辅助识别信息发送给所述电子设备。

在一个可选的实施例中，所述电子设备为所述音频接收装置；所述方法还包括：

利用所述音频数据执行媒体处理，根据所述辅助识别信息从所述音频数据中识别控制指令。

在一个可选的实施例中，所述电子设备包括一个或多个摄像头。

在一个可选的实施例中，所述电子设备包括以下任一设备：无人机、相机、云台、无人车。

可以理解，上述的本申请实施例提供的第四种音频处理方法，其功能上的具体实现在前文中已有相关说明，在此不再赘述。

本申请实施例还提供了第一种音频采集系统，包括：

音频采集装置与音频接收装置；

所述音频采集装置，用于对采集的音频数据进行指令识别处理，得到控制指令；通过无线网络将所述音频数据和所述控制指令发送给所述音频接收装置20；

在一个可选的实施例中，所述音频采集装置，用于对所采集的音频数据进行编码后发送给所述音频接收装置；

所述音频接收装置，用于在接收到音频数据后，对接收到的音频数据进行解码。

在一个可选的实施例中，所述音频采集装置进行指令识别处理的音频数据为编码前的音频数据。

在一个可选的实施例中，所述音频采集装置，用于将所述音频数据与所述控制指令封装成数据包发送给所述音频接收装置；

所述音频接收装置，用于在接收到所述数据包后，对所述数据包进行解封装，得到所述音频数据与所述控制指令。

在一个可选的实施例中，所述音频采集装置，用于将所述控制指令嵌入所述音频数据，将嵌入有所述控制指令的音频数据封装成数据包发送给所述音频接收装置；

所述音频接收装置，用于在接收到所述数据包后，对所述数据包进行解封装，对解封装得到的嵌入有所述控制指令的音频数据进行分离，得到所述音频数据与所述控制指令。

在一个可选的实施例中，所述音频采集装置，用于将所述控制指令转化为音频数字水印嵌入所述音频数据，将嵌入有所述控制指令的音频数据封装成数据包发送给所述音频接收装置；

所述音频接收装置，用于在接收到所述数据包后，对所述数据包进行解封装，对解封装得到的嵌入有所述控制指令的音频数据进行分离，得到音频数字水印与音频数据，对所述音频数据水印进行转化，得到所述控制指令。

在一个可选的实施例中，所述音频数字水印的频率在指定频率范围内，其中，所述指定频率范围为人耳听觉频率范围以外的频率范围。

在一个可选的实施例中，所述音频采集装置将所述控制指令嵌入的音频数据为编码前的音频数据。

在一个可选的实施例中，所述音频采集装置对采集的音频数据进行指令识别处理的方式，包括：

截取所述音频数据中包含语音的音频片段；

提取所述音频片段的音频特征；

将所述音频特征输入指定的语音识别模型，识别出所述控制指令。

在一个可选的实施例中，所述控制指令还包括另一种由所述音频采集装置的控制传感器响应于用户的触发生成的控制指令。

在一个可选的实施例中，所述音频采集装置，还用于对识别出所述控制指令的目标音频片段进行处理。

在一个可选的实施例中，所述音频采集装置对所述目标音频片段的处理包括以下一种或多种：消音、增强、变声。

在一个可选的实施例中，所述控制指令对应的音频数据的类型包括：语音类型和/或非语音类型。

在一个可选的实施例中，所述电子设备为所述音频接收装置通信连接的其他电子设备；

所述音频接收装置，还用于将接收到的音频数据和控制指令发送给所述电子设备。

在一个可选的实施例中，所述电子设备为所述音频接收装置；

所述音频接收装置，还用于利用所述音频数据执行媒体处理，执行所述控制指令对应的操作。

在一个可选的实施例中，所述电子设备包括一个或多个摄像头。

在一个可选的实施例中，所述电子设备包括以下任一设备：无人机、相机、云台、无人车。

在一个可选的实施例中，所述媒体处理包括：音频编辑和/或音视频编辑。

可以理解，上述的本申请实施例提供的第一种音频采集系统，其功能上的具体实现在前文中已有相关说明，在此不再赘述。

本申请实施例还提供了第二种音频采集系统，包括：

音频采集装置与音频接收装置；

在一个可选的实施例中，控制指令所对应的音频数据的类型包括：语音类型和/或非语音类型。

在一个可选的实施例中，所述音频采集装置，用于对所采集的音频数据进行编码后发送给所述音频接收装置；

所述音频接收装置，用于在接收到音频数据后，对接收到的音频数据进行解码。

在一个可选的实施例中，所述音频采集装置进行识别处理的音频数据为编码前的音频数据。

在一个可选的实施例中，所述音频采集装置，用于将所述音频数据与所述辅助识别信息封装成数据包发送给所述音频接收装置；

所述音频接收装置在接收到所述数据包后，对所述数据包进行解封装，得到所述音频数据与所述辅助识别信息。

在一个可选的实施例中，所述音频采集装置，用于将所述辅助识别信息嵌入所述音频数据，将嵌入有所述辅助识别信息的音频数据封装成数据包发送给所述音频接收装置；

所述音频接收装置，用于在接收到所述数据包后，对所述数据包进行解封装，对解封装得到的嵌入有所述辅助识别信息的音频数据进行分离，得到所述音频数据与所述辅助识别信息。

在一个可选的实施例中，所述音频采集装置，用于将所述辅助识别信息转化为音频数字水印嵌入所述音频数据，将嵌入有所述辅助识别信息的音频数据封装成数据包发送给所述音频接收装置；

所述音频接收装置，用于在接收到所述数据包后，对所述数据包进行解封装，对解封装得到的嵌入有所述辅助识别信息的音频数据进行分离，得到音频数字水印与音频数据，对所述音频数据水印进行转化，得到所述辅助识别信息。

在一个可选的实施例中，所述音频数字水印的频率在指定频率范围内，其中，所述指定频率范围为人耳听觉频率范围以外的频率范围。

在一个可选的实施例中，所述音频采集装置将所述辅助识别信息嵌入的音频数据为编码前的音频数据。

在一个可选的实施例中，所述控制指令还包括另一种由所述音频采集装置的控制传感器响应于用户的触发生成的控制指令。

在一个可选的实施例中，所述音频采集装置，还用于对控制指令所对应的目标音频片段进行处理。

在一个可选的实施例中，所述音频采集装置对控制指令所对应的音频片段的处理包括以下一种或多种：增强、降噪、润色。

在一个可选的实施例中，所述电子设备为所述音频接收装置通信连接的其他电子设备；

所述音频接收装置，还用于将接收到的音频数据和辅助识别信息发送给所述电子设备。

在一个可选的实施例中，所述电子设备为所述音频接收装置；

所述音频接收装置，还用于利用所述音频数据执行媒体处理，根据所述辅助识别信息从所述音频数据中识别控制指令。

在一个可选的实施例中，所述电子设备包括一个或多个摄像头。

在一个可选的实施例中，所述电子设备包括以下任一设备：无人机、相机、云台、无人车。

在一个可选的实施例中，所述媒体处理包括：音频编辑和/或音视频编辑。

可以理解，上述的本申请实施例提供的第二种音频采集系统，其功能上的具体实现在前文中已有相关说明，在此不再赘述。

以上实施例中提供的技术特征，只要技术特征之间的组合不存在冲突或矛盾，对于本领域技术人员而言，各种技术特征之间可以任意的组合，从而构成各种不同的实施例。而本申请文件限于篇幅，未对各种技术特征的组合情况进行一一描述，但各种技术特征的各种组合方式当然的也属于本说明书公开的范围。

上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请实施例的其它实施方案。本申请实施例旨在涵盖本申请实施例的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请实施例的一般性原理并包括本申请实施例未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请实施例的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求来限制。

以上所述仅为本申请实施例的较佳实施例而已，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请实施例保护的范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 音频采集装置、音频接收装置及音频处理方法 [P] . 中国专利： CN112639963A . 2021-04-09
2. 一种多路音频处理方法、音频播放终端及音频接收装置 [P] . 中国专利： CN102867525A . 2013-01-09
3. AUDIO SIGNAL PROCESSING CIRCUIT, AUDIO SIGNAL PROCESSING METHOD, AND ON-VEHICLE AUDIO APPARATUS, AUDIO COMPONENT APPARATUS, AND ELECTRONIC APPARATUS USING THE SAME [P] . 日本专利： JP2017192151A . 2017-10-19

机译：音频信号处理电路，音频信号处理方法，以及车载音频设备，音频组件设备和电子设备使用相同的音频信号处理电路，音频信号处理方法，车载音频设备，音频组件设备和电子设备
4. AUDIO SIGNAL PROCESSING CIRCUIT, AUDIO SIGNAL PROCESSING METHOD, AND ON-VEHICLE AUDIO APPARATUS, AUDIO COMPONENT APPARATUS AND ELECTRONIC APPARATUS USING THE SAME [P] . 日本专利： JP2013197711A . 2013-09-30

机译：音频信号处理电路，音频信号处理方法以及车载音频设备，音频组件设备和电子设备使用相同的音频信号处理电路，音频信号处理方法，车载音频设备，音频组件设备和电子设备
5. AUDIO SIGNAL RECEIVING DEVICE AND SYSTEM FOR TRANSMITTING AUDIO SIGNAL, AUDIO SIGNAL RECEIVER DEVICE, AUDIO SIGNAL TRANSMISSION SYSTEM [P] . 美国专利： US2014200695A1 . 2014-07-17

机译：音频信号接收装置和音频信号传输系统，音频信号接收装置，音频信号传输系统