首页> 中国专利> 一种基于深度学习的波束形成方法和存储设备

一种基于深度学习的波束形成方法和存储设备

摘要

本发明涉及波束处理技术领域,特别涉及一种基于深度学习的波束形成方法和存储设备。所述一种基于深度学习的波束形成方法,包括步骤:通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音,比起传统的自适应波束形成算法,对于人声和非人声噪声的识别和判断上更加准确和智能;在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算,可实现多向同时拾取人声,满足会议场景中或其它任意场景中的多人说话的拾音需求。

著录项

  • 公开/公告号CN113257269A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 瑞芯微电子股份有限公司;

    申请/专利号CN202110431846.0

  • 发明设计人 李茂发;江正梁;陈时钦;

    申请日2021-04-21

  • 分类号G10L21/0216(20130101);G10L21/0264(20130101);G10L25/30(20130101);

  • 代理机构35219 福州市景弘专利代理事务所(普通合伙);

  • 代理人魏小霞;林祥翔

  • 地址 350003 福建省福州市鼓楼区软件大道89号18号楼

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本发明涉及波束处理技术领域,特别涉及一种基于深度学习的波束形成方法和存储设备。

背景技术

在传统的自适应麦克风阵列波束形成技术中,如超指向性波束,在保持波达方向输出不变的同时,最小化散射噪声,从而抑制噪声。但是这类方法往往需要预先知道波达方向,而类人声的相关噪声往往会导致波达方向估计不准,从而影响到波束效果。

在实际的会议场景中,经常存在多人说话的需求,而如果使用现有的自适应麦克风阵列波束形成技术的话,因无法预先知道波达的方向,则导致无法很好地去除噪声,影响到波束效果,导致无法满足会议场景中或其它任意场景中多人说话的拾音需求。

发明内容

为此,需要提供一种基于深度学习的波束形成方法,用以解决现有自适应麦克风阵列波束形成技术去非人声噪音效果不好,无法满足多人说话的拾音需求的问题。具体技术方案如下:

一种基于深度学习的波束形成方法,包括步骤:

通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音;

在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算。

进一步的,所述“通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音”,具体还包括步骤:

通过预设算法对获取到的语音数据进行语音存在概率的计算,根据语音存在概率的计算结果得人声和非人声噪音。

进一步的,所述“在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算”,具体还包括步骤:

对输出的多个波束方向进行能量加权系数的计算;

根据所述语音存在概率和所述能量加权系数计算得最终的波束加权系数,得最终的波束输出。

进一步的,所述预设算法包括:深度学习训练的神经网络。

为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:

一种存储设备,其中存储有指令集,所述指令集用于执行:

通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音;

在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算。

进一步的,所述指令集还用于执行:

所述“通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音”,具体还包括步骤:

通过预设算法对获取到的语音数据进行语音存在概率的计算,根据语音存在概率的计算结果得人声和非人声噪音。

进一步的,所述指令集还用于执行:

所述“在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算”,具体还包括步骤:

对输出的多个波束方向进行能量加权系数的计算;

根据所述语音存在概率和所述能量加权系数计算得最终的波束加权系数,得最终的波束输出。

进一步的,所述预设算法包括:深度学习训练的神经网络。

本发明的有益效果是:通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音,比起传统的自适应波束形成算法,对于人声和非人声噪声的识别和判断上更加准确和智能;在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算,可实现多向同时拾取人声,满足会议场景中或其它任意场景中的多人说话的拾音需求。

附图说明

图1为具体实施方式所述一种基于深度学习的波束形成方法的流程图;

图2为具体实施方式所述未经过深度学习技术处理的波束示意图;

图3为具体实施方式所述经过深度学习技术处理后滤除噪声的波束示意图;

图4为具体实施方式所述未加权计叠加计算前的波束示意图;

图5为具体实施方式所述加权计叠加计算后的波束示意图;

图6为具体实施方式所述一种存储设备的模块示意图。

附图标记说明:

600、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。

请参阅图1至图5,在本实施方式中,一种基于深度学习的波束形成方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。具体实施方式如下:

以下以应用在会议中对本申请的技术思想进行说明:

当应用场景为会议时,本申请的核心技术思想在于:因为在会议应用场景中,以人声为主,所以波束形成应该优先指向人的语音方向,同时会议存在讨论时多人说话情况,波束不能是单波束。故此本申请主要做了两个方面的改进:一个是引入深度学习技术,如:通过神经网络,训练人的语音识别,让波束形成可以识别人声和非人声噪音;一个是在识别出的人声方向上,做信号能量检测,根据语音信号的强弱,对波束大小做加权叠加计算,可以多向同时拾取人声。

需要说明的是,除了会议场景外,本申请的应用场景核心为多人会话场景,故也可以为非正式茶话会场合、可以为读书会讨论场合等等,只要场景中存在多人会话即可。

以下结合图1至图5,展开具体说明:

步骤S101:通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音。

步骤S102:在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算。

在本实施方式中可用任意阵列进行处理,包括不限于线阵、圆阵等阵列,以下以任意阵列为例对步骤S101和步骤S102展开说明:

假设在计算θ

步骤S101具体还包括步骤:通过预设算法对获取到的语音数据进行语音存在概率的计算,根据语音存在概率的计算结果得人声和非人声噪音。

本实施方式中,预设算法以深度学习训练的神经网络为例,进行语音存在概率的判断,公式如下所示:

ω

该公式中,ω

dnn_speech_probability_compute为整个网络流程,具体流程包括:音频输入->分帧->特征提取->神经网络->解码->判决->输出语音概率。

其中未经过深度学习技术处理的波束示意图如图2所示,有波束同时指向噪声noise和讲话者spk;经过深度学习技术处理后滤除噪声的波束示意图如图3所示,波束仅仅指向讲话者spk。

在经过去噪后,执行步骤S102,其中步骤S102具体还包括步骤:

对输出的多个波束方向进行能量加权系数的计算;

根据所述语音存在概率和所述能量加权系数计算得最终的波束加权系数,得最终的波束输出。

接着以上面提及的3mic圆阵为例继续说明:

同时,对输出的多个波束方向进行能量加权系数的计算,计算公式如下所示:

ω

该公式中,ω

energy_weight_compute为语音段能量占比计算过程。

具体计算过程为:1、计算多波束语音段总能量y

根据语音存在概率和能量加权系数计算出最终的波束加权系数,得到最终的波束输出

y=ω

其中图4和图5展示了结合能量加权方法对各方向波束进行波束加权后的波束效果。图4是未加权前的,指向讲话者spk1和讲话者spk2的波束大小是一样的;图5是结合能量加权方法对各方向进行波束加权后的效果,讲话者spk1因为声音比讲话者spk2大,指向其的波束就比讲话者spk2的大。

通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音,比起传统的自适应波束形成算法,对于人声和非人声噪声的识别和判断上更加准确和智能;在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算,可实现多向同时拾取人声,满足会议场景中或其它任意场景中的多人说话的拾音需求。

请参阅图2至图6,在本实施方式中,一种存储设备600的具体实施方式如下:

一种存储设备600,其中存储有指令集,所述指令集用于执行:

通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音;

在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算。

本方案可适用于任意阵列,包括不限于线阵、圆阵等阵列,在本实施方式中以任意阵列为例对以上指令集执行的命令展开说明:

假设在计算任意阵列在θ

进一步的,所述指令集还用于执行:

所述“通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音”,具体还包括步骤:

通过预设算法对获取到的语音数据进行语音存在概率的计算,根据语音存在概率的计算结果得人声和非人声噪音。

“通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音”具体还包括步骤:通过预设算法对获取到的语音数据进行语音存在概率的计算,根据语音存在概率的计算结果得人声和非人声噪音。

本实施方式中,预设算法以深度学习训练的神经网络为例,进行语音存在概率的判断,公式如下所示:

ω

该公式中,ω

dnn_speech_probability_compute为整个网络流程,具体流程包括:音频输入->分帧->特征提取->神经网络->解码->判决->输出语音概率。

其中未经过深度学习技术处理的波束示意图如图2所示,有波束同时指向噪声noise和讲话者spk;经过深度学习技术处理后滤除噪声的波束示意图如图3所示,波束仅仅指向讲话者spk。

在经过去噪后,进一步的,所述指令集还用于执行:

所述“在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算”,具体还包括步骤:

对输出的多个波束方向进行能量加权系数的计算;

根据所述语音存在概率和所述能量加权系数计算得最终的波束加权系数,得最终的波束输出。

接着以上面提及的任意阵列为例继续说明:

同时,对任意阵列输出的多个波束方向进行能量加权系数的计算,计算公式如下所示:

ω

该公式中,ω

energy_weight_compute为语音段能量占比计算过程。

具体计算过程为:1、计算多波束语音段总能量y

根据语音存在概率和能量加权系数计算出最终的波束加权系数,得到最终的波束输出

y=ω

其中图4和图5展示了结合能量加权方法对各方向波束进行波束加权后的波束效果。图4是未加权前的,指向讲话者spk1和讲话者spk2的波束大小是一样的;图5是结合能量加权方法对各方向进行波束加权后的效果,讲话者spk1因为声音比讲话者spk2大,指向其的波束就比讲话者spk2的大。

通过存储设备600上的指令集执行命令:通过深度学习技术对获取到的语音数据进行处理得人声和非人声噪音,比起传统的自适应波束形成算法,对于人声和非人声噪声的识别和判断上更加准确和智能;在识别出的人声方向上,进行信号能量检测,根据能量检测结果对波束大小做加权叠加计算,可实现多向同时拾取人声,满足会议场景中或其它任意场景中的多人说话的拾音需求。

需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号