首页> 中国专利> 评估单通道音频信号中的音频帧的语音质量的方法

评估单通道音频信号中的音频帧的语音质量的方法

摘要

本申请公开了一种用于评估单通道音频信号中的音频帧的语音质量的方法。描述的语音质量评估技术实施例通常包括评估单通道音频信号中的音频帧的人类语音质量。合成所述帧的谐波分量表示并且利用它来计算所述帧的非谐波分量。然后,利用合成的谐波分量表示和非谐波分量计算谐波与非谐波之比(HnHR)。该HnHR表示用户语音质量,并且它被指定为所述帧的语音质量的评估值。在一个实现方式中,HnHR用于建立最小语音质量阈值,在该最小语音质量阈值以下,即认为用户语音的质量是不可接受的。然后,基于HnHR是否低于该阈值,向用户提供反馈。

著录项

  • 公开/公告号CN103067322A

    专利类型发明专利

  • 公开/公告日2013-04-24

    原文格式PDF

  • 申请/专利权人 微软公司;

    申请/专利号CN201210525256.5

  • 发明设计人 陈伟戈;张正友;耶-莫·扬;

    申请日2012-12-07

  • 分类号H04L25/60(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人陈炜;李德山

  • 地址 美国华盛顿州

  • 入库时间 2024-02-19 19:33:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-10-28

    授权

    授权

  • 2015-07-01

    专利申请权的转移 IPC(主分类):H04L25/60 变更前: 变更后: 登记生效日:20150610 申请日:20121207

    专利申请权、专利权的转移

  • 2013-05-29

    实质审查的生效 IPC(主分类):H04L25/60 申请日:20121207

    实质审查的生效

  • 2013-04-24

    公开

    公开

说明书

技术领域

本发明总体上涉及语音质量评估技术,并且尤其涉及用于评估单通道 音频信号中的音频帧的语音质量的方法。

背景技术

来自封闭空间内的远程声源的声学信号产生根据房间脉冲响应 (RIR)变化的混响声。根据空间内混响级的观察信号中的人类语音质量 的评估提供了有价值的信息。例如,在诸如互联网协议电话(VOIP)系 统、视频会议系统、免提电话、声控系统和助听器的典型语音通信系统中, 有利的是,无论房间混响如何,都知道在所产生的信号中语音是否清晰。

发明内容

在此描述的语音质量评估技术实施例通常涉及评估单通道音频信号 中的音频帧的人类语音质量。在典型实施例中,输入音频信号的帧,并且 评估该帧的基频。此外,将该帧从时域变换到频域。然后,计算变换后的 帧的谐波分量和非谐波分量。然后,使用谐波分量和非谐波分量计算谐波 与非谐波之比(HnHR)。该HnHR表示用于计算该比率的单通道音频信 号中的用户语音的质量。这样,HnHR被指定为该帧的语音质量的评估值。

在一个实施例中,利用音频信号的帧的评估语音质量向用户提供反 馈。这通常包括:输入所捕获的音频信号,然后确定音频信号的语音质量 是否落在规定的可接受水平以下。如果在规定的可接受水平以下,则向用 户提供反馈。在一个实现方式中,利用HnHR建立最小语音质量阈值, 在该最小语音质量阈值以下,则认为信号中的用户语音质量是不可接受 的。然后,基于规定数量的连续音频帧是否具有所计算的不超过规定的语 音质量阈值的HnHR,向用户提供反馈。

应当注意,提供本发明内容用于以简化形式引入所选择的概念,下面 将在具体实施方式中对它们做进一步描述。本发明内容不是旨在标识要求 保护的主题的关键特征或者必要特征,也不是旨在用来帮助确定要求保护 的主题的范围。

附图说明

根据下面的描述、所附权利要求以及附图,将更好地理解本公开的具 体特征、方面和优点。

图1是用于实现在此描述的语音质量评估技术实施例的示例性计算 程序架构。

图2是示例性的基于帧的振幅加权因子的曲线图,其中,该振幅加权 因子以混响尾部间隔逐渐降低合成的谐波分量信号的能量。

图3是一般概括用于评估混响信号的帧的语音质量的处理的一个实 施例的流程图。

图4是一般概括用于向音频语音捕获系统的用户提供关于所捕获的 单通道音频信号中的人类语音的质量的反馈的处理的一个实施例的流程 图。

图5A~图5B是一般概括用于确定音频信号的语音质量是否落在规定 水平以下的、图4的处理动作的一个实现方式的流程图。

图6是示出构成用于实现在此描述的语音质量评估技术实施例的示 例性系统的通用计算装置的图。

具体实施方式

在下面对语音质量评估技术实施例的描述中,参考构成本文一部分的 附图,并且在附图中通过示例示出了可以实施本技术的具体实施例。应当 明白,也可以采用其它实施例,并且在不脱离该技术的范围的情况下,可 以进行结构改变。

1.0语音质量评估

通常,在此描述的语音质量评估技术实施例通过自动地向用户反馈他 或者她的话音质量可以改善用户的体验。诸如噪声水平、回音泄漏、增益 水平以及混响的许多因素影响所感知的话音质量。在这些因素中,最大的 挑战是混响。迄今为止,没有已知方法仅利用所观察的语音测量混响的量。 在此描述的语音质量评估技术实施例提供了这样一种度量标准,它仅利用 来自表示单音频通道的信号的观察语音样本盲目测量(即,不需要“干净 的”用于比较的信号)混响。已发现这对于各种房间环境(包括具有适当 量的背景噪声的环境)下的扬声器和传感器的随机位置是可能的。

更具体地,在此描述的语音质量评估技术实施例盲目地采用所观察的 单通道音频信号的谐度来评估用户语音的质量。谐度是人类话音语音的唯 一特性。如上所述,关于观察信号的质量(取决于房间混响条件及扬声器 到传感器的距离)的信息向扬声器提供有用的反馈。在下面的小节中将更 详细地描述上面提到的谐度的采用。

1.1信号建模

可以利用封闭空间内从声源到传感器的声学声音的多路径传播处理 来对混响建模。通常,所接收的信号被分解为两个分量:早期混响(并且 是直接路径声音)和晚期混响。早期混响(其在直接声音之后不久到达) 加强该声音并且对于确定语音可懂度是有用的分量。由于早反射依据说话 者和传感器位置改变的事实,其还提供关于空间体积和说话者的距离的信 息。晚期混响由在直接声音到达后具有较长延迟的反射产生,其削弱语音 可懂度。这些不利影响通常随着声源与传感器之间的距离变长而增加。

1.1.1混响信号模型

被表示为h(n)的房间脉冲响应(RIR)表示房间内传感器与说话者之 间的声学属性。如上所述,混响信号可以被划分为两部分:早期混响(包 括直接路径)和晚期混响:

其中he(t)和hl(t)分别是RIR的早期混响和晚期混响。可以根据应用和个 人喜好调节参数T1。在一个实现方式中,规定T1并且其范围在50ms至 80ms之间。通过无回声语音信号s(n)与h(n)的卷积获得的混响信号x(t) 可以被表示为:

通过没有任何反射的自由区域(free field)接收直接声音。早期混响 xe(t)由T1时间段之前从一个或多个面反射离开的声音构成。早期混响包括 关于房间大小及说话者和传感器的位置的信息。由具有长延迟的反射产生 的另一声音是削弱语音可懂度的晚期混响xl(t)。晚期混响可以由指数衰减 的高斯模型表示。因此,有理由假定早期混响与晚期混响不相关。

1.1.2谐波信号模型

语音信号可以如下被建模为谐波信号sh(t)和非谐波信号sn(t)的和:

s(t)=sh(t)+sn(t).      (3)

谐波部分构成语音信号(诸如话音)的准周期分量,而非谐波部分构 成其非周期分量(诸如摩擦音或者呼气声噪声,以及由声门激励导致的各 期间变化)。谐波信号sh(t)的(准)周期性被近似建模为其频率对应于基 频F0的整数倍的k正弦分量的和。假定Ak(t)和θk(t)是第k个谐波分量的 振幅和相位,则谐波信号可以被表示为:

sh(t)=Σk=1KAk(t)cos(θk(t)),θ·k(t)=kθ·1(t),---(4)

其中,是第k个谐波分量的相位的时间导数,而是F0。在不丧失 一般性的情况下,Ak(t)和θk(t)可以如下所示从信号s(f)围绕时间指标n0的 短时傅立叶变换(STFT)求得:

Ak(t)=|S(kθ·1(n0))|,

(5)

θk(t)=S(kθ·1(n0))+2πγ[kθ·1(n0)]Γ,

其中Г=2γ+1是用于提取谐波信号的时变特征的足够短的分析窗。

1.2评估谐波与非谐波之比

给定上述信号模型,语音质量评估技术的一个实现方式包括单通道语 音质量评估方法,该方法使用观察信号的谐波分量与非谐波分量之间的比 率。在限定了谐波与非谐波之比(HnHR)之后,将示出理想的HnHR 对应于标准房间声学参数。

1.2.1房间声学参数

ISO 3382标准定义了几种房间声学参数,并且规定了如何利用已知 的房间脉冲响应(RIR)测量参数。在这些参数中,在此描述的语音质量 评估技术实施例有利地采用混响时间(T60)和清晰度(C50,C80)参数, 部分原因在于它们不仅可以表示房间状况,而且还可以表示扬声器与传感 器的距离。混响时间(T60)被定义为激励停止后声能衰减60dB所需的 时间间隔。它与房间体积以及整个混响的数量密切相关。然而,即使在同 一个房间内测量,语音质量也可能根据传感器与扬声器之间的距离而改 变。清晰度参数如下被定义为早期混响与晚期混响之间的脉冲响应的对数 能量比率:

C#=10log(0#h2(t)dt#h2(t)dt)[dB],---(6)

其中,在一个实施例中,C#指C50并且用于表示语音的清晰度。应注意, C80更适于音乐并且将在涉及音乐清晰度的实施例中使用。还应注意,如 果#非常小(例如,小于4毫秒),则清晰度参数成为直接-混响能量比率 (DRR)的良好近似,其给出关于从扬声器到传感器的距离的信息。实 际上,清晰度指标与距离密切相关。

1.2.2混响信号谐波分量

在实际系统中,h(n)未知并且很难盲目地评估精确的RIR。然而,观 察信号的谐波分量与非谐波分量之间的比率提供了关于语音质量的有用 信息。利用等式(1)、(2)和(3),观察信号x(t)可以被分解为如下的谐 波xeh(t)分量和非谐波xnh(t)分量:

其中,*表示卷积运算。xeh(t)是由具有小延迟的几个反射之和构成的谐波 信号的早期混响。由于he(t)的长度非常短,所以在低频带中xeh(t)可以被 看作谐波信号。因此,可能将xeh(t)建模为与等式(4)类似的谐波信号。 xlh(t)和xn(t)分别是谐波信号的晚期混响和噪声信号sn(t)的混响。

1.2.3谐波与非谐波之比(HnHR)

早-晚信号之比(ELR)可以被看作与语音清晰度有关的房间声学参 数之一。理想地,如果假定h(t)和s(t)是独立的,则ELR可以被表示如下:

ELR=E{|Xe(f)|2}E{|Xl(f)|2}E{|He(f)|2}E{|Hl(f)|2},---(8)

其中,E{}表示期望算子。实际上,等式(8)变成C50(当T(与在等式 (2)中相同)是50ms时),而xe(t)和xl(t)实际上未知。根据等式(2)和 等式(7),可以假定xeh(t)和xnh(t)分别跟随xe(t)和xl(t),因为当信噪比(SNR) 适当时,sn(t)具有比sn(t)小得多的能量。因此,等式(9)中给出的谐波 与非谐波之比(HnHR)可看作ELR值的替换:

HnHR=E{|Xeh(f)|2}E{|Xnh(f)|2}.---(9)

1.2.4HnHR评估技术

图1示出用于实现在此描述的语音质量评估技术实施例的示例性计 算程序架构。该架构包括可以由计算设备(诸如在下面的示例性工作环境 部分中描述的计算设备)执行的各种程序模块。

1.2.4.1离散傅立叶变换和音调评估

更具体地,混响信号的每帧l 100被首先馈送到离散傅立叶变换 (DFT)模块102和音调评估模块104。在一个实现方式中,利用10毫 秒滑动汉宁窗将帧长度设置为32毫秒。音调评估模块104评估帧100的 基频F0 106,并且将评估值提供给DFT模块102。可以使用任何适当的 方法计算F0

DFT模块102将帧100从时域变换到频域,然后,输出所获得的频 谱中与基频F0 106的预定数量的整数倍k中的每一个相对应的频率(即, 谐波频率)的振幅和相位(|X(l,kF0)|,∠X(l,kF0)108)。注意,在一个实现 方式中,DFT的大小比帧长度长四倍。

1.2.4.2子谐波与谐波之比

振幅和相位值108被输入到子谐波与谐波之比(SHR)模块110。SHR 使用这些值针对所考虑的帧计算子谐波与谐波之比SHR(l)112。在一个实 现方式中,这通过使用下面的等式(10)实现:

SHR(l)=Σk|X(l,kF0)|Σk|X(l,(k-0.5)F0)|.---(10)

其中,k是整数并且k在如下值的范围内:这些值使得k与基频F0 106 的乘积保持在规定频率范围内。在一个实现方式中,规定频率范围是 50~5000Hz。已经发现该计算在吵杂和混响环境下提供鲁棒性能。注意, 不考虑高频带,因为其谐度相对低,并且与低频带相比,评估的谐波频率 可能是错误的。

1.2.4.3加权谐波分量建模

将所考虑的帧的子谐波与谐波之比SHR(l)112连同基频F0 106以及 振幅和像素值108提供给加权谐波建模模块114。加权谐波建模模块114 使用评估的F0 106及每个谐波频率下的振幅和相位来合成时域内的谐波 分量xeh(t)(稍后将说明)。然而,首先注意到,语音补偿后,所输入的帧 的混响尾部间隔的谐度逐渐减小并且可以被忽略。例如,可以采用话音活 动检测(VAD)技术识别DFT模块所产生的哪个振幅值落在规定的截止 阈值以下。如果振幅值落在截止阈值以下,则对于从正被处理的帧而言其 被消除。该截止阈值被设置为使得与混响尾部相关联的谐波频率通常落在 该阈值以下,从而去除尾部谐波。然而,还注意到,混响尾部间隔影响上 述HnHR,因为大部分晚期混响分量被包括在该间隔中。因此,在一个实 现方式中,不是去除全部尾部谐波,而是应用基于帧的振幅加权因子,以 逐渐降低混响尾部间隔中的合成谐波分量信号的能量。在一个实现方式 中,如下计算该因子:

W(l)=SHR(l)4SHR(l)4+ϵ,---(11)

其中,ε是加权参数。在所测试的实施例中,发现将ε设置为5产生满意的 结果,尽管也可以代替5而使用其它值。图2绘制出上述加权函数。可以 看出,当SHR大于7dB时(W(l)=1.0时),保持原始的谐波模型,并且 当SHR小于7dB时,谐波建模信号的振幅将逐渐减小。

假定在上述情况下,如下参考等式(4)并使用加权系数W(l)对于一 系列样本时间合成时域谐波分量xeh(t):

x^eh(l,t)=W(l)Σk=1K|K(l,kF0)|cos(S(kF0)+2πkF0t)---(12)

其中,对于所考虑的帧,为合成的时域谐波分量。注意,在一个实 现方式中,在系列样本时间t时,采用16kHz的采样频率来产生然后,将该帧的合成的时域谐波分量变换到频域以进行进一步处理。为此:

X^eh(l,f)=DFT(x^eh(l,t))---(13)

其中,是所考虑的帧的合成的频域谐波分量。

1.2.4.4非谐波分量评估

还将振幅和相位值108连同合成的频域谐波分量116提供给非 谐波分量评估模块118。非谐波分量评估模块118使用每个谐波频率下的 振幅和相位以及合成的频域谐波分量116来计算频域非谐波分量 Xnh(l,f)120。在不丧失一般性的情况下,可以假定谐波信号分量和非谐波 信号分量不相关。因此,在一个实现方式中,可以通过如下的谱减法,导 出非谐波部分的谱变化:

E{|Xnh(l,f)|2}=E{|X(l,f)-x^eh(l,f)|2}---(14)

1.2.4.5谐波与非谐波之比

合成的频域谐波分量118和频域非谐波分量|Xnh(l,f)120被提 供给HnHR模块122。HnHR模块122使用等式(9)的概念评估HnHR 124。更具体地,如下计算帧的HnHR 124:

HnHR=E{|X^eh(l,f)|2}E{|Xnh(l,f)|2}.---(15)

在一个实现方式中,等式15被简化为:

HnHR=Σf|X^eh(l,f)|2Σf|Xnh(l,f)|2,---(16)

其中,f是指帧的频谱中、与基频的规定数量的整数倍中的每一个相对应 的频率。

注意,不孤立地看待信号帧,而是可以考虑到一个或更多个先前帧来 对HnHR 124进行平滑。例如,在一个实现方式中,使用一阶递归平均技 术利用0.95的遗忘因子计算平滑的HnHR:

HnHR=E{|X^eh(l,f)|2}+0.95E{|X^eh(l-1,f)|2}E{|Xnh(l,f)|2}+0.95E{|Xnh(l-1,f)|2}---(17)

在一个实现方式中,等式17被简化为:

HnHR=Σf|X^eh(l,f)|2+0.95Σf|X^eh(l-1,f)|2Σf|Xnh(l,f)|2+0.95Σf|Xnh(l-1,f)|2---(18)

1.2.4.6示例性处理

前述计算程序架构可以有利地用于实现在此描述的语音质量评估技 术实施例。通常,对单通道音频信号中的音频帧的语音质量进行评估包括 将帧从时域变换到频域,然后计算变换后的帧的谐波分量和非谐波分量。 然后,计算谐波与非谐波之比(HnHR),其表示帧的语音质量的评估。

更具体地,参考图3,示出了用于评估一帧混响信号的语音质量的处 理的一个实现方式。该处理从输入一帧信号(处理操作300)开始,然后, 评估该帧的基频(处理操作302)。所输入的帧还被从时域变换到频域(处 理操作304)。然后,计算所获得的帧的频谱中与基频的规定数量的整数 倍中的每一个相对应的频率(即,谐波频率)的振幅和相位(处理操作 306)。接着,使用该振幅和相位值计算所输入的帧的子谐波与谐波之比 (SHR)(处理操作308)。然后,使用SHR连同基频以及振幅和相位值 来合成混响信号帧的谐波分量的表示(处理操作310)。如果上述振幅和 相位值以及合成的谐波分量已知,则然后在处理操作312中,计算混响信 号帧的非谐波分量(例如,通过使用谱减法技术)。然后,使用谐波和非 谐波分量计算谐波与非谐波之比(HnHR)(处理操作314)。如上所述, HnHR表示所输入的帧的语音质量。因此,计算出的HnHR被指定为该 帧的语音质量的评估值(处理操作316)。

1.3向用户的反馈

如上所述,HnHR表示用于计算该比率的单通道音频信号中的用户语 音的质量。这提供了使用HnHR建立最小语音质量阈值的机会,其中, 如果在该最小语音质量阈值以下,则认为该信号中的用户语音的质量是不 可接受的。实际的阈值将取决于应用,因为某些应用需要比其它应用高的 质量。由于可以容易地针对应用建立阈值而无需过度的实验,因此在此不 详细描述其建立。然而,注意,在一个涉及无噪声条件的测试实现方式中, 主观地将最小语音质量阈值设置为具有可接受结果的10dB。

在给定最小语音质量阈值的情况下,每当规定数量的连续音频帧具有 所计算的不超过阈值的HnHR时,可以向用户提供反馈:所捕获的音频 信号的语音质量落在可接受水平之下。该反馈可以是任何适当方式的,例 如,可以是视觉的、听觉的、触觉的等。该反馈还可以包括指示用户改善 所捕获的音频信号的语音质量的指令。例如,在一个实现方式中,该反馈 可以包括请求用户靠近音频捕获设备。

1.3.1示例性用户反馈处理

通过可选地添加反馈模块126(示为虚线框以表示其可选性),上述 图1的计算程序架构可以有利地用于向用户提供关于所捕获的音频信号 中他或者她的语音的质量是否落在规定阈值以下的反馈。更具体地,参考 图4,给出了如下处理的一种实现方式:该处理用于向音频语音捕获系统 的用户提供关于所捕获的单通道音频信号中的人类语言的质量的反馈。

该处理从输入所捕获的音频信号开始(处理操作400)。监视该捕获 的音频信号(处理操作402),并且定期地确定音频信号的语音质量是否 落在规定的可接受水平以下(处理操作404)。如果不是在规定的可接受 水平以下,则重复处理操作402和404。然而,如果确定音频信号的语音 质量落在规定的可接受水平以下,则向用户提供反馈(处理操作406)。

以与结合图3描述的方式非常相似的方式,实现用于确定音频信号的 语音质量是否落在规定水平以下的操作。更具体地,参考图5A~5B,这 种处理的一个实现方式涉及首先将音频信号分割为音频帧(处理操作 500)。注意,可以按照在该示例性处理的实时实现方式中正被捕获的样子 输入该音频信号。从最早的帧开始按照时间顺序选择先前未选择过的音频 帧(处理操作502)。注意,由于这些帧在该处理的实时实现方式中产生, 因此可以按照时间顺序分割和选择它们。

接着,对所选择的帧的基频进行评估(处理操作504)。所选择的帧 还被从时域变换到频域,以产生该帧的频谱(处理操作506)。然后,计 算所选择的帧的频谱中与基频的规定数量的整数倍中的每一个相对应的 频率(即,谐波频率)的振幅和相位(处理操作508)。

接着,使用振幅和相位值计算所选择的帧的子谐波与谐波之比(SHR) (处理操作510)。然后,使用SHR连同基频以及振幅和相位值来合成所 选择的帧的谐波分量的表示(处理操作512)。在给定上述振幅和相位值 以及合成的谐波分量的情况下,然后计算所选择的帧的非谐波分量(处理 操作514)。然后,使用谐波分量和非谐波分量计算所选择的帧的谐波与 非谐波之比(HnHR)(处理操作516)。

接着,确定对所选择的帧计算的HnHR是否等于或大于规定的最小 语音质量阈值(处理操作518)。如果确定为肯定的,则重复处理操作502 至518。如果确定为否定的,则在处理操作520中,确定对规定数量的紧 前帧计算的HnHR是否也不满足等于或大于规定的最小语音质量阈值(例 如,30个先前帧)。如果确定为否定的,则重复处理操作502至520。然 而,如果对规定数量的紧前帧计算的HnHR不满足等于或大于规定的最 小语音质量阈值,则认为音频信号的语音质量落在规定的可接受水平以 下,并且向用户反馈该效果(处理操作522)。然后,只要该处理在运行 中,就根据需要重复处理操作502至522。

2.0示例性运行环境

在此描述的语音质量评估技术实施例可以在许多类型的通用或专用 计算系统环境或配置中运行。图6示出其上可以实现在此描述的语音质量 评估技术实施例的各种实现和元件的通用计算机系统的简化示例。应当注 意,图6中由虚线或点划线表示的任何方框表示简化的计算设备的替换实 施方式,并且如下所述,这些替换实施方式中的任何一个或全部都可以与 本文全文中描述的其它替换实施例结合使用。

例如,图6示出用于说明简化的计算设备10的通用系统图。典型地 在具有至少一些最小计算能力的设备中可以找到这种计算设备,包括但不 限于:个人计算机、服务器计算机、手持计算设备、膝上型计算机或者移 动计算机、诸如蜂窝电话和PDA的通信设备、微处理器系统、基于微处 理器的系统、机顶盒、可编程消费型电子产品、网络PC、小型计算机、 大型计算机、音频或视频媒体播放器等。

为了使设备实现在此描述的语音质量评估技术实施例,设备应当具有 足够的计算能力和系统存储器,以允许基本的计算操作。特别地,如图6 所示,计算能力通常通过一个或更多个处理单元12示出,并且计算能力 还可包括一个或更多个GPU 14,处理单元12或GPU 14之一与系统存储 器16通信或者二者都与系统存储器16通信。注意,通用计算设备的处理 单元12可以是专用微处理器,诸如DSP、VLIW或其它微控制器,或者 可以是具有一个或更多个处理核(包括多核CPU中基于专用GPU的核) 的常规CPU。

此外,图6的简化的计算设备还可以包括其它部件,诸如例如通信接 口18。图6的简化的计算设备还可以包括一个或更多个常规计算机输入 设备20(例如,指示设备、键盘、音频输入设备、视频输入设备、触觉 输入设备、用于接收有线或无线数据传输的设备等)。图6的简化的计算 设备还可以包括其它可选部件,诸如例如,一个或更多个常规显示设备 24和其它计算机输出设备22(例如,音频输出设备、视频输出设备、用 于发送有线或无线数据传输的设备等)。注意,本领域的技术人员已知通 用计算机的典型的通信接口18、输入设备20、输出设备22、以及存储设 备26,因此在此不做详细描述。

图6的简化的计算设备还可以包括各种计算机可读介质。计算机可读 介质可以是计算机10经由存储设备26可以访问的任何可用介质,并且包 括作为可移动存储器28和/或不可移动存储器30的易失性介质和非易失 性介质,用于存储诸如计算机可读或计算机可执行指令、数据结构、程序 模块或者其它数据的信息。作为示例而非限制,计算机可读介质可以包括 计算机存储介质和通信介质。计算机存储介质包括但并不限于计算机或机 器可读介质或存储设备,诸如DVD、CD、软盘、磁带驱动器、硬盘驱动 器、光盘驱动器、固态存储器设备、RAM、ROM、EEPROM、闪速存 储器或者其它存储器技术、磁盒、磁带、磁盘存储设备、或者其它磁存储 设备,或者可以用于存储期望的信息并且可以被一个或更多个计算设备访 问的任何其它设备。

还可以通过使用用于对一个或更多个调制数据信号或载波编码的各 式各样的上述通信介质中的任何一种、或者包括任何有线或无线信息传送 机制的其它传输机制或通信协议,来实现对诸如计算机可读或计算机可执 行指令、数据结构、程序模块等的信息的保持。注意,术语“调制数据信 号”或“载波”通常指这样的信号:对该信号中的信息编码,使得该信号 的一个或更多个特性被设定或者改变。例如,通信介质包括有线介质(诸 如用于承载一个或更多个调制数据信号的有线网络或直接有线连接)以及 无线介质(诸如声学无线介质、RF无线介质、红外无线介质、激光无线 介质以及其它用于发送和/或接收一个或更多个调制数据信号或载波的无 线介质)。上述任何一项的组合也应当被包括在通信介质的范围内。

此外,用于实现在此描述的各种语音质量评估技术实施例中的一些或 者全部的软件、程序和/或计算机程序产品或者其各部分可以以计算机可 执行指令或者其它数据结构的形式被存储、接收、发送或者从计算机或者 机器可读介质或者存储设备和通信介质的任何期望组合中读取。

最后,可以在计算设备正执行计算机可执行指令(诸如程序模块)的 一般上下文中进一步描述在此描述的语音质量评估技术实施例。通常,程 序模块包括用于执行特定任务或者实现特定抽象数据类型的例程、程序、 对象、组件、数据结构等。在此描述的实施例还可以在通过一个或更多个 远程处理设备执行任务的分布式计算环境下、或者在一个或更多个通过一 个或更多个通信网链接的设备的云中实施。在分布式计算环境下,程序模 块可以位于包括介质存储设备的本地和远程计算机存储介质中。另外,上 述指令可以被部分地或者全部实现为可能包括也可能不包括处理器的硬 件逻辑电路。

本发明可以通过以下方案来实施:

1.一种用于评估包括人类语音分量的单通道音频信号中的音频帧的 语音质量的计算机实现的处理,所述处理包括:

使用计算机执行以下处理操作:

输入所述音频信号的帧;

将所输入的帧从时域变换到频域;

计算变换后的帧的谐波分量;

计算变换后的帧的非谐波分量;

计算谐波与非谐波之比(HnHR);以及

将计算出的HnHR指定为所述单通道音频信号中的所输入的帧的语 音质量的评估值。

2.一种用于评估包括人类语音分量的单通道音频信号中的音频帧的 语音质量的计算机实现的处理,所述处理包括:

使用计算机执行以下处理操作:

输入所述音频信号的帧;

对所输入的帧的基频进行评估;

将所输入的帧从时域变换到频域以产生所述帧的频谱;

计算所述帧的频谱中与基频的规定数量的整数倍中的每一个相对应 的频率的振幅和相位值;

基于计算出的振幅和相位值,计算所输入的帧的子谐波与谐波之比 (SHR);

基于计算出的SHR连同所述基频以及所述振幅和相位值,合成所输 入的帧的谐波分量表示;

基于所述振幅和相位值连同所合成的谐波分量表示,计算所输入的帧 的非谐波分量;

基于所合成的谐波分量表示和所述非谐波分量,计算谐波与非谐波之 比(HnHR);以及

将计算出的HnHR指定为所述单通道音频信号中的所输入的帧的语 音质量的评估值。

3.根据方案2所述的处理,其中所述将所输入的帧从时域变换到频 域以产生所述帧的频谱的处理操作包括:采用离散傅立叶变换(DFT)。

4.根据方案3所述的处理,其中所述计算振幅和相位值的处理操作 包括:计算所述帧的频谱中与基频的规定数量的整数倍中的每一个相对应 的频率的振幅和相位值,其中所述整数的值在如下范围内:该值使得每个 整数值与所述基频的乘积保持在规定频率范围内。

5.根据方案4所述的处理,其中所述规定频率范围是50~5000Hz。

6.根据方案2所述的处理,其中所述基于计算出的振幅和相位值计 算所输入的帧的子谐波与谐波之比(SHR)的处理操作包括:计算如下在 先的和除以在后的和的商:针对所述帧的频谱中与基频的规定数量的整数 倍中的每一个相对应的频率所计算的振幅值的和;针对所述帧的频谱中与 基频的规定数量的整数倍减0.5中的每一个相对应的频率所计算的振幅值 的和。

7.根据方案2所述的处理,其中所述基于计算出的SHR连同所述基 频以及所述振幅和相位值合成所输入的帧的谐波分量表示的处理操作包 括:

计算振幅加权因子W(l)以便以所述帧的混响尾部间隔逐渐降低所述 帧的谐波分量信号的合成表示的能量;

使用下述等式对一系列样本时间合成所述帧的时域谐波分量

x^eh(l,t)=W(l)Σk=1K|X(l,kF0)|cos(S(kF0)+2πkF0t),

其中l是所考虑的帧,t是样本时间值,F0是基频,k是所述基频的整数 倍,K是最大整数倍,以及S是对应于所述帧的时域信号;以及

采用离散傅立叶变换(DFT)将所述帧的合成的时域谐波分量变换到频域,以便在所述帧的频谱中与所述基频的规定数量的整数倍中的 每一个相对应的各频率f下产生所述帧l的合成的频域谐波分量

8.根据方案7所述的处理,其中所述计算振幅加权因子W(l)的处理 操作包括:计算所计算出的SHR的四次幂除以如下和的商:该和为所计 算出的SHR的四次幂与规定加权参数相加的和。

9.根据方案7所述的处理,其中所述基于所述振幅和相位值连同所 合成的谐波分量表示计算所输入的帧的非谐波分量的处理操作包括:

对于所述帧的频谱中与基频的整数倍对应的每个频率,从所述帧在该 频率下的计算出的振幅值中减去与该频率相关联的、合成的频域谐波分 量,以产生差值;以及

使用期望算子函数从所产生的差值计算非谐波分量期望值。

10.根据方案9所述的处理,其中所述计算HnHR的处理操作包括:

使用期望算子函数从与如下频率相关联的合成的频域谐波分量计算 谐波分量期望值:该频率为所述帧的频谱中与所述基频的整数倍对应的频 率;

计算所计算出的谐波分量期望值除以所计算出的非谐波分量期望值 的商;以及

将所述商指定为HnHR。

11.根据方案7所述的处理,其中所述基于所述振幅和相位值连同所 合成的谐波分量表示计算所输入的帧的非谐波分量的处理操作包括:

对于所述帧的频谱中与基频的整数倍对应的每个频率,从所述帧在该 频率下的计算出的振幅值中减去与该频率相关联的、合成的频域谐波分 量,以产生差值;以及

对每个差值的平方求和,以计算非谐波分量值。

12.根据方案11所述的处理,其中所述计算HnHR的处理操作包括:

对于与如下频率相关联的每个合成的频域谐波分量的平方求和以产 生谐波分量值:该频率为所述帧的频谱中的与所述基频的整数倍相对应的 频率;

计算所述谐波分量值除以所述非谐波分量值的商;以及

将所述商指定为HnHR。

13.根据方案7所述的处理,其中所述计算HnHR的处理操作包括: 计算平滑HnHR,所述平滑HnHR是使用针对所述音频信号的一个或更 多个先前帧计算的HnHR的一部分来进行平滑的。

14.根据方案13所述的处理,其中所述基于所述振幅和相位值连同 所合成的谐波分量表示计算所输入的帧的非谐波分量的处理操作包括:

对于所述帧的频谱中与基频的整数倍对应的每个频率,从所述帧在该 频率下的计算出的振幅值中减去与该频率相关联的、合成的频域谐波分 量,以产生差值;

使用期望算子函数从所产生的差值计算非谐波分量期望值;以及

将针对音频信号的当前帧的紧前帧计算的平滑非谐波分量期望值的 规定百分比与针对所述当前帧计算的非谐波分量期望值相加,以产生所述 当前帧的平滑非谐波分量期望值。

15.根据方案14所述的处理,其中所述计算平滑HnHR的处理操作 包括:

使用期望算子函数从与如下频率相关联的合成的频域谐波分量计算 谐波分量期望值:该频率为所述帧的频谱中与所述基频的整数倍对应的频 率;

将针对音频信号的当前帧的紧前帧计算的平滑谐波分量期望值的规 定百分比与针对所述当前帧计算的谐波分量期望值相加,以产生所述当前 帧的平滑谐波分量期望值;

计算所述平滑谐波分量期望值除以所述平滑非谐波分量期望值的商; 以及

将所述商指定为平滑HnHR。

16.根据方案13所述的处理,其中所述基于所述振幅和相位值连同 所合成的谐波分量表示计算所输入的帧的非谐波分量的处理操作包括:

对于所述帧的频谱中对应于基频的整数倍的每个频率,从所述帧在该 频率下的计算出的振幅值中减去与该频率相关联的、合成的频域谐波分 量,以产生差值;以及

对每个差值的平方求和,以计算非谐波分量值;以及

将针对音频信号的当前帧的紧前帧计算的平滑非谐波分量值的规定 百分比与针对所述当前帧计算的非谐波分量值相加,以产生所述当前帧的 平滑非谐波分量期望值。

17.根据方案16所述的处理,其中所述计算平滑HnHR的处理操作 包括:

对于与如下频率相关联的每个合成的频域谐波分量的平方求和以产 生谐波分量值:该频率为所述帧的频谱中的与所述基频的整数倍相对应的 频率;

将针对音频信号的当前帧的紧前帧计算的平滑谐波分量值的规定百 分比与针对所述当前帧计算的谐波分量值相加,以产生所述当前帧的平滑 谐波分量值;

计算所述平滑谐波分量值除以所述平滑非谐波分量值的商;以及

将所述商指定为平滑HnHR。

18.根据方案2所述的处理,还包括:在执行所述对所输入的帧的基 频进行评估的处理操作之前执行如下处理操作:

采用话音活动检测(VAD)技术确定与所输入的帧相关联的信号的功 率是否小于规定的最小功率阈值;以及

每当确定与所输入的帧相关联的信号的功率量小于规定的最小功率 阈值时,从进一步处理中去除所述帧。

19.一种计算机实现的处理,所述处理用于向音频语音捕获系统的用 户提供关于包括人类语音分量的所捕获的单通道音频信号中的语言质量 的反馈,所述处理包括:

使用计算机执行以下处理操作:

输入所述捕获的音频信号;

确定所述捕获的音频信号的语音质量是否落在规定的可接受水平以 下;以及

每当所述捕获的音频信号的语音质量落在所述规定的可接受水平以 下时,向所述用户提供反馈。

20.根据方案19所述的处理,其中所述确定所述捕获的音频信号的 语音质量是否落在规定的可接受水平以下的处理操作包括如下处理操作:

将所输入的信号分割为音频帧;

对于按照时间顺序以最早的音频帧起始的每个音频帧,

对所述帧的基频进行评估,

将所述帧从时域变换到频域,以产生所述帧的频谱,

计算所述帧的频谱中与基频的规定数量的整数倍中的每一个相 对应的频率的振幅和相位值,

基于计算出的振幅和相位值,计算所述帧的子谐波与谐波之比 (SHR),

基于计算出的SHR连同所述基频以及所述振幅和相位值,合成 所述帧的谐波分量表示,

基于所述振幅和相位值连同所合成的谐波分量表示,计算所述帧 的非谐波分量,以及

基于所合成的谐波分量表示和所述非谐波分量,计算谐波与非谐 波之比(HnHR),

每当规定数量的连续音频帧具有计算出的不超过规定的语音质 量阈值的HnHR时,认为所述捕获的音频信号的语音质量落在规定的可 接受水平以下。

3.0其它实施例

尽管迄今为止所描述的语音质量评估技术实施例对从所捕获的音频 信号获得的每个帧进行处理,但是并不需要这样。在一个实施例中,在对 每个音频帧进行处理之前,可以采用VAD技术确定与该帧相关联的信号 的功率是否低于规定的最小功率阈值。如果该帧的信号功率低于所规定的 最小功率阈值,则认为该帧没有话音活动,并且从进一步的处理中去除该 帧。这可以获得降低的处理成本以及更快的处理。注意,该规定的最小功 率阈值被设置为:使得与混响尾部相关联的大多数谐波频率通常将超过该 阈值,从而基于上面描述的原因而保留尾部谐波。在一个实现方式中,规 定的最小功率阈值被设置为平均信号功率的3%。

注意,可以任意期望的组合使用贯穿说明书的上述实施例中的任何一 个或者全部,以形成另外的混合实施例。此外,尽管以结构特征和/或方 法论行为特有的语言描述了主题,但是应当理解,所附权利要求中限定的 主题不必限于上面描述的特定特征或行为。相反,上面描述的特定特征和 行为被公开为实现权利要求的示例形式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号