首页> 中国专利> 声学信号处理装置和声学信号处理方法

声学信号处理装置和声学信号处理方法

摘要

提供一种用于调节起音、余音和噪声成分并且使输出音适合收听者的偏好的声学信号处理装置。该声学信号处理装置包括:FFT部,用于通过将输入音频信号从时域变换成频域来计算频谱信号,并且生成第一振幅谱信号和相位谱信号;起音成分控制器(10),用于通过控制第一振幅谱信号的起音成分来生成第二振幅谱信号;余音成分控制器(20),用于通过控制第一振幅谱信号的余音成分来生成第三振幅谱信号;第一相加部(40),用于通过将第一振幅谱信号、第二振幅谱信号和第三振幅谱信号进行合成来生成第四振幅谱信号;以及IFFT部,用于基于第四振幅谱信号和FFT部所生成的相位谱信号来生成从频域变换成时域的音频信号。

著录项

  • 公开/公告号CN104185870A

    专利类型发明专利

  • 公开/公告日2014-12-03

    原文格式PDF

  • 申请/专利权人 歌乐株式会社;

    申请/专利号CN201380013601.X

  • 发明设计人 桥本武志;渡边哲生;

    申请日2013-01-23

  • 分类号G10L21/0364(20060101);H04R3/04(20060101);

  • 代理机构北京林达刘知识产权代理事务所(普通合伙);

  • 代理人刘新宇

  • 地址 日本埼玉县

  • 入库时间 2023-12-17 03:40:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-10-26

    授权

    授权

  • 2014-12-31

    实质审查的生效 IPC(主分类):G10L21/0364 申请日:20130123

    实质审查的生效

  • 2014-12-03

    公开

    公开

说明书

技术领域

本发明涉及声学信号处理装置和声学信号处理方法,并且更具体地,涉 及能够进行所输入的音频信号中的起音(attack sound)或余音(reverberation)的 增强/降低处理以及噪声降低处理等的声学信号处理装置和声学信号处理方 法。

背景技术

如今,经常使用数据压缩后的数字音频信号来生成音乐。作为数据压缩 后的数字音频信号其中之一,众所周知有MP3(MPEG音频层-3)。MP3是用 于使用数字技术来处理声学数据的压缩方法其中之一。如今,MP3广泛用在 携带型音乐播放器等中。

诸如MP3等的一般的数字音频信号的问题在于以下:在直接对解压缩后 的数字音频信号进行模拟转换以供输出的情况下,起音(起音成分)劣化而使 音质受损。为了应对该问题,提出了放大起音的信号输出的数字信号处理装 置(例如,参考专利文献1)。

所提出的数字信号处理装置将经由带分割滤波器所提取的预定频带的 信号电平与预定阈值电平进行比较,并且将电平等于或高于阈值电平的数字 信号检测作为起音。然后,数字信号处理装置放大所检测到的起音,并将放 大后的起音与带分割之前的数字信号合成,由此增强起音。

如上所述,可以根据信号电平来放大并增强预定频带中所包括的起音, 以使得在例如放大低频起音的情况下,可以增强诸如鼓声等的强力音的动 感。在放大高频起音的情况下,可以使诸如钹声等的声音的透明感更强。

如上所述,通过根据信号电平放大并增强起音可能会使输出声音整体变 尖锐。因而,所提出的装置可以在起音可能明显劣化的诸如MP3等的压缩后 的音频信号的质量方面带来高的改善效果。

现有技术文献

专利文献

专利文献1:日本特开2007-36710

发明内容

发明要解决的问题

在上述的声学信号处理装置中,基于预定阈值来检测声源中所包括的起 音。然而,声源还收录各种振幅电平,由此仅基于阈值难以充分检测到起音。

在包括乐器声和语音这两者的声源中,通过将乐器声和语音合成来表示 声源的振幅,由此基于阈值难以将乐器声的起音的信号电平与语音的信号电 平区分开。因此,不仅乐器声的起音被不利地放大,而且语音信号也被不利 地放大。

此外,乐器声包括波形的上升时的起音和在该起音之后持续的余音(余 音成分)。然而,上述的数字信号处理装置仅控制起音,但没有特别控制余 音。因此,尽管可以通过放大起音来获得尖锐的输出声音,但存在与余音相 比仅尖锐感被过度增强的可能性。

此外,与均匀地放大预定频带的使用例如均衡器的传统放大方法相比, 上述的数字信号处理装置可以在S/N比(信噪比)没有降低的情况下增强输出 声音。然而,在声源的收录环境中始终存在噪声的情况下、特别是在起音的 提取带中包括稳态噪声的情况下,可以增强包括噪声的起音以供合成,这可 能导致S/N比大幅降低。

此外,在收听音乐时,音乐对于收听者而言是好是坏在很大程度上依赖 于收听者的偏好。因而,一些收听者喜欢尖锐声音,而另一些收听者则认为 尖锐声音烦人。一些收听者喜欢包括大量余音成分的声音,而另一些收听者 则不喜欢这种声音。一些收听者喜欢包括声源本身中所包含的稳态信号成分 (共鸣)或声源的收录环境中所包含的稳态噪声成分作为具有现场感的声音, 而另一些收听者则喜欢清晰声音。也就是说,仅通过使用上述的数字信号处 理装置放大起音以产生尖锐声音,不容易满足收听者的各种偏好(要求)。

本发明是考虑到上述问题而作出的,并且其目的是提供一种声学信号处 理装置和声学信号处理方法,其中该声学信号处理装置和声学信号处理方法 能够通过调节诸如乐器声等的声源中所包括的起音、在该起音之后持续的余 音、以及收录环境中的稳态噪声成分或声源中所包括的稳态信号成分,来产 生满足收听者偏好的输出声音。

用于解决问题的方案

根据本发明的一种声学信号处理装置,包括:快速傅立叶变换部即FFT 部,用于进行以下操作:在时间每次偏移傅立叶变换长度和重叠长度之间的 差分时间的情况下对输入音频信号进行短时间傅立叶变换,以计算在时间上 彼此相差了所述差分时间的多个振幅谱;针对各频率来计算所计算出的各振 幅谱的时间变化,以将所述输入音频信号从时域变换成频域并且计算频谱信 号;以及基于所计算出的频谱信号来生成第一振幅谱信号和相位谱信号;起 音成分控制器,用于控制所述FFT部所生成的所述第一振幅谱信号的起音成 分,以生成第二振幅谱信号;余音成分控制器,用于控制所述FFT部所生成 的所述第一振幅谱信号的余音成分,以生成第三振幅谱信号;第一相加部, 用于将所述FFT部所生成的所述第一振幅谱信号、所述起音成分控制器所生 成的所述第二振幅谱信号和所述余音成分控制器所生成的所述第三振幅谱 信号进行合成,以生成第四振幅谱信号;以及逆快速傅立叶变换部即IFFT部, 用于基于所述第一相加部所生成的所述第四振幅谱信号和所述FFT部所生成 的所述相位谱信号来计算频谱信号,并且对所计算出的频谱信号进行短时间 逆傅立叶变换处理和重叠相加,以生成从频域变换成时域的音频信号,其中, 所述起音成分控制器包括:第一高通滤波器部即第一HPF部,用于针对各谱, 基于预设的第一截止频率来对所述FFT部所生成的所述第一振幅谱信号进行 高通滤波处理;第一限幅器部,用于对所述第一HPF部进行了高通滤波处理 的振幅谱信号的负侧振幅进行限制以将该负侧振幅设置为0,从而针对各谱 来检测该振幅谱信号的起音成分;以及第一增益部,用于基于预设的第一加 权量来对所述第一限幅器部所检测到的振幅谱信号的起音成分进行加权处 理,以及所述余音成分控制器包括:第二高通滤波器部即第二HPF部,用于 针对各谱,基于预设的第二截止频率来对所述FFT部所生成的所述第一振幅 谱信号进行高通滤波处理;振幅反转部,用于将所述第二HPF部进行了高通 滤波处理的振幅谱信号乘以-1,以进行振幅反转;第二限幅器部,用于对所 述振幅反转部进行了振幅反转的振幅谱信号的负侧振幅进行限制以将该负 侧振幅设置为0,从而针对各谱来检测该振幅谱信号的余音成分;以及第二 增益部,用于基于预设的第二加权量来对所述第二限幅器部所检测到的振幅 谱信号的余音成分进行加权处理。

根据本发明的一种声学信号处理装置的声学信号处理方法,其中在所述 声学信号处理装置中,对输入音频信号进行起音成分控制和余音成分控制, 所述声学信号处理装置包括:快速傅立叶变换部即FFT部,用于将所述输入 音频信号从时域变换成频域以计算频谱信号,并且生成第一振幅谱信号和相 位谱信号;起音成分控制器,用于控制所述FFT部所生成的所述第一振幅谱 信号的起音成分,以生成第二振幅谱信号;余音成分控制器,用于控制所述 FFT部所生成的所述第一振幅谱信号的余音成分,以生成第三振幅谱信号; 第一相加部,用于将所述FFT部所生成的所述第一振幅谱信号、所述起音成 分控制器所生成的所述第二振幅谱信号和所述余音成分控制器所生成的所 述第三振幅谱信号进行合成,以生成第四振幅谱信号;以及逆快速傅立叶变 换部即IFFT部,用于基于所述第一相加部所生成的所述第四振幅谱信号和所 述FFT部所生成的所述相位谱信号,来生成从频域变换成时域的音频信号, 所述起音成分控制器包括:第一高通滤波器部即第一HPF部、第一限幅器部 和第一增益部,所述余音成分控制器包括:第二高通滤波器部即第二HPF部、 振幅反转部、第二限幅器部和第二增益部,其中,所述声学信号处理方法包 括以下步骤:利用所述FFT部来进行以下操作:在时间每次偏移傅立叶变换 长度和重叠长度之间的差分时间的情况下对所述输入音频信号进行短时间 傅立叶变换,以计算在时间上彼此相差了所述差分时间的多个振幅谱;针对 各频率来计算所计算出的各振幅谱的时间变化以计算频谱信号;以及基于所 计算出的频谱信号来生成所述第一振幅谱信号和所述相位谱信号;在所述起 音成分控制器中,进行以下操作:利用所述第一HPF部,针对各谱、基于预 设的第一截止频率来对所述FFT部所生成的所述第一振幅谱信号进行高通滤 波处理;利用所述第一限幅器部,对所述第一HPF部进行了高通滤波处理的 振幅谱信号的负侧振幅进行限制以将该负侧振幅设置为0,从而针对各谱来 检测该振幅谱信号的起音成分;以及利用所述第一增益部,基于预设的第一 加权量来对所述第一限幅器部所检测到的振幅谱信号的起音成分进行加权 处理,以及在所述余音成分控制器中,进行以下操作:利用所述第二HPF部, 针对各谱、基于预设的第二截止频率来对所述FFT部所生成的所述第一振幅 谱信号进行高通滤波处理;利用所述振幅反转部,将所述第二HPF部进行了 高通滤波处理的振幅谱信号乘以-1,以进行振幅反转;利用所述第二限幅器 部,对所述振幅反转部进行了振幅反转的振幅谱信号的负侧振幅进行限制以 将该负侧振幅设置为0,从而针对各谱来检测该振幅谱信号的余音成分;以 及利用所述第二增益部,基于预设的第二加权量来对所述第二限幅器部所检 测到的振幅谱信号的余音成分进行加权处理;利用所述第一相加部,将所述 第一振幅谱信号、所述第一增益部对起音成分进行了加权处理的所述第二振 幅谱信号、以及所述第二增益部对余音成分进行了加权处理的所述第三振幅 谱信号进行合成,以生成第四振幅谱信号;以及利用所述IFFT部,基于所述 第四振幅谱信号和所述FFT部所生成的所述相位谱信号来计算频谱信号,并 且对所计算出的频谱信号进行短时间逆傅立叶变换和重叠相加,以生成从频 域变换成时域的音频信号。

在根据本发明的声学信号处理装置和声学信号处理方法中,通过调整起 音成分控制器的第一增益部的第一加权量,可以增强/降低音频信号的起音成 分(起音)。此外,通过调整第一HPF部的第一截止频率,可以改变起音成分 的控制时间(增强时间、降低时间)。因而,通过根据信号电平放大起音成分 以增强该起音成分,可以使输出音整体变尖锐。此外,通过控制诸如MP3等 的常见数字音频信号中的可能劣化的起音成分,可以提高数字音频信号的音 质。

此外,在根据本发明的声学信号处理装置和声学信号处理方法中,通过 调整余音成分控制器的第二增益部的第二加权量,可以增强/降低音频信号的 余音成分(余音)。此外,通过调整第二HPF部的第二截止频率,可以改变余 音的控制时间(增强时间、降低时间)。因而,可以根据收听者的偏好来增强 或降低余音。

此外,基于频域的各振幅谱的变化量来进行上述的利用起音成分控制器 的起音成分控制处理和利用余音成分控制器的余音成分控制处理。这样解决 了在使用阈值来识别起音的传统方法中所产生的问题、即防止了检测状态受 到声源的振幅电平的大幅影响。

此外,可以针对各振幅谱来个别设置起音成分控制器和余音成分控制器 中的截止频率(第一截止频率和第二截止频率)或加权量(第一加权量和第二 加权量)。因而,如下结构也是可能的:将频带分割成多个带,并且针对多 个带各自进行设置。

例如,将所输入的音频信号的频率区域分割成低频区域、中频区域和高 频区域。在这种情况下,通过在低频区域中增强起音成分并且降低余音,可 以再现鼓等的击打力和应答性的声音。此外,在中频区域中,增强余音成分 以增强语音的共鸣。此外,在高频区域中,增强起音成分以使钹声等的透明 感更强。

上述的声学信号处理装置还可以包括噪声控制器,所述噪声控制器用于 对所述第一相加部所生成的所述第四振幅谱信号进行噪声控制,以生成第五 振幅谱信号,其中,所述IFFT部基于所述噪声控制器所生成的所述第五振幅 谱信号和所述FFT部所生成的所述相位谱信号,来生成从频域变换成时域的 音频信号,以及所述噪声控制器包括:第三高通滤波器部即第三HPF部,用 于针对各谱,基于预设的第三截止频率来对所述第一相加部所生成的所述第 四振幅谱信号进行高通滤波处理;第三限幅器部,用于对所述第三HPF部进 行了高通滤波处理的振幅谱信号的负侧振幅进行限制,以将该负侧振幅设置 为0;第三增益部,用于基于预设的作为0以上且1以下的值的第三加权量, 来对所述第三限幅器部对负侧振幅进行了限制的振幅谱信号进行加权处理; 第四增益部,用于基于通过从值1中减去所述第三加权量的值所获得的加权 量,来对所述第一相加部所生成的所述第四振幅谱信号进行加权处理;以及 第二相加部,用于将所述第三增益部进行了加权处理的振幅谱信号和所述第 四增益部进行了加权处理的振幅谱信号进行合成,以生成所述第五振幅谱信 号。

在所述声学信号处理方法中,所述声学信号处理装置还可以包括:噪声 控制器,用于对所述第一相加部所生成的所述第四振幅谱信号进行噪声控 制,以生成第五振幅谱信号,所述噪声控制器包括:第三高通滤波器部即第 三HPF部、第三限幅器部、第三增益部、第四增益部和第二相加部,其中, 所述声学信号处理方法还可以包括以下步骤:利用所述IFFT部,基于所述噪 声控制器所生成的所述第五振幅谱信号和所述FFT部所生成的所述相位谱信 号来生成从频域变换成时域的音频信号;以及在所述噪声控制器中,进行以 下操作:利用所述第三HPF部,针对各谱、基于预设的第三截止频率来对所 述第一相加部所生成的所述第四振幅谱信号进行高通滤波处理;利用所述第 三限幅器部,对所述第三HPF部进行了高通滤波处理的振幅谱信号的负侧振 幅进行限制,以将该负侧振幅设置为0;利用所述第三增益部,基于预设的 作为0以上且1以下的值的第三加权量来对所述第三限幅器部对负侧振幅进 行了限制的振幅谱信号进行加权处理;利用所述第四增益部,基于通过从值 1中减去所述第三加权量的值所获得的加权量来对所述第一相加部所生成的 所述第四振幅谱信号进行加权处理;以及利用所述第二相加部,将所述第三 增益部进行了加权处理的振幅谱信号和所述第四增益部进行了加权处理的 振幅谱信号进行合成,以生成所述第五振幅谱信号。

此外,在根据本发明的声学信号处理装置和声学信号处理方法中,通过 调整噪声控制器的第三增益部和第四增益部的加权量,可以调整噪声降低 量。此外,通过调整第三HPF部的第三截止频率,可以抑制噪声的DC成分。 因而,可以调整声源的收录环境或声源本身中所包括的稳态噪声。

此外,上述的噪声降低处理由噪声控制器基于频域的各振幅谱的变化量 来进行。这样解决了使用阈值来识别起音的传统方法中所产生的问题、即防 止了检测状态受到声源的振幅电平的大幅影响。

在再现包括声源本身中所包含的稳态信号成分和/或声源的收录环境中 所包含的稳态噪声成分的音频信号的情况下,噪声等可能作为具有现场感的 声音被感知为“收听者处于收录环境”;然而,乐器声或语音的清晰度趋于下 降。在这种情况下,通过使用根据本发明的声学信号处理装置和声学信号处 理方法,可以在噪声控制器中进行噪声控制以调整噪声的降低量,由此使得 能够在一定程度上维持现场感的同时,将乐器声或语音的声学成分输出作为 清晰声音。

发明的效果

在根据本发明的声学信号处理装置和声学信号处理方法中,可以调节诸 如乐器声等的声源中所包括的起音成分(起音)、在该起音成分之后持续的余 音成分(余音)、以及收录环境中的稳态噪声成分或声源中所包括的稳态信号 成分,由此满足收听者的各种偏好。

附图说明

图1是示出根据实施例的声学信号处理装置的示意结构的框图。

图2是示出根据实施例的向着FFT部所输入的音频信号、以及在对该音频 信号进行短时间傅立叶变换处理的情况下的傅立叶变换长度N和重叠长度M 的图。

图3是示出根据实施例的FFT部中的针对各时间偏移的振幅谱的图。

图4是示出根据实施例的FFT部中的振幅谱的时间变化的图。

图5是示出根据实施例的频谱域滤波部的示意结构的框图。

图6是用于说明针对各频率执行根据实施例的声学信号处理装置的处理 的状态的图。

图7(a)是示出第一增益部和第二增益部中所设置的加权量和与该加权量 相对应的增强/降低量之间的关系的图;并且(b)是示出第一HPF部和第二HPF 部中所设置的截止频率的值和根据所设置的截止频率而改变的起音或余音 的控制时间之间的关系的图。

图8(a)是示出噪声控制器的第三增益部中的加权量和噪声降低量之间的 关系的图;并且(b)是示出声学信号处理中所使用的所输入的音频信号的状态 的示例的图。

图9(a)是示出在仅使起音控制器的第一HPF部和第一限幅器部进行工作 的情况下所获得的输出信号的图;并且(b)是示出如下信号的图,其中该信号 是通过将通过使第一HPF部和第一限幅器部进行工作以将第一增益部的加 权值设置为1所获得的音频信号与输入至频谱域滤波部的音频信号合成所获 得的。

图10(a)是示出如下信号的图,其中该信号是通过将通过使起音控制器的 第一HPF部和第一限幅器部进行工作以将第一增益部的加权值设置为-1所获 得的音频信号与输入至频谱域滤波部的音频信号合成所获得的;并且(b)是示 出在图9(b)所示的信号的设置条件中、在将第一HPF部的截止频率从2.5Hz改 变为1.25Hz的情况下所合成的信号的图。

图11(a)是示出在仅使余音控制器的第二HPF部、振幅反转部和第二限幅 器部进行工作的情况下所获得的输出信号的图;并且(b)是示出如下信号的 图,其中该信号是通过将图9(b)所示的信号、使第二HPF部、振幅反转部和 第二限幅器部进行工作以将第二增益部的加权值设置为-1所获得的音频信 号、以及输入至频谱域滤波部的音频信号合成所获得的。

图12是示出如下信号的图,其中该信号是通过将在起音控制器中降低了 起音的图10(a)所示的信号、使余音控制器的第二HPF部、振幅反转部和第二 限幅器部进行工作以将第二增益部的加权值设置为1所获得的音频信号、以 及输入至频谱域滤波部的音频信号合成所获得的。

图13(a)是示出通过将1.2kHz的稳态正弦波作为噪声添加至所输入的音 频信号所获得的输入信号的图;并且(b)是示出通过在噪声控制器中对图13(a) 所示的信号应用噪声控制处理所获得的信号的图。

具体实施方式

以下通过采用根据本发明的声学信号处理装置作为示例来进行详细说 明。图1是示出声学信号处理装置的示意结构的框图。如图1所示,声学信号 处理装置1包括FFT(快速傅立叶变换)部2、频谱域滤波部3和IFFT(逆快速傅 立叶变换)部4。将未示出的音频信号再现装置所再现的音频信号输入至声学 信号处理装置1的FFT部2,并且将声学信号处理装置1中经过了声学处理的信 号从IFFT部4输出,然后从未示出的扬声器输出。

FFT部

FFT部2通过重叠处理并使用窗函数来对所输入的音频信号进行加权,并 且进行短时间傅立叶变换以将该所输入信号从时域信号变换成频域信号,由 此计算实部和虚部的频谱。此外,FFT部2将所计算出的频谱变换成振幅谱信 号(第一振幅谱信号)和相位谱信号。FFT部2将振幅谱信号(第一振幅谱信号) 输出至频谱域滤波部3并将相位谱信号输出至IFFT部4。

图2是示出所输入的音频信号、以及在对该音频信号应用短时间傅立叶 变换的情况下的傅立叶变换长度N和重叠长度M的图。如图2所示,FFT部2 在时间每次偏移了傅立叶变换长度N和重叠长度M之间的差分时间的情况下 进行短时间傅立叶变换。更具体地,如图2所示,计算与通过使时间偏移了 傅立叶变换长度N和重叠长度M之间的差分时间所获得的时间(时间t1、时间 t2、时间t3、时间t4、时间t5、…)相对应的tn(n=1,2,…,n)个频谱。

图3是示出针对各时间偏移的振幅谱的图。更具体地,图3示出时间t1的 振幅谱、时间t2的振幅谱和时间t3的振幅谱,其中在各振幅谱中,示出各频 率(f1,f2,f3,f4,f5,f6,f7,f8,…,fn-1,fn)的振幅。在将诸如音乐等的非稳态信 号作为音频信号输入至FFT部2的情况下,如图3所示,振幅谱针对各时间偏 移而改变。在傅立叶变换长度为N的情况下,频谱的总数为N。

图4是示出振幅谱的时间变化的图。更具体地,图4示出频率f1的振幅谱 的时间变化、频率f2的振幅谱的时间变化和频率f3的振幅谱的时间变化,其 中在各时间变化中,示出各时间(t1,t2,t3,t4,t5,…,tk)的振幅。时间偏移的间 隔与频谱的采样频率相对应。

频谱域滤波部

图5是示出频谱域滤波部3的示意结构的框图。如图5所示,频谱域滤波 部3包括起音控制器(起音成分控制器)10、余音控制器(余音成分控制器)20、 噪声控制器30、第一相加部40和第四限幅器部41。

将从FFT部2输出至频谱域滤波部3的振幅谱信号(第一振幅谱信号)的一 部分输入至起音控制器10和余音控制器20。将起音控制器10和余音控制器20 中经过了处理的各振幅谱信号(第二振幅谱信号和第三振幅谱信号)分别输出 至第一相加部40。将从FFT部2输出至频谱域滤波部3的振幅谱信号(第一振幅 谱信号)的其余部分直接输入至第一相加部40。

频谱域滤波部3针对各振幅谱来对从FFT部2所输入的音频信号(第一振 幅谱信号)应用滤波处理、振幅限制处理和振幅加权处理。如图1所示,没有 对所输入的音频信号的相位谱进行任何处理。

起音控制器

起音控制器10包括第一HPF(高通滤波器)部11、第一限幅器部12和第一 增益部13。

第一HPF部11针对各谱来对所输入的振幅谱信号(第一振幅谱信号)应用 高通滤波处理即微分处理。第一限幅器部12对经过了高通滤波处理的振幅谱 信号的负侧振幅进行限制,以将该负侧振幅设置为0。将负侧振幅设置为0使 得能够检测到各谱的信号的上升成分、即起音成分(起音)。

第一HPF部11中要设置的截止频率(第一截止频率)的值越大,起音的控 制时间越短;而截止频率值越小,则控制时间越长。可以如图1所示将截止 频率设置为参数。

第一增益部13对第一限幅器部12所检测到的振幅谱信号的起音成分应 用加权(相乘)。将由第一增益部13进行了加权的信号(第二振幅谱信号)输出 至第一相加部40。在该相加部40中,将起音控制器10中对起音成分进行了声 学处理的振幅谱信号(第二振幅谱信号)与原始振幅谱信号(没有在起音控制 器10和余音控制器20中经过声学处理的振幅谱信号:第一振幅谱信号)进行 合成。在作为合成结果、加权量(第一加权量)是正值的情况下,增强原始振 幅谱信号(第一振幅谱信号)的起音,而在加权量是负值的情况下,降低其起 音。

加权量的正值或负值越大,起音的增强或降低程度变得越高。可以如图 1所示将加权量(第一加权量)设置为参数。在本实施例中,如后面所述,设置 -1以上且1以下的值。

余音控制器

余音控制器20包括第二HPF部21、振幅反转部22、第二限幅器部23和第 二增益部24。

第二HPF部21针对各谱来对所输入的振幅谱信号(第一振幅谱信号)应用 高通滤波处理、即微分处理。振幅反转部22将第二HPF部21中经过了高通滤 波处理的振幅谱信号乘以-1以进行振幅的反转。

第二限幅器部23对振幅已被反转的振幅谱信号的负侧振幅进行限制以 将该负侧振幅设置为0。将负侧振幅设置为0使得能够检测到各谱的信号的下 降成分、即余音成分。

第二HPF部21中要设置的截止频率(第二截止频率)的值越大,余音的控 制时间越短;而截止频率值越小,则控制时间越长。可以如图1所示将截止 频率设置为参数。

第二增益部24对第二限幅器部23所检测到的振幅谱信号的余音成分应 用加权(相乘)。将由第二增益部24进行了加权的信号(第三振幅谱信号)输出 至第一相加部40。在该相加部40中,将余音控制器20中对余音成分进行了声 学处理的振幅谱信号(第三振幅谱信号)与原始振幅谱信号(没有在起音控制 器10和余音控制器20中经过声学处理的振幅谱信号:第一振幅谱信号)进行 合成。在作为合成结果、加权量(第二加权量)是正值的情况下,增强原始振 幅谱信号(第一振幅谱信号)的余音,而在加权量是负值的情况下,降低原始 振幅谱信号的余音。

加权量的正值或负值越大,余音的增强或降低程度变得越高。可以如图 1所示将加权量(第二加权量)设置为参数。在本实施例中,如后面所述,设置 -1以上且1以下的值。

第一相加部

第一相加部40具有将以下三个振幅谱信号进行合成的作用:起音控制器 10中对起音进行了声学处理的振幅谱信号(第二振幅谱信号)、余音控制器20 中对余音进行了声学处理的振幅谱信号(第三振幅谱信号)、以及从FFT部2所 输入的原始振幅谱信号(第一振幅谱信号)。与原始振幅谱信号(第一振幅谱信 号)相比,第一相加部40中所合成的信号(第四振幅谱信号)在起音和余音方面 增强或降低,并且被输出至噪声控制器30。

噪声控制器

噪声控制器30具有提高S/N比的作用。噪声控制器30包括第三HPF部31、 第三限幅器部32、第三增益部33、第四增益部34和第二相加部35。将第一相 加部40中所合成得到的振幅谱信号(第四振幅谱信号)输出至第三HPF部31和 第四增益部34。

第三HPF部31针对各谱来对第一相加部40中所合成得到的(所生成的)振 幅谱信号(第四振幅谱信号)应用高通滤波处理、即微分处理。第三限幅器部 32对经过了高通滤波处理的振幅谱信号的负侧振幅进行限制以将该负侧振 幅设置为0。

第三HPF部31和第三限幅器部32的上述操作使得能够在同一频率的振 幅谱中将诸如CW(恒波)等的以稳态存在的信号成分判断为噪声,并且可以 通过微分处理来抑制稳态成分即DC(直流)成分。通常,高通滤波器的截止 频率(第三截止频率)越低,DC附近的信号成分被抑制得越多,由此可以抑制 较为平稳的信号。

如后面所述,在第三HPF部31中,将比第一HPF部11和第二HPF部21中 所设置的截止频率(第一截止频率和第二截止频率)低的频率设置为截止频率 (第三截止频率)。可以如图1所示将该截止频率设置为参数。

第三增益部33中对稳态成分已被抑制的信号进行加权,然后输出至第二 相加部35。另一方面,与要输入至第三HPF部31的振幅谱信号分开,向第四 增益部34输入第一相加部40中所合成得到的(所生成的)振幅谱信号(第四振 幅谱信号)。第四增益部34对所输入的振幅谱信号应用加权,然后将由此得 到的信号输出至第二相加部35。

第二相加部35将第三增益部33中经过了加权的振幅谱信号和第四增益 部34中经过了加权的振幅谱信号进行合成。第二相加部35中所合成得到的信 号在第三增益部33和第四增益部34中经过了加权,因此变为噪声降低量已被 调整的信号(第五振幅谱信号)。

可以如图1所示将第三增益部33的加权量(第三加权量)和第四增益部34 的加权量设置为参数。在本实施例中,将0以上且1以下的值设置为第三增益 部33的加权量(第三加权量),并且将通过从值1中减去第三增益部33的加权量 (第三加权量)所获得的值设置为第四增益部34的加权量。

为了大幅提高S/N比,例如,将第三增益部33的加权量设置为1,并且将 第四增益部34的加权量设置为0(1-1=0)。为了略微提高S/N比,例如,将第 三增益部33的加权量设置为0.5,并且将第四增益部34的加权量设置为0.5 (1-0.5=0.5)。

第四限幅器部

第四限幅器部41具有进行调整以使得第二相加部35中经过了合成处理 的信号(第五振幅谱信号)的振幅没有变为负值的作用。更详细地,第四限幅 器部41进行调整,以使得利用起音控制器10、余音控制器20和噪声控制器30 分别进行了起音、余音和噪声降低量的调整的信号的振幅没有变为负值。第 四限幅器部41对该信号的负侧振幅进行限制以将该负侧振幅设置为0。

针对各振幅谱进行上述的起音控制器10、余音控制器20、第一相加部40、 噪声控制器30和第四限幅器部41的声学处理。因此,如图6所示,针对各频 率(f1,f2,…,fn),利用起音控制器10、余音控制器20、第一相加部40、噪声 控制器30和第四限幅器部41分别在起音、余音、噪声降低量和振幅方面对频 谱信号进行调整,并且针对各频率(f1',f2',…,fn')输出由此得到的信号。在傅 立叶变换长度N为1024的情况下,频率的数量fn为1024,这意味着处理了1024 个频谱信号。

将第四限幅器部41中进行了振幅调整的频谱信号输出至IFFT部4。

IFFT部

IFFT部4基于频谱域滤波部3中进行了滤波处理的振幅谱信号和从FFT部 2所输出的相位谱信号,来将所获取到的信号变换成实部和虚部的频谱。在 将所获取到的信号变换成频谱之后,IFFT部4使用窗函数来对频谱信号应用 加权,然后进行短时间逆傅立叶变换和重叠相加,以将由此得到的信号从频 域信号变换成时域信号。利用未示出的扬声器来输出如此从频域变换成时域 的音频信号。通过扬声器将利用声学信号处理装置1进行了声学处理的音频 信号作为如下信号输出,其中在该信号中,诸如乐器声等的声源中所包括的 起音和在该起音之后持续的余音受到控制并且S/N比进一步提高。

设置值的调整

图7(a)是示出起音控制器10的第一增益部13和余音控制器20的第二增益 部24中所设置的加权量(第一加权量和第二加权量)的值和与该加权量相对应 的增强/降低量之间的关系的图。如图7(a)所示,第一增益部13和第二增益部 24中所设置的加权量是-1~1内的任意值。如图7(a)所示,在加权量为正(加权 量的设置值大于0)的情况下,与该加权量的值的增加量成比例地,在第一增 益部13中进行起音的增强,并且在第二增益部24中进行余音的增强。另一方 面,如图7(a)所示,在加权量为负(加权量的设置值小于0)的情况下,与该加 权量的值的减少量成比例地,在第一增益部13中进行起音的降低,并且在第 二增益部24中进行余音的降低。

图7(b)是示出起音控制器10的第一HPF部11和余音控制器20的第二HPF 部21中所设置的截止频率(滤波器截止频率:第一截止频率)的值与根据所设 置的截止频率值而改变的起音或余音的控制时间之间的关系的图。

如图7(b)所示,截止频率的值越大,起音的控制时间和余音的控制时间 越短;而截止频率值越小,则该控制时间越长。也就是说,截止频率值越大, 起音/余音增强/降低的时间越短;而截止频率值越小,起音/余音增强/降低的 时间越长。注意,截止频率的倒数与控制时间大致相对应。在本实施例中, 将截止频率的范围设置为0.5Hz~10Hz(控制时间:2秒~0.1秒)。

图8(a)是示出噪声控制器30的第三增益部33中的加权量(第三加权量)和 噪声降低量之间的关系的图。如上所述,噪声控制器30的第三HPF部31抑制 稳态成分、即DC成分,由此将非常小的值(例如,0.031Hz(控制时间:32秒)) 设置为截止频率(滤波器截止频率:第三截止频率)。

噪声控制器30中所降低的噪声的噪声降低量根据第三增益部33中所设 置的加权量的值而改变。第三增益部33中要设置的加权量的值为0以上且1以 下,并且随着加权量的值从0改变为1,噪声降低量增加。将第四增益部34中 的加权量的值设置为通过从值1中减去第三增益部33中所设置的加权量(0以 上且1以下的值)所获得的值。

如上所述,通过调整第一增益部13和第二增益部24中所设置的加权量 (第一加权量、第二加权量)的值,可以增强或降低起音和余音。此外,通过 调整第一HPF部11和第二HPF部21中所设置的截止频率(第一截止频率、第二 截止频率)的值,可以进行起音和余音的控制时间的长度调整。此外,通过 调整第三增益部33和第四增益部34中所设置的加权量(第三加权量等)的值, 可以进行噪声降低量的调整。如上所述,对加权量和截止频率进行适当调整 使得能够调节诸如乐器声等的声源中所包括的起音、在该起音之后持续的余 音、以及收录环境中的稳态噪声成分或声源中所包括的稳态信号成分,由此 能够将音频信号调整成适合收听者的偏好。

声学信号处理示例

以下说明在频谱域滤波部3中调节输入至声学信号处理装置1的如图8(b) 所示的音频信号的诸如加权量和截止频率等的参数的情况下所获得的输出 信号的示例。

假定所输入的音频信号的采样频率为44.1kHz。此外,如图8(b)所示,所 输入的音频信号包括起音和余音,并且其频率成分为1kHz。

FFT部2的傅立叶变换长度N是4096个样本,其重叠长度M是作为傅立叶 变换长度N的15/16倍的3840个样本,窗函数是Blackman(布莱克曼)窗函数, 并且振幅谱的采样频率是172Hz(44100/(4096-3840)≈172)。

此外,第一HPF部11、第二HPF部21和第三HPF部31各自是线性 Butterworth(巴特沃斯)高通滤波器,并且截止频率分别为2.5Hz、1.25Hz和 0.031Hz。此外,作为加权量,在第一增益部13、第二增益部24、第三增益 部33和第四增益部34各自中单独设置-1、0和1其中之一。

图9(a)是示出在频谱域滤波部3中仅使起音控制器10的第一HPF部11和 第一限幅器部12进行工作的情况下所获得的输出信号的图。第一HPF部11的 截止频率为2.5Hz。

在仅使起音控制器10的第一HPF部11和第一限幅器部12进行工作的情 况下,如图9(a)所示检测到所输入的音频信号的上升成分、即起音(起音成分)。

此外,在图9(b)中,利用实线示出如下信号,其中该信号是通过将通过 使起音控制器10的第一HPF部11和第一限幅器部12进行工作以将第一增益部 13的加权值设置为1而增强了起音的音频信号与输入至频谱域滤波部3的音 频信号(图8(b)所示的信号)进行合成所获得的。图9(b)中虚线所示的信号表示 图8(b)所示的所输入的音频信号的状态。如图9(b)的实线所示,与图8(b)所示 的音频信号相比,合成信号在起音(起音成分)方面增强。

此外,在图10(a)中,利用实线示出如下信号,其中该信号是通过将通过 使起音控制器10的第一HPF部11和第一限幅器部12进行工作以将第一增益部 13的加权值设置为-1而降低了起音的音频信号与输入至频谱域滤波部3的音 频信号(图8(b)所示的信号)进行合成所获得的。图10(a)中虚线所示的信号表 示图8(b)所示的所输入的音频信号的状态。如图10(a)的实线所示,与图8(b) 所示的音频信号相比,合成信号在起音(起音成分)方面降低。

此外,在图10(b)中,利用实线来表示在图9(b)所定义的条件中、在将第 一HPF部11的截止频率从2.5Hz改变为1.25Hz的情况下所合成得到的信号。图 10(b)中虚线所示的信号表示图8(b)所示的所输入的音频信号的状态。通过将 截止频率从2.5Hz改变为1.25Hz,控制时间变长(参见图7(b)),由此与图8(b) 所示的音频信号相比,合成信号不仅在起音方面增强,而且在起音时间方面 也增大。

图11(a)示出在频谱域滤波部3中仅使余音控制器20的第二HPF部21、振 幅反转部22和第二限幅器部23进行工作的情况下所获得的输出信号。第二 HPF部21的截止频率为2.5Hz。

在使余音控制器20的第二HPF部21、振幅反转部22和第二限幅器部23进 行工作的情况下,如图11(a)所示,检测到所输入的音频信号的下降成分、即 余音(余音成分)。

此外,在图11(b)中,利用实线示出如下信号,其中该信号是通过将如图 9(b)所示利用起音控制器10增强了起音的音频信号、使余音控制器20的第二 HPF部21、振幅反转部22和第二限幅器部23进行工作以将第二增益部24的加 权值设置为-1而降低了余音的音频信号、以及输入至频谱域滤波部3的音频 信号(图8(b)所示的信号)这三者进行合成所获得的。图11(b)中虚线所示的信 号表示图8(b)所示的所输入的音频信号的状态。在将图11(b)中实线所示的合 成信号与图8(b)所示的所输入的音频信号进行比较的情况下,起音增强而余 音降低。此外,如图11(b)的实线所示,与图9(b)的实线所示的音频信号相比, 合成信号在余音(余音成分)方面降低。

此外,在图12中,利用实线示出如下信号,其中该信号是通过将如图10(a) 所示利用起音控制器10降低了起音的音频信号、使余音控制器20的第二HPF 部21、振幅反转部22和第二限幅器部23进行工作以将第二增益部24的加权值 设置为1而增强了余音的音频信号、以及输入至频谱域滤波部3的音频信号 (图8(b)所示的信号)这三者进行合成所获得的。图12中虚线所示的信号表示 图8(b)中的所输入的音频信号的状态。

在将图12所示的合成信号与图8(b)所示的所输入的音频信号进行比较的 情况下,起音降低而余音增强。此外,如图12的实线所示,与图10(a)的实线 所示的音频信号相比,合成信号在余音(余音成分)方面增强。

图13(a)示出针对通过将1.2kHz的稳态正弦波作为噪声添加至所输入的 音频信号(图8(b)所示的信号)所获得的输入信号、在将起音控制器10的第一 HPF部11的截止频率设置为2.5Hz并将第一增益部13的加权量设置为1的情况 下所获得的输出信号的状态。利用起音控制器10对添加有噪声的音频信号应 用起音控制处理,由此起音在图13(a)所示的信号中增强。

图13(b)示出针对图13(a)所示的信号、在将噪声控制器30的第三HPF部31 的截止频率设置为0.031Hz、将第三增益部33的加权量设置为1并将第四增益 部34的加权量设置为0的情况下所获得的由噪声控制器30进行了噪声控制处 理的信号。如图13(b)所示,通过将第三HPF部31的截止频率设置为低的值 (0.031Hz),可以抑制DC附近的信号成分,由此可以在维持起音增强的同时 仅降低稳态噪声。

如上所述,在根据本实施例的声学信号处理装置1中,通过调整起音控 制器10的第一增益部13的加权量,可以增强/降低音频信号的起音。此外,通 过调整第一HPF部11的截止频率,可以改变起音的控制时间(增强时间、降低 时间)。因而,通过根据信号电平放大起音以增强该起音,可以使输出声音 整体变尖锐。此外,通过控制诸如MP3等的常见数字音频信号中的可能劣化 的起音,可以提高数字音频信号的音质。

此外,在根据本实施例的声学信号处理装置1中,通过调整余音控制器 20的第二增益部24的加权量,可以增强/降低音频信号的余音。此外,通过调 整第二HPF部21的截止频率,可以改变余音的控制时间(增强时间、降低时 间)。因而,可以根据收听者的偏好来增强或降低余音。

此外,在根据本实施例的声学信号处理装置1中,通过调整噪声控制器 30的第三增益部33和第四增益部34的加权量,可以调整噪声降低量。此外, 通过调整第三HPF部31的截止频率,可以抑制噪声的DC成分。因而,可以调 节声源的收录环境或声源本身中所包括的稳态噪声。

此外,基于针对频域的各振幅谱的变化量来进行上述的起音控制处理、 余音控制处理和噪声降低处理。这样解决了在使用阈值来识别起音的传统方 法中所产生的问题、即防止了检测状态受到声源的振幅电平的大幅影响(检 测状态不依赖于声源的振幅电平)。

例如,在包括乐器声和语音的音频信号中,与乐器声的起音的上升时间 相比,语音的上升时间延迟,并且语音的针对各振幅谱的变化量较小,从而 使得能够根据起音控制器10中的第一HPF部11的截止频率的设置来将起音仅 添加至乐器声。通过如此仅增强乐器声的起音,可以在维持语音的语调感的 同时增强乐器声的尖锐感。

此外,可以针对各振幅谱个别设置起音控制器10、余音控制器20和噪声 控制器30中的截止频率或加权量。因而,如下结构是可能的:将频带分割成 多个带,并且针对多个带各自进行设置。

例如,将所输入的音频信号的频率区域分割成低频区域、中频区域和高 频区域。在这种情况下,通过在低频区域中增强起音并降低余音,可以再现 鼓等的击打力和应答性的声音。此外,在中频区域中,增强余音以增强语音 的共鸣。此外,在高频区域中,增强起音以使钹声等的透明感更强。

在再现包括声源本身中所包含的稳态信号成分和/或声源的收录环境中 所包含的稳态噪声成分的音频信号的情况下,噪声等可能作为具有现场感的 声音被感知为“收听者处于收录环境”;然而,乐器声或语音的清晰度趋于降 低。在这种情况下,在噪声控制器30中进行噪声控制以使噪声量略微减少, 由此使得能够在一定程度上维持现场感的同时,将乐器声或语音的声学成分 输出作为清晰声音。

如上所述,通过使用根据本实施例的声学信号处理装置1,可以调节诸 如乐器声等的声源中所包括的起音、在该起音之后持续的余音、以及收录环 境中的稳态噪声成分或声源中所包括的稳态信号成分,由此满足收听者的各 种偏好。

尽管已经详细说明并示出了声学信号处理装置1作为本发明的声学信号 处理装置的示例,但本发明的声学信号处理装置和声学信号处理方法不限于 上述实施例。显然,本领域技术人员可以在所附权利要求书的范围内想到各 种替代实现和修改实现。

附图标记说明

1  声学信号处理装置

2  FFT部

3  频谱域滤波部

4  IFFT部

10 起音控制器(起音成分控制器)

11 (起音控制器的)第一HPF部

12 (起音控制器的)第一限幅器部

13 (起音控制器的)第一增益部

20 余音控制器(余音成分控制器)

21 (余音控制器的)第二HPF部

22 (余音控制器的)振幅反转部

23 (余音控制器的)第二限幅器部

24 (余音控制器的)第二增益部

30 噪声控制器

31 (噪声控制器的)第三HPF部

32 (噪声控制器的)第三限幅器部

33 (噪声控制器的)第三增益部

34 (噪声控制器的)第四增益部

35 (噪声控制器的)第二相加部

40 第一相加部

41 第四限幅器部

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号