首页> 中国专利> 声学信号处理装置和声学信号处理方法

声学信号处理装置和声学信号处理方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提供一种用于调节起音、余音和噪声成分并且使输出音适合收听者的偏好的声学信号处理装置。该声学信号处理装置包括：FFT部，用于通过将输入音频信号从时域变换成频域来计算频谱信号，并且生成第一振幅谱信号和相位谱信号；起音成分控制器(10)，用于通过控制第一振幅谱信号的起音成分来生成第二振幅谱信号；余音成分控制器(20)，用于通过控制第一振幅谱信号的余音成分来生成第三振幅谱信号；第一相加部(40)，用于通过将第一振幅谱信号、第二振幅谱信号和第三振幅谱信号进行合成来生成第四振幅谱信号；以及IFFT部，用于基于第四振幅谱信号和FFT部所生成的相位谱信号来生成从频域变换成时域的音频信号。

著录项

公开/公告号CN104185870A

专利类型发明专利
公开/公告日2014-12-03

原文格式PDF
申请/专利权人歌乐株式会社;
展开▼

申请/专利号CN201380013601.X
发明设计人桥本武志;渡边哲生;
展开▼

申请日2013-01-23
分类号G10L21/0364(20060101);H04R3/04(20060101);
代理机构北京林达刘知识产权代理事务所(普通合伙);
代理人刘新宇
地址日本埼玉县
入库时间 2023-12-17 03:40:54

法律信息

法律状态公告日

法律状态信息

法律状态
2016-10-26

授权

授权
2014-12-31

实质审查的生效 IPC(主分类):G10L21/0364 申请日:20130123

实质审查的生效
2014-12-03

公开

公开

说明书

技术领域

本发明涉及声学信号处理装置和声学信号处理方法，并且更具体地，涉及能够进行所输入的音频信号中的起音(attack sound)或余音(reverberation)的增强/降低处理以及噪声降低处理等的声学信号处理装置和声学信号处理方法。

背景技术

如今，经常使用数据压缩后的数字音频信号来生成音乐。作为数据压缩后的数字音频信号其中之一，众所周知有MP3(MPEG音频层-3)。MP3是用于使用数字技术来处理声学数据的压缩方法其中之一。如今，MP3广泛用在携带型音乐播放器等中。

诸如MP3等的一般的数字音频信号的问题在于以下：在直接对解压缩后的数字音频信号进行模拟转换以供输出的情况下，起音(起音成分)劣化而使音质受损。为了应对该问题，提出了放大起音的信号输出的数字信号处理装置(例如，参考专利文献1)。

所提出的数字信号处理装置将经由带分割滤波器所提取的预定频带的信号电平与预定阈值电平进行比较，并且将电平等于或高于阈值电平的数字信号检测作为起音。然后，数字信号处理装置放大所检测到的起音，并将放大后的起音与带分割之前的数字信号合成，由此增强起音。

如上所述，可以根据信号电平来放大并增强预定频带中所包括的起音，以使得在例如放大低频起音的情况下，可以增强诸如鼓声等的强力音的动感。在放大高频起音的情况下，可以使诸如钹声等的声音的透明感更强。

如上所述，通过根据信号电平放大并增强起音可能会使输出声音整体变尖锐。因而，所提出的装置可以在起音可能明显劣化的诸如MP3等的压缩后的音频信号的质量方面带来高的改善效果。

现有技术文献

专利文献

专利文献1：日本特开2007-36710

发明内容

发明要解决的问题

在上述的声学信号处理装置中，基于预定阈值来检测声源中所包括的起音。然而，声源还收录各种振幅电平，由此仅基于阈值难以充分检测到起音。

在包括乐器声和语音这两者的声源中，通过将乐器声和语音合成来表示声源的振幅，由此基于阈值难以将乐器声的起音的信号电平与语音的信号电平区分开。因此，不仅乐器声的起音被不利地放大，而且语音信号也被不利地放大。

此外，乐器声包括波形的上升时的起音和在该起音之后持续的余音(余音成分)。然而，上述的数字信号处理装置仅控制起音，但没有特别控制余音。因此，尽管可以通过放大起音来获得尖锐的输出声音，但存在与余音相比仅尖锐感被过度增强的可能性。

此外，与均匀地放大预定频带的使用例如均衡器的传统放大方法相比，上述的数字信号处理装置可以在S/N比(信噪比)没有降低的情况下增强输出声音。然而，在声源的收录环境中始终存在噪声的情况下、特别是在起音的提取带中包括稳态噪声的情况下，可以增强包括噪声的起音以供合成，这可能导致S/N比大幅降低。

此外，在收听音乐时，音乐对于收听者而言是好是坏在很大程度上依赖于收听者的偏好。因而，一些收听者喜欢尖锐声音，而另一些收听者则认为尖锐声音烦人。一些收听者喜欢包括大量余音成分的声音，而另一些收听者则不喜欢这种声音。一些收听者喜欢包括声源本身中所包含的稳态信号成分 (共鸣)或声源的收录环境中所包含的稳态噪声成分作为具有现场感的声音，而另一些收听者则喜欢清晰声音。也就是说，仅通过使用上述的数字信号处理装置放大起音以产生尖锐声音，不容易满足收听者的各种偏好(要求)。

本发明是考虑到上述问题而作出的，并且其目的是提供一种声学信号处理装置和声学信号处理方法，其中该声学信号处理装置和声学信号处理方法能够通过调节诸如乐器声等的声源中所包括的起音、在该起音之后持续的余音、以及收录环境中的稳态噪声成分或声源中所包括的稳态信号成分，来产生满足收听者偏好的输出声音。

用于解决问题的方案

根据本发明的一种声学信号处理装置，包括：快速傅立叶变换部即FFT 部，用于进行以下操作：在时间每次偏移傅立叶变换长度和重叠长度之间的差分时间的情况下对输入音频信号进行短时间傅立叶变换，以计算在时间上彼此相差了所述差分时间的多个振幅谱；针对各频率来计算所计算出的各振幅谱的时间变化，以将所述输入音频信号从时域变换成频域并且计算频谱信号；以及基于所计算出的频谱信号来生成第一振幅谱信号和相位谱信号；起音成分控制器，用于控制所述FFT部所生成的所述第一振幅谱信号的起音成分，以生成第二振幅谱信号；余音成分控制器，用于控制所述FFT部所生成的所述第一振幅谱信号的余音成分，以生成第三振幅谱信号；第一相加部，用于将所述FFT部所生成的所述第一振幅谱信号、所述起音成分控制器所生成的所述第二振幅谱信号和所述余音成分控制器所生成的所述第三振幅谱信号进行合成，以生成第四振幅谱信号；以及逆快速傅立叶变换部即IFFT部，用于基于所述第一相加部所生成的所述第四振幅谱信号和所述FFT部所生成的所述相位谱信号来计算频谱信号，并且对所计算出的频谱信号进行短时间逆傅立叶变换处理和重叠相加，以生成从频域变换成时域的音频信号，其中，所述起音成分控制器包括：第一高通滤波器部即第一HPF部，用于针对各谱，基于预设的第一截止频率来对所述FFT部所生成的所述第一振幅谱信号进行高通滤波处理；第一限幅器部，用于对所述第一HPF部进行了高通滤波处理的振幅谱信号的负侧振幅进行限制以将该负侧振幅设置为0，从而针对各谱来检测该振幅谱信号的起音成分；以及第一增益部，用于基于预设的第一加权量来对所述第一限幅器部所检测到的振幅谱信号的起音成分进行加权处理，以及所述余音成分控制器包括：第二高通滤波器部即第二HPF部，用于针对各谱，基于预设的第二截止频率来对所述FFT部所生成的所述第一振幅谱信号进行高通滤波处理；振幅反转部，用于将所述第二HPF部进行了高通滤波处理的振幅谱信号乘以-1，以进行振幅反转；第二限幅器部，用于对所述振幅反转部进行了振幅反转的振幅谱信号的负侧振幅进行限制以将该负侧振幅设置为0，从而针对各谱来检测该振幅谱信号的余音成分；以及第二增益部，用于基于预设的第二加权量来对所述第二限幅器部所检测到的振幅谱信号的余音成分进行加权处理。

根据本发明的一种声学信号处理装置的声学信号处理方法，其中在所述声学信号处理装置中，对输入音频信号进行起音成分控制和余音成分控制，所述声学信号处理装置包括：快速傅立叶变换部即FFT部，用于将所述输入音频信号从时域变换成频域以计算频谱信号，并且生成第一振幅谱信号和相位谱信号；起音成分控制器，用于控制所述FFT部所生成的所述第一振幅谱信号的起音成分，以生成第二振幅谱信号；余音成分控制器，用于控制所述 FFT部所生成的所述第一振幅谱信号的余音成分，以生成第三振幅谱信号；第一相加部，用于将所述FFT部所生成的所述第一振幅谱信号、所述起音成分控制器所生成的所述第二振幅谱信号和所述余音成分控制器所生成的所述第三振幅谱信号进行合成，以生成第四振幅谱信号；以及逆快速傅立叶变换部即IFFT部，用于基于所述第一相加部所生成的所述第四振幅谱信号和所述FFT部所生成的所述相位谱信号，来生成从频域变换成时域的音频信号，所述起音成分控制器包括：第一高通滤波器部即第一HPF部、第一限幅器部和第一增益部，所述余音成分控制器包括：第二高通滤波器部即第二HPF部、振幅反转部、第二限幅器部和第二增益部，其中，所述声学信号处理方法包括以下步骤：利用所述FFT部来进行以下操作：在时间每次偏移傅立叶变换长度和重叠长度之间的差分时间的情况下对所述输入音频信号进行短时间傅立叶变换，以计算在时间上彼此相差了所述差分时间的多个振幅谱；针对各频率来计算所计算出的各振幅谱的时间变化以计算频谱信号；以及基于所计算出的频谱信号来生成所述第一振幅谱信号和所述相位谱信号；在所述起音成分控制器中，进行以下操作：利用所述第一HPF部，针对各谱、基于预设的第一截止频率来对所述FFT部所生成的所述第一振幅谱信号进行高通滤波处理；利用所述第一限幅器部，对所述第一HPF部进行了高通滤波处理的振幅谱信号的负侧振幅进行限制以将该负侧振幅设置为0，从而针对各谱来检测该振幅谱信号的起音成分；以及利用所述第一增益部，基于预设的第一加权量来对所述第一限幅器部所检测到的振幅谱信号的起音成分进行加权处理，以及在所述余音成分控制器中，进行以下操作：利用所述第二HPF部，针对各谱、基于预设的第二截止频率来对所述FFT部所生成的所述第一振幅谱信号进行高通滤波处理；利用所述振幅反转部，将所述第二HPF部进行了高通滤波处理的振幅谱信号乘以-1，以进行振幅反转；利用所述第二限幅器部，对所述振幅反转部进行了振幅反转的振幅谱信号的负侧振幅进行限制以将该负侧振幅设置为0，从而针对各谱来检测该振幅谱信号的余音成分；以及利用所述第二增益部，基于预设的第二加权量来对所述第二限幅器部所检测到的振幅谱信号的余音成分进行加权处理；利用所述第一相加部，将所述第一振幅谱信号、所述第一增益部对起音成分进行了加权处理的所述第二振幅谱信号、以及所述第二增益部对余音成分进行了加权处理的所述第三振幅谱信号进行合成，以生成第四振幅谱信号；以及利用所述IFFT部，基于所述第四振幅谱信号和所述FFT部所生成的所述相位谱信号来计算频谱信号，并且对所计算出的频谱信号进行短时间逆傅立叶变换和重叠相加，以生成从频域变换成时域的音频信号。

在根据本发明的声学信号处理装置和声学信号处理方法中，通过调整起音成分控制器的第一增益部的第一加权量，可以增强/降低音频信号的起音成分(起音)。此外，通过调整第一HPF部的第一截止频率，可以改变起音成分的控制时间(增强时间、降低时间)。因而，通过根据信号电平放大起音成分以增强该起音成分，可以使输出音整体变尖锐。此外，通过控制诸如MP3等的常见数字音频信号中的可能劣化的起音成分，可以提高数字音频信号的音质。

此外，在根据本发明的声学信号处理装置和声学信号处理方法中，通过调整余音成分控制器的第二增益部的第二加权量，可以增强/降低音频信号的余音成分(余音)。此外，通过调整第二HPF部的第二截止频率，可以改变余音的控制时间(增强时间、降低时间)。因而，可以根据收听者的偏好来增强或降低余音。

此外，基于频域的各振幅谱的变化量来进行上述的利用起音成分控制器的起音成分控制处理和利用余音成分控制器的余音成分控制处理。这样解决了在使用阈值来识别起音的传统方法中所产生的问题、即防止了检测状态受到声源的振幅电平的大幅影响。

此外，可以针对各振幅谱来个别设置起音成分控制器和余音成分控制器中的截止频率(第一截止频率和第二截止频率)或加权量(第一加权量和第二加权量)。因而，如下结构也是可能的：将频带分割成多个带，并且针对多个带各自进行设置。

例如，将所输入的音频信号的频率区域分割成低频区域、中频区域和高频区域。在这种情况下，通过在低频区域中增强起音成分并且降低余音，可以再现鼓等的击打力和应答性的声音。此外，在中频区域中，增强余音成分以增强语音的共鸣。此外，在高频区域中，增强起音成分以使钹声等的透明感更强。

上述的声学信号处理装置还可以包括噪声控制器，所述噪声控制器用于对所述第一相加部所生成的所述第四振幅谱信号进行噪声控制，以生成第五振幅谱信号，其中，所述IFFT部基于所述噪声控制器所生成的所述第五振幅谱信号和所述FFT部所生成的所述相位谱信号，来生成从频域变换成时域的音频信号，以及所述噪声控制器包括：第三高通滤波器部即第三HPF部，用于针对各谱，基于预设的第三截止频率来对所述第一相加部所生成的所述第四振幅谱信号进行高通滤波处理；第三限幅器部，用于对所述第三HPF部进行了高通滤波处理的振幅谱信号的负侧振幅进行限制，以将该负侧振幅设置为0；第三增益部，用于基于预设的作为0以上且1以下的值的第三加权量，来对所述第三限幅器部对负侧振幅进行了限制的振幅谱信号进行加权处理；第四增益部，用于基于通过从值1中减去所述第三加权量的值所获得的加权量，来对所述第一相加部所生成的所述第四振幅谱信号进行加权处理；以及第二相加部，用于将所述第三增益部进行了加权处理的振幅谱信号和所述第四增益部进行了加权处理的振幅谱信号进行合成，以生成所述第五振幅谱信号。

在所述声学信号处理方法中，所述声学信号处理装置还可以包括：噪声控制器，用于对所述第一相加部所生成的所述第四振幅谱信号进行噪声控制，以生成第五振幅谱信号，所述噪声控制器包括：第三高通滤波器部即第三HPF部、第三限幅器部、第三增益部、第四增益部和第二相加部，其中，所述声学信号处理方法还可以包括以下步骤：利用所述IFFT部，基于所述噪声控制器所生成的所述第五振幅谱信号和所述FFT部所生成的所述相位谱信号来生成从频域变换成时域的音频信号；以及在所述噪声控制器中，进行以下操作：利用所述第三HPF部，针对各谱、基于预设的第三截止频率来对所述第一相加部所生成的所述第四振幅谱信号进行高通滤波处理；利用所述第三限幅器部，对所述第三HPF部进行了高通滤波处理的振幅谱信号的负侧振幅进行限制，以将该负侧振幅设置为0；利用所述第三增益部，基于预设的作为0以上且1以下的值的第三加权量来对所述第三限幅器部对负侧振幅进行了限制的振幅谱信号进行加权处理；利用所述第四增益部，基于通过从值 1中减去所述第三加权量的值所获得的加权量来对所述第一相加部所生成的所述第四振幅谱信号进行加权处理；以及利用所述第二相加部，将所述第三增益部进行了加权处理的振幅谱信号和所述第四增益部进行了加权处理的振幅谱信号进行合成，以生成所述第五振幅谱信号。

此外，在根据本发明的声学信号处理装置和声学信号处理方法中，通过调整噪声控制器的第三增益部和第四增益部的加权量，可以调整噪声降低量。此外，通过调整第三HPF部的第三截止频率，可以抑制噪声的DC成分。因而，可以调整声源的收录环境或声源本身中所包括的稳态噪声。

此外，上述的噪声降低处理由噪声控制器基于频域的各振幅谱的变化量来进行。这样解决了使用阈值来识别起音的传统方法中所产生的问题、即防止了检测状态受到声源的振幅电平的大幅影响。

在再现包括声源本身中所包含的稳态信号成分和/或声源的收录环境中所包含的稳态噪声成分的音频信号的情况下，噪声等可能作为具有现场感的声音被感知为“收听者处于收录环境”；然而，乐器声或语音的清晰度趋于下降。在这种情况下，通过使用根据本发明的声学信号处理装置和声学信号处理方法，可以在噪声控制器中进行噪声控制以调整噪声的降低量，由此使得能够在一定程度上维持现场感的同时，将乐器声或语音的声学成分输出作为清晰声音。

发明的效果

在根据本发明的声学信号处理装置和声学信号处理方法中，可以调节诸如乐器声等的声源中所包括的起音成分(起音)、在该起音成分之后持续的余音成分(余音)、以及收录环境中的稳态噪声成分或声源中所包括的稳态信号成分，由此满足收听者的各种偏好。

附图说明

图1是示出根据实施例的声学信号处理装置的示意结构的框图。

图2是示出根据实施例的向着FFT部所输入的音频信号、以及在对该音频信号进行短时间傅立叶变换处理的情况下的傅立叶变换长度N和重叠长度M 的图。

图3是示出根据实施例的FFT部中的针对各时间偏移的振幅谱的图。

图4是示出根据实施例的FFT部中的振幅谱的时间变化的图。

图5是示出根据实施例的频谱域滤波部的示意结构的框图。

图6是用于说明针对各频率执行根据实施例的声学信号处理装置的处理的状态的图。

图7(a)是示出第一增益部和第二增益部中所设置的加权量和与该加权量相对应的增强/降低量之间的关系的图；并且(b)是示出第一HPF部和第二HPF 部中所设置的截止频率的值和根据所设置的截止频率而改变的起音或余音的控制时间之间的关系的图。

图8(a)是示出噪声控制器的第三增益部中的加权量和噪声降低量之间的关系的图；并且(b)是示出声学信号处理中所使用的所输入的音频信号的状态的示例的图。

图9(a)是示出在仅使起音控制器的第一HPF部和第一限幅器部进行工作的情况下所获得的输出信号的图；并且(b)是示出如下信号的图，其中该信号是通过将通过使第一HPF部和第一限幅器部进行工作以将第一增益部的加权值设置为1所获得的音频信号与输入至频谱域滤波部的音频信号合成所获得的。

图10(a)是示出如下信号的图，其中该信号是通过将通过使起音控制器的第一HPF部和第一限幅器部进行工作以将第一增益部的加权值设置为-1所获得的音频信号与输入至频谱域滤波部的音频信号合成所获得的；并且(b)是示出在图9(b)所示的信号的设置条件中、在将第一HPF部的截止频率从2.5Hz改变为1.25Hz的情况下所合成的信号的图。

图11(a)是示出在仅使余音控制器的第二HPF部、振幅反转部和第二限幅器部进行工作的情况下所获得的输出信号的图；并且(b)是示出如下信号的图，其中该信号是通过将图9(b)所示的信号、使第二HPF部、振幅反转部和第二限幅器部进行工作以将第二增益部的加权值设置为-1所获得的音频信号、以及输入至频谱域滤波部的音频信号合成所获得的。

图12是示出如下信号的图，其中该信号是通过将在起音控制器中降低了起音的图10(a)所示的信号、使余音控制器的第二HPF部、振幅反转部和第二限幅器部进行工作以将第二增益部的加权值设置为1所获得的音频信号、以及输入至频谱域滤波部的音频信号合成所获得的。

图13(a)是示出通过将1.2kHz的稳态正弦波作为噪声添加至所输入的音频信号所获得的输入信号的图；并且(b)是示出通过在噪声控制器中对图13(a) 所示的信号应用噪声控制处理所获得的信号的图。

具体实施方式

以下通过采用根据本发明的声学信号处理装置作为示例来进行详细说明。图1是示出声学信号处理装置的示意结构的框图。如图1所示，声学信号处理装置1包括FFT(快速傅立叶变换)部2、频谱域滤波部3和IFFT(逆快速傅立叶变换)部4。将未示出的音频信号再现装置所再现的音频信号输入至声学信号处理装置1的FFT部2，并且将声学信号处理装置1中经过了声学处理的信号从IFFT部4输出，然后从未示出的扬声器输出。

FFT部

FFT部2通过重叠处理并使用窗函数来对所输入的音频信号进行加权，并且进行短时间傅立叶变换以将该所输入信号从时域信号变换成频域信号，由此计算实部和虚部的频谱。此外，FFT部2将所计算出的频谱变换成振幅谱信号(第一振幅谱信号)和相位谱信号。FFT部2将振幅谱信号(第一振幅谱信号) 输出至频谱域滤波部3并将相位谱信号输出至IFFT部4。

图2是示出所输入的音频信号、以及在对该音频信号应用短时间傅立叶变换的情况下的傅立叶变换长度N和重叠长度M的图。如图2所示，FFT部2 在时间每次偏移了傅立叶变换长度N和重叠长度M之间的差分时间的情况下进行短时间傅立叶变换。更具体地，如图2所示，计算与通过使时间偏移了傅立叶变换长度N和重叠长度M之间的差分时间所获得的时间(时间t1、时间 t2、时间t3、时间t4、时间t5、…)相对应的tn(n＝1,2,…,n)个频谱。

图3是示出针对各时间偏移的振幅谱的图。更具体地，图3示出时间t1的振幅谱、时间t2的振幅谱和时间t3的振幅谱，其中在各振幅谱中，示出各频率(f1,f2,f3,f4,f5,f6,f7,f8,…,fn-1,fn)的振幅。在将诸如音乐等的非稳态信号作为音频信号输入至FFT部2的情况下，如图3所示，振幅谱针对各时间偏移而改变。在傅立叶变换长度为N的情况下，频谱的总数为N。

图4是示出振幅谱的时间变化的图。更具体地，图4示出频率f1的振幅谱的时间变化、频率f2的振幅谱的时间变化和频率f3的振幅谱的时间变化，其中在各时间变化中，示出各时间(t1,t2,t3,t4,t5,…,tk)的振幅。时间偏移的间隔与频谱的采样频率相对应。

频谱域滤波部

图5是示出频谱域滤波部3的示意结构的框图。如图5所示，频谱域滤波部3包括起音控制器(起音成分控制器)10、余音控制器(余音成分控制器)20、噪声控制器30、第一相加部40和第四限幅器部41。

将从FFT部2输出至频谱域滤波部3的振幅谱信号(第一振幅谱信号)的一部分输入至起音控制器10和余音控制器20。将起音控制器10和余音控制器20 中经过了处理的各振幅谱信号(第二振幅谱信号和第三振幅谱信号)分别输出至第一相加部40。将从FFT部2输出至频谱域滤波部3的振幅谱信号(第一振幅谱信号)的其余部分直接输入至第一相加部40。

频谱域滤波部3针对各振幅谱来对从FFT部2所输入的音频信号(第一振幅谱信号)应用滤波处理、振幅限制处理和振幅加权处理。如图1所示，没有对所输入的音频信号的相位谱进行任何处理。

起音控制器

起音控制器10包括第一HPF(高通滤波器)部11、第一限幅器部12和第一增益部13。

第一HPF部11针对各谱来对所输入的振幅谱信号(第一振幅谱信号)应用高通滤波处理即微分处理。第一限幅器部12对经过了高通滤波处理的振幅谱信号的负侧振幅进行限制，以将该负侧振幅设置为0。将负侧振幅设置为0使得能够检测到各谱的信号的上升成分、即起音成分(起音)。

第一HPF部11中要设置的截止频率(第一截止频率)的值越大，起音的控制时间越短；而截止频率值越小，则控制时间越长。可以如图1所示将截止频率设置为参数。

第一增益部13对第一限幅器部12所检测到的振幅谱信号的起音成分应用加权(相乘)。将由第一增益部13进行了加权的信号(第二振幅谱信号)输出至第一相加部40。在该相加部40中，将起音控制器10中对起音成分进行了声学处理的振幅谱信号(第二振幅谱信号)与原始振幅谱信号(没有在起音控制器10和余音控制器20中经过声学处理的振幅谱信号：第一振幅谱信号)进行合成。在作为合成结果、加权量(第一加权量)是正值的情况下，增强原始振幅谱信号(第一振幅谱信号)的起音，而在加权量是负值的情况下，降低其起音。

加权量的正值或负值越大，起音的增强或降低程度变得越高。可以如图 1所示将加权量(第一加权量)设置为参数。在本实施例中，如后面所述，设置 -1以上且1以下的值。

余音控制器

余音控制器20包括第二HPF部21、振幅反转部22、第二限幅器部23和第二增益部24。

第二HPF部21针对各谱来对所输入的振幅谱信号(第一振幅谱信号)应用高通滤波处理、即微分处理。振幅反转部22将第二HPF部21中经过了高通滤波处理的振幅谱信号乘以-1以进行振幅的反转。

第二限幅器部23对振幅已被反转的振幅谱信号的负侧振幅进行限制以将该负侧振幅设置为0。将负侧振幅设置为0使得能够检测到各谱的信号的下降成分、即余音成分。

第二HPF部21中要设置的截止频率(第二截止频率)的值越大，余音的控制时间越短；而截止频率值越小，则控制时间越长。可以如图1所示将截止频率设置为参数。

第二增益部24对第二限幅器部23所检测到的振幅谱信号的余音成分应用加权(相乘)。将由第二增益部24进行了加权的信号(第三振幅谱信号)输出至第一相加部40。在该相加部40中，将余音控制器20中对余音成分进行了声学处理的振幅谱信号(第三振幅谱信号)与原始振幅谱信号(没有在起音控制器10和余音控制器20中经过声学处理的振幅谱信号：第一振幅谱信号)进行合成。在作为合成结果、加权量(第二加权量)是正值的情况下，增强原始振幅谱信号(第一振幅谱信号)的余音，而在加权量是负值的情况下，降低原始振幅谱信号的余音。

加权量的正值或负值越大，余音的增强或降低程度变得越高。可以如图 1所示将加权量(第二加权量)设置为参数。在本实施例中，如后面所述，设置 -1以上且1以下的值。

第一相加部

第一相加部40具有将以下三个振幅谱信号进行合成的作用：起音控制器 10中对起音进行了声学处理的振幅谱信号(第二振幅谱信号)、余音控制器20 中对余音进行了声学处理的振幅谱信号(第三振幅谱信号)、以及从FFT部2所输入的原始振幅谱信号(第一振幅谱信号)。与原始振幅谱信号(第一振幅谱信号)相比，第一相加部40中所合成的信号(第四振幅谱信号)在起音和余音方面增强或降低，并且被输出至噪声控制器30。

噪声控制器

噪声控制器30具有提高S/N比的作用。噪声控制器30包括第三HPF部31、第三限幅器部32、第三增益部33、第四增益部34和第二相加部35。将第一相加部40中所合成得到的振幅谱信号(第四振幅谱信号)输出至第三HPF部31和第四增益部34。

第三HPF部31针对各谱来对第一相加部40中所合成得到的(所生成的)振幅谱信号(第四振幅谱信号)应用高通滤波处理、即微分处理。第三限幅器部 32对经过了高通滤波处理的振幅谱信号的负侧振幅进行限制以将该负侧振幅设置为0。

第三HPF部31和第三限幅器部32的上述操作使得能够在同一频率的振幅谱中将诸如CW(恒波)等的以稳态存在的信号成分判断为噪声，并且可以通过微分处理来抑制稳态成分即DC(直流)成分。通常，高通滤波器的截止频率(第三截止频率)越低，DC附近的信号成分被抑制得越多，由此可以抑制较为平稳的信号。

如后面所述，在第三HPF部31中，将比第一HPF部11和第二HPF部21中所设置的截止频率(第一截止频率和第二截止频率)低的频率设置为截止频率 (第三截止频率)。可以如图1所示将该截止频率设置为参数。

第三增益部33中对稳态成分已被抑制的信号进行加权，然后输出至第二相加部35。另一方面，与要输入至第三HPF部31的振幅谱信号分开，向第四增益部34输入第一相加部40中所合成得到的(所生成的)振幅谱信号(第四振幅谱信号)。第四增益部34对所输入的振幅谱信号应用加权，然后将由此得到的信号输出至第二相加部35。

第二相加部35将第三增益部33中经过了加权的振幅谱信号和第四增益部34中经过了加权的振幅谱信号进行合成。第二相加部35中所合成得到的信号在第三增益部33和第四增益部34中经过了加权，因此变为噪声降低量已被调整的信号(第五振幅谱信号)。

可以如图1所示将第三增益部33的加权量(第三加权量)和第四增益部34 的加权量设置为参数。在本实施例中，将0以上且1以下的值设置为第三增益部33的加权量(第三加权量)，并且将通过从值1中减去第三增益部33的加权量 (第三加权量)所获得的值设置为第四增益部34的加权量。

为了大幅提高S/N比，例如，将第三增益部33的加权量设置为1，并且将第四增益部34的加权量设置为0(1-1＝0)。为了略微提高S/N比，例如，将第三增益部33的加权量设置为0.5，并且将第四增益部34的加权量设置为0.5 (1-0.5＝0.5)。

第四限幅器部

第四限幅器部41具有进行调整以使得第二相加部35中经过了合成处理的信号(第五振幅谱信号)的振幅没有变为负值的作用。更详细地，第四限幅器部41进行调整，以使得利用起音控制器10、余音控制器20和噪声控制器30 分别进行了起音、余音和噪声降低量的调整的信号的振幅没有变为负值。第四限幅器部41对该信号的负侧振幅进行限制以将该负侧振幅设置为0。

针对各振幅谱进行上述的起音控制器10、余音控制器20、第一相加部40、噪声控制器30和第四限幅器部41的声学处理。因此，如图6所示，针对各频率(f1,f2,…,fn)，利用起音控制器10、余音控制器20、第一相加部40、噪声控制器30和第四限幅器部41分别在起音、余音、噪声降低量和振幅方面对频谱信号进行调整，并且针对各频率(f1',f2',…,fn')输出由此得到的信号。在傅立叶变换长度N为1024的情况下，频率的数量fn为1024，这意味着处理了1024 个频谱信号。

将第四限幅器部41中进行了振幅调整的频谱信号输出至IFFT部4。

IFFT部

IFFT部4基于频谱域滤波部3中进行了滤波处理的振幅谱信号和从FFT部 2所输出的相位谱信号，来将所获取到的信号变换成实部和虚部的频谱。在将所获取到的信号变换成频谱之后，IFFT部4使用窗函数来对频谱信号应用加权，然后进行短时间逆傅立叶变换和重叠相加，以将由此得到的信号从频域信号变换成时域信号。利用未示出的扬声器来输出如此从频域变换成时域的音频信号。通过扬声器将利用声学信号处理装置1进行了声学处理的音频信号作为如下信号输出，其中在该信号中，诸如乐器声等的声源中所包括的起音和在该起音之后持续的余音受到控制并且S/N比进一步提高。

设置值的调整

图7(a)是示出起音控制器10的第一增益部13和余音控制器20的第二增益部24中所设置的加权量(第一加权量和第二加权量)的值和与该加权量相对应的增强/降低量之间的关系的图。如图7(a)所示，第一增益部13和第二增益部 24中所设置的加权量是-1～1内的任意值。如图7(a)所示，在加权量为正(加权量的设置值大于0)的情况下，与该加权量的值的增加量成比例地，在第一增益部13中进行起音的增强，并且在第二增益部24中进行余音的增强。另一方面，如图7(a)所示，在加权量为负(加权量的设置值小于0)的情况下，与该加权量的值的减少量成比例地，在第一增益部13中进行起音的降低，并且在第二增益部24中进行余音的降低。

图7(b)是示出起音控制器10的第一HPF部11和余音控制器20的第二HPF 部21中所设置的截止频率(滤波器截止频率：第一截止频率)的值与根据所设置的截止频率值而改变的起音或余音的控制时间之间的关系的图。

如图7(b)所示，截止频率的值越大，起音的控制时间和余音的控制时间越短；而截止频率值越小，则该控制时间越长。也就是说，截止频率值越大，起音/余音增强/降低的时间越短；而截止频率值越小，起音/余音增强/降低的时间越长。注意，截止频率的倒数与控制时间大致相对应。在本实施例中，将截止频率的范围设置为0.5Hz～10Hz(控制时间：2秒～0.1秒)。

图8(a)是示出噪声控制器30的第三增益部33中的加权量(第三加权量)和噪声降低量之间的关系的图。如上所述，噪声控制器30的第三HPF部31抑制稳态成分、即DC成分，由此将非常小的值(例如，0.031Hz(控制时间：32秒)) 设置为截止频率(滤波器截止频率：第三截止频率)。

噪声控制器30中所降低的噪声的噪声降低量根据第三增益部33中所设置的加权量的值而改变。第三增益部33中要设置的加权量的值为0以上且1以下，并且随着加权量的值从0改变为1，噪声降低量增加。将第四增益部34中的加权量的值设置为通过从值1中减去第三增益部33中所设置的加权量(0以上且1以下的值)所获得的值。

如上所述，通过调整第一增益部13和第二增益部24中所设置的加权量 (第一加权量、第二加权量)的值，可以增强或降低起音和余音。此外，通过调整第一HPF部11和第二HPF部21中所设置的截止频率(第一截止频率、第二截止频率)的值，可以进行起音和余音的控制时间的长度调整。此外，通过调整第三增益部33和第四增益部34中所设置的加权量(第三加权量等)的值，可以进行噪声降低量的调整。如上所述，对加权量和截止频率进行适当调整使得能够调节诸如乐器声等的声源中所包括的起音、在该起音之后持续的余音、以及收录环境中的稳态噪声成分或声源中所包括的稳态信号成分，由此能够将音频信号调整成适合收听者的偏好。

声学信号处理示例

以下说明在频谱域滤波部3中调节输入至声学信号处理装置1的如图8(b) 所示的音频信号的诸如加权量和截止频率等的参数的情况下所获得的输出信号的示例。

假定所输入的音频信号的采样频率为44.1kHz。此外，如图8(b)所示，所输入的音频信号包括起音和余音，并且其频率成分为1kHz。

FFT部2的傅立叶变换长度N是4096个样本，其重叠长度M是作为傅立叶变换长度N的15/16倍的3840个样本，窗函数是Blackman(布莱克曼)窗函数，并且振幅谱的采样频率是172Hz(44100/(4096-3840)≈172)。

此外，第一HPF部11、第二HPF部21和第三HPF部31各自是线性 Butterworth(巴特沃斯)高通滤波器，并且截止频率分别为2.5Hz、1.25Hz和 0.031Hz。此外，作为加权量，在第一增益部13、第二增益部24、第三增益部33和第四增益部34各自中单独设置-1、0和1其中之一。

图9(a)是示出在频谱域滤波部3中仅使起音控制器10的第一HPF部11和第一限幅器部12进行工作的情况下所获得的输出信号的图。第一HPF部11的截止频率为2.5Hz。

在仅使起音控制器10的第一HPF部11和第一限幅器部12进行工作的情况下，如图9(a)所示检测到所输入的音频信号的上升成分、即起音(起音成分)。

此外，在图9(b)中，利用实线示出如下信号，其中该信号是通过将通过使起音控制器10的第一HPF部11和第一限幅器部12进行工作以将第一增益部 13的加权值设置为1而增强了起音的音频信号与输入至频谱域滤波部3的音频信号(图8(b)所示的信号)进行合成所获得的。图9(b)中虚线所示的信号表示图8(b)所示的所输入的音频信号的状态。如图9(b)的实线所示，与图8(b)所示的音频信号相比，合成信号在起音(起音成分)方面增强。

此外，在图10(a)中，利用实线示出如下信号，其中该信号是通过将通过使起音控制器10的第一HPF部11和第一限幅器部12进行工作以将第一增益部 13的加权值设置为-1而降低了起音的音频信号与输入至频谱域滤波部3的音频信号(图8(b)所示的信号)进行合成所获得的。图10(a)中虚线所示的信号表示图8(b)所示的所输入的音频信号的状态。如图10(a)的实线所示，与图8(b) 所示的音频信号相比，合成信号在起音(起音成分)方面降低。

此外，在图10(b)中，利用实线来表示在图9(b)所定义的条件中、在将第一HPF部11的截止频率从2.5Hz改变为1.25Hz的情况下所合成得到的信号。图 10(b)中虚线所示的信号表示图8(b)所示的所输入的音频信号的状态。通过将截止频率从2.5Hz改变为1.25Hz，控制时间变长(参见图7(b))，由此与图8(b) 所示的音频信号相比，合成信号不仅在起音方面增强，而且在起音时间方面也增大。

图11(a)示出在频谱域滤波部3中仅使余音控制器20的第二HPF部21、振幅反转部22和第二限幅器部23进行工作的情况下所获得的输出信号。第二 HPF部21的截止频率为2.5Hz。

在使余音控制器20的第二HPF部21、振幅反转部22和第二限幅器部23进行工作的情况下，如图11(a)所示，检测到所输入的音频信号的下降成分、即余音(余音成分)。

此外，在图11(b)中，利用实线示出如下信号，其中该信号是通过将如图 9(b)所示利用起音控制器10增强了起音的音频信号、使余音控制器20的第二 HPF部21、振幅反转部22和第二限幅器部23进行工作以将第二增益部24的加权值设置为-1而降低了余音的音频信号、以及输入至频谱域滤波部3的音频信号(图8(b)所示的信号)这三者进行合成所获得的。图11(b)中虚线所示的信号表示图8(b)所示的所输入的音频信号的状态。在将图11(b)中实线所示的合成信号与图8(b)所示的所输入的音频信号进行比较的情况下，起音增强而余音降低。此外，如图11(b)的实线所示，与图9(b)的实线所示的音频信号相比，合成信号在余音(余音成分)方面降低。

此外，在图12中，利用实线示出如下信号，其中该信号是通过将如图10(a) 所示利用起音控制器10降低了起音的音频信号、使余音控制器20的第二HPF 部21、振幅反转部22和第二限幅器部23进行工作以将第二增益部24的加权值设置为1而增强了余音的音频信号、以及输入至频谱域滤波部3的音频信号 (图8(b)所示的信号)这三者进行合成所获得的。图12中虚线所示的信号表示图8(b)中的所输入的音频信号的状态。

在将图12所示的合成信号与图8(b)所示的所输入的音频信号进行比较的情况下，起音降低而余音增强。此外，如图12的实线所示，与图10(a)的实线所示的音频信号相比，合成信号在余音(余音成分)方面增强。

图13(a)示出针对通过将1.2kHz的稳态正弦波作为噪声添加至所输入的音频信号(图8(b)所示的信号)所获得的输入信号、在将起音控制器10的第一 HPF部11的截止频率设置为2.5Hz并将第一增益部13的加权量设置为1的情况下所获得的输出信号的状态。利用起音控制器10对添加有噪声的音频信号应用起音控制处理，由此起音在图13(a)所示的信号中增强。

图13(b)示出针对图13(a)所示的信号、在将噪声控制器30的第三HPF部31 的截止频率设置为0.031Hz、将第三增益部33的加权量设置为1并将第四增益部34的加权量设置为0的情况下所获得的由噪声控制器30进行了噪声控制处理的信号。如图13(b)所示，通过将第三HPF部31的截止频率设置为低的值 (0.031Hz)，可以抑制DC附近的信号成分，由此可以在维持起音增强的同时仅降低稳态噪声。

如上所述，在根据本实施例的声学信号处理装置1中，通过调整起音控制器10的第一增益部13的加权量，可以增强/降低音频信号的起音。此外，通过调整第一HPF部11的截止频率，可以改变起音的控制时间(增强时间、降低时间)。因而，通过根据信号电平放大起音以增强该起音，可以使输出声音整体变尖锐。此外，通过控制诸如MP3等的常见数字音频信号中的可能劣化的起音，可以提高数字音频信号的音质。

此外，在根据本实施例的声学信号处理装置1中，通过调整余音控制器 20的第二增益部24的加权量，可以增强/降低音频信号的余音。此外，通过调整第二HPF部21的截止频率，可以改变余音的控制时间(增强时间、降低时间)。因而，可以根据收听者的偏好来增强或降低余音。

此外，在根据本实施例的声学信号处理装置1中，通过调整噪声控制器 30的第三增益部33和第四增益部34的加权量，可以调整噪声降低量。此外，通过调整第三HPF部31的截止频率，可以抑制噪声的DC成分。因而，可以调节声源的收录环境或声源本身中所包括的稳态噪声。

此外，基于针对频域的各振幅谱的变化量来进行上述的起音控制处理、余音控制处理和噪声降低处理。这样解决了在使用阈值来识别起音的传统方法中所产生的问题、即防止了检测状态受到声源的振幅电平的大幅影响(检测状态不依赖于声源的振幅电平)。

例如，在包括乐器声和语音的音频信号中，与乐器声的起音的上升时间相比，语音的上升时间延迟，并且语音的针对各振幅谱的变化量较小，从而使得能够根据起音控制器10中的第一HPF部11的截止频率的设置来将起音仅添加至乐器声。通过如此仅增强乐器声的起音，可以在维持语音的语调感的同时增强乐器声的尖锐感。

此外，可以针对各振幅谱个别设置起音控制器10、余音控制器20和噪声控制器30中的截止频率或加权量。因而，如下结构是可能的：将频带分割成多个带，并且针对多个带各自进行设置。

例如，将所输入的音频信号的频率区域分割成低频区域、中频区域和高频区域。在这种情况下，通过在低频区域中增强起音并降低余音，可以再现鼓等的击打力和应答性的声音。此外，在中频区域中，增强余音以增强语音的共鸣。此外，在高频区域中，增强起音以使钹声等的透明感更强。

在再现包括声源本身中所包含的稳态信号成分和/或声源的收录环境中所包含的稳态噪声成分的音频信号的情况下，噪声等可能作为具有现场感的声音被感知为“收听者处于收录环境”；然而，乐器声或语音的清晰度趋于降低。在这种情况下，在噪声控制器30中进行噪声控制以使噪声量略微减少，由此使得能够在一定程度上维持现场感的同时，将乐器声或语音的声学成分输出作为清晰声音。

如上所述，通过使用根据本实施例的声学信号处理装置1，可以调节诸如乐器声等的声源中所包括的起音、在该起音之后持续的余音、以及收录环境中的稳态噪声成分或声源中所包括的稳态信号成分，由此满足收听者的各种偏好。

尽管已经详细说明并示出了声学信号处理装置1作为本发明的声学信号处理装置的示例，但本发明的声学信号处理装置和声学信号处理方法不限于上述实施例。显然，本领域技术人员可以在所附权利要求书的范围内想到各种替代实现和修改实现。

附图标记说明

1 声学信号处理装置

2 FFT部

3 频谱域滤波部

4 IFFT部

10 起音控制器(起音成分控制器)

11 (起音控制器的)第一HPF部

12 (起音控制器的)第一限幅器部

13 (起音控制器的)第一增益部

20 余音控制器(余音成分控制器)

21 (余音控制器的)第二HPF部

22 (余音控制器的)振幅反转部

23 (余音控制器的)第二限幅器部

24 (余音控制器的)第二增益部

30 噪声控制器

31 (噪声控制器的)第三HPF部

32 (噪声控制器的)第三限幅器部

33 (噪声控制器的)第三增益部

34 (噪声控制器的)第四增益部

35 (噪声控制器的)第二相加部

40 第一相加部

41 第四限幅器部

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 声学信号处理装置和声学信号处理方法 [P] . 中国专利： CN104185870B . 2016.10.26
2. 声学信号处理装置、声学信号处理方法和免提通话装置 [P] . 中国专利： CN110383798B . 2021.05.11
3. Acoustic signal processing apparatus, acoustic signal processing system, and acoustic signal processing method, and program [P] . KR20210143174A . 2021-11-26

机译：声信号处理设备，声学信号处理系统和声学信号处理方法，以及程序
4. ACOUSTIC DEVICE, SPEAKER DEVICE, AND ACOUSTIC SIGNAL PROCESSING METHOD [P] . 日本专利： JP2018160885A . 2018-10-11

机译：声学设备，扬声器设备和声学信号处理方法
5. ACOUSTIC SIGNAL PROCESSING DEVICE, ACOUSTIC SIGNAL PROCESSING SYSTEM, ACOUSTIC SIGNAL PROCESSING METHOD, AND PROGRAM [P] . EP3944639A1 . 2022-01-26

机译：声信号处理装置，声学信号处理系统，声学信号处理方法和程序