首页> 中国专利> 声音控制装置、声音控制方法以及声音控制程序

声音控制装置、声音控制方法以及声音控制程序

摘要

一种声音控制装置,具备:听力推断部,其基于送受音比来推断用户的听力,上述送受音比表示送话音的音量与受话音的音量之比;修正量计算部,其根据推断出的听力来计算针对受话音的受话信号的修正量;和修正部,其利用计算出的修正量对受话信号进行修正。

著录项

  • 公开/公告号CN103282960A

    专利类型发明专利

  • 公开/公告日2013-09-04

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN201180063528.8

  • 申请日2011-01-04

  • 分类号G10L21/02(20130101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人舒艳君;李洋

  • 地址 日本神奈川县

  • 入库时间 2024-02-19 20:34:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-20

    未缴年费专利权终止 IPC(主分类):G10L21/0364 授权公告日:20160106 终止日期:20190104 申请日:20110104

    专利权的终止

  • 2016-01-06

    授权

    授权

  • 2013-10-09

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20110104

    实质审查的生效

  • 2013-09-04

    公开

    公开

说明书

技术领域

本发明涉及对受话音进行控制的声音控制装置、声音控制方法以及声音控制程序。

背景技术

以往,存在一种进行用于使受话声音容易听到的控制的便携终端装置。例如,有一种对用户再生多个单音频率信号,基于用户的听取结果来计算最低听取等级,来对声音进行加工的技术(专利文献1)。

另外,有一种利用朗巴德效应(Lombard effect),按照在送话音量大的情况下,判断为周围嘈杂而增大受话音量,在送话音量小的情况下,减小受话音量的方式进行自动调整的技术(专利文献2)。

另外,还有一种具备对特定音域的声音信号进行强调的均衡器(equalizer),基于用户的音量操作来修正均衡器的特性的技术(专利文献3)。

专利文献1:日本特开平7-66767号公报

专利文献2:日本特开2004-165865号公报

专利文献3:日本特开2010-81523号公报

然而,在专利文献1中,由于需要用户实施听力检查,所以会对用户强加繁琐处理,存在使用的便利性不佳这一问题。

另外,在专利文献2中,由于仅通过送话音量来判定受话音量,所以没有考虑用户的听力特性,具有对用户而言存在音质不佳的情况这一问题点。

另外,在专利文献3中,由于需要用户的音量操作,所以难以在通话中进行音量操作,存在在通话中无法进行声音控制这一问题。

发明内容

鉴于此,公开的技术鉴于上述问题点而提出,其目的在于,提供一种不对用户强加负担,能够根据用户的听力来进行声音控制的声音控制装置、声音控制方法以及声音控制程序。

公开的一个方式的声音控制装置具备:听力推断部,其基于送受音比来推断用户的听力,其中,上述送受音比表示送话音的音量与受话音的音量之比;修正量计算部,其根据推断出的上述听力来计算出针对上述受话音的受话信号的修正量;和修正部,其利用计算出的上述修正量来对上述受话信号进行修正。

根据公开的技术,能够不对用户强加负担地根据用户的听力来进行声音控制。

附图说明

图1是表示因年龄引起的听力等级的变化的图。

图2是表示实施例中的声音控制装置的功能的一个例子的框图。

图3是表示听力推断部的构成的一个例子的框图。

图4是表示送受音比与年龄之间的关系的一个例子的图。

图5是表示年龄与最小可听域之间的关系的一个例子的图。

图6是表示听力修正部的构成的一个例子的框图。

图7是表示噪声量与修正量之间的关系的一个例子的图。

图8是表示修正前后的最小可听域的一个例子的图。

图9是表示噪声量与修正前后的最小可听域之间的关系的一个例子的图。

图10是用于对频谱修正进行说明的图。

图11是表示实施例中的声音控制处理的一个例子的流程图。

图12是表示听力修正处理的一个例子的流程图。

图13是表示实施例中的便携终端装置的硬件的一个例子的框图。

附图标记说明:101、102-频率变换部;103-听力推断部;104-噪声推断部;105-听力修正部;106-频谱修正量计算部;107-频谱修正部;108-频率逆变换部;204-控制部。

具体实施方式

首先,针对年龄与听力之间的关系进行说明。听力例如是最小可听区域。图1是表示因年龄引起的听力等级的变化的图。图1所示的图表表示发明人他们进行的听力实验的实验结果。根据图1所示的实验可知,在40多岁和60多岁的情况下平均听力等级不同。60多岁的平均听力等级在高域(2kHz~4kHz)显著降低。另外,关于因年龄引起的听力降低,http://tri-osaka.jp/group/infoele/life/sense/data/katagiri/070622.pdf中也报告了调查结果。

如图1所示,已知听力等级因年龄增加而降低。尤其在高频区域中,随着年龄增加听力等级不断降低。

在此,对朗巴德效应(Lombard effect)进行说明。朗巴德效应是指在周围嘈杂的情况下,或者对方声音小的情况下如果难以听到对方的声音,则增大话声的效应。例如,对在背景噪声为50dBspl(以下仅表示为dB)的情况下,与安静的状态(37dB)相比将话声增大4dB进行了调查。关于该调查,请参照"Effects of noise on speech production:acousticand perceptual analyses",W.Van.Summers et.al.,J.Acoust.Soc.Am.,Vol.84,No.3,September1988的图1。

但是,除了周围的噪声与对方声音的大小之外,认为朗巴德效应还对收听的人的听力造成影响。如果听力降低则难以听到对方的声音,具有话声变大的趋势。如图1所示那样,由于听力的降低与年龄有关,所以可认为朗巴德效应与年龄存在关系。

鉴于此,以下针对利用朗巴德效应求取受话音量与送话音量之间的关系,根据该关系来推断年龄,并根据推断出的年龄推断听力进而控制受话音,以使受话声音容易听到的实施例进行说明。以下,基于附图对实施例进行说明。

[实施例]

<构成>

接下来,针对实施例中的声音控制装置1的功能进行说明。图2是表示实施例中的声音控制装置1的功能的一个例子的框图。如图2所示那样,声音控制装置1包括频率变换部101、102、听力推断部103、噪声推断部104、听力修正部105、频谱修正量计算部106、频谱修正部107以及频率逆变换部108。

频率变换部101针对受话音的受话信号r(t)进行时间频率变换,利用下式(1)求出频谱R(f)。时间频率变换例如为高速傅立叶变换(FFT)。

[数1]

R(f)=Re{R(f)}+j·Im{R(f)} …式(1)

f:频率(f=0,1,2,…K-1)K为内奎斯特频率(Nyquist frequency)

Re{}:实部

Im{}:虚部

频率变换部101将求出的频谱R(f)向听力推断部103、频谱修正量计算部106和频谱修正部107输出。

频率变换部102针对送话音的送话信号s(t)进行时间频率变换,利用下式(2)求出频谱S(f)。时间频率变换例如为高速傅立叶变换(FFT)。

[数2]

S(f)=Re{S(f)}+j·Im{S(f)} …式(2)

f:频率(f=0,1,2,…K-1)K为内奎斯特频率

Re{}:实部

Im{}:虚部

频率变换部102将求出的频谱S(f)向听力推断部103以及噪声推断部104输出。

听力推断部103基于受话音的音量和送话音的音量,来推断用户的听力。图3是表示听力推断部103的构成的一个例子的框图。在图3所示的例子中,听力推断部103包括送受音比计算部131、年龄推断部132以及最小可听域推断部133。

送受音比计算部131通过下式来计算受话音的频谱R(f)与送话音的频谱S(f)的平均功率。

[数3]

>R_ave=1KΣf=0K-1|R(f)|2=1KΣf=0K-1[|Re{R(f)}|2+|Im{R(f)}|2]>…式(3)

>S_ave=1KΣf=0K-1|S(f)|2=1KΣf=0K-1[|Re{S(f)}|2+|Im{S(f)}|2]>…式(4)

R_ave:受话音的频谱的平均功率

S_ave:送话音的频谱的平均功率

收发音计算部131例如根据受话音的平均功率R_ave和送话音的平均功率S_ave利用下式来求出送受音比sp_ratio。

sp_ratio=S_ave/R_ave…式(5)

sp_ratio:送受音比

送受音比计算部131将受话音的音量与送话音的音量之比设为送受音比。送受音比计算部131将求出的送受音比向年龄推断部132输出。

年龄推断部132在从送受音比计算部131取得了送受音比之后,参照预先保持的表示送受音比与年龄之间的关系的信息,来推断用户的年龄。

图4是表示送受音比与年龄之间的关系的一个例子的图。这是由于若年龄变高则听力下降、变得难以听到对方的声音,所以基于话声变大这一考虑来进行实验。通过与朗巴德效应的求取方式同样的实验,来预先推断年龄与送受音比之间的关系。

例如,可按照以下的步骤求出年龄与送受音比之间的关系。

(1)针对各年龄(或者各年龄段:10多岁、20多岁等)的受检者测定相对于受话音量(例如60dB)的送话音量。

(2)以在(1)中测定的各年龄求出所有受检者的平均送话音量。

(3)求出(2)的平均送话音量与受话音量之比(送受音比)。

(4)针对其他受话音量(例如30~80dB)也同样地进行(1)~(3)的处理。

由此,按每个受话音量,得到表示年龄与送受音比之间的关系的信息。年龄推断部132预先保持该每个受话音量的、表示年龄与送受音比之间的关系的信息。

年龄推断部132基于从送受音比计算部131取得的送受音比,从图4所示的关系推断年龄。例如,年龄推断部132确定与求出了送受音比的受话音量对应的、表示图4所示那样的关系的信息。年龄推断部132根据表示确定出的关系的信息和计算出的送受音比来推断年龄。年龄推断部132将推断出的年龄向最小可听域推断部133输出。

最小可听域推断部133基于从年龄推断部132取得的年龄,来推断最小可听域。最小可听域推断部133基于图1所示那样的关系,预先保持各年龄段的平均的最小可听域。

图5是表示年龄段与最小可听域之间的关系的一个例子的图。图5所示的A1表示60多岁的最小可听域,A2表示40多岁的最小可听域,A3表示20多岁的最小可听域。此外,年龄段与最小可听域之间的关系在图5所示的例子中每隔20岁设置,但例如也可以每隔10岁设置。

如图5所示那样,随着年龄段上升,最小可听域提高,变得难以听到。最小可听域推断部133保持图5所示那样的表示年龄段与最小可听域之间的关系的数据,取得与从年龄推断部132取得的年龄对应的最小可听域。最小可听域推断部133将所取得的最小可听域向听力修正部105输出。

除了年龄段与最小可听域之间的关系以外,也可以使用各年龄段的听力降低量。另外,也可以使用基于性别的最小可听域或听力降低量。关于因性别引起的听力特性的差异,请参照日本建筑学会编《面向高龄者的建筑环境(高齢者のための建築環境)》,彰国社发行,1994年1月10日发行,p.72-73。

返回到图2,噪声推断部104根据送话音来推断周围的噪声。例如,噪声推断部104根据当前帧的送话音的平均功率S_ave来推断噪声。

噪声推断部104将送话音的平均功率S_ave与阈值TH进行比较。

在S_ave≥TH的情况下,噪声推断部104不更新噪声量。

在S_ave<TH的情况下,噪声推断部104利用下式更新噪声量。

noise_level(f)=α×S(f)+(1-α)×noise_level(f)…式(6)

noise_level(f):噪声量

α:常数

在此,noise_level(f)的初始值为任意值。例如,设该初期值为0。另外,α为0~1的常数。α例如设为0.1。

阈值TH只要为40~50dB即可。由于人会话声音的大小为70~80dB,所以阈值TH比人声音的大小小。噪声推断部104将推断出的噪声量向听力修正部105输出。

听力修正部105利用从听力推断部103取得的最小可听域和从噪声推断部104取得的噪声量,对听力(例如最小可听域)进行修正。图6是表示听力修正部105的构成的一个例子的框图。听力修正部105包括修正量计算部151和最小可听域修正部152。

修正量计算部151根据从噪声推断部104取得的噪声量来计算修正量。修正量计算部151将计算出的噪声量向最小可听域修正部152输出。

最小可听域修正部152基于从听力推断部103取得的最小可听域和从修正量计算部151取得的修正量,来修正最小可听域。最小可听域修正部152例如对所取得的最小可听域加上所取得的修正量。

以下,对最小可听域修正的具体例进行说明。

(例1)

修正量计算部151预先保持与噪声量对应的修正量。图7是表示噪声量与修正量之间的关系的一个例子的图。在图7所示的例子中,将噪声分成大、中、小3个阶段,表示与各自对应的修正量。在图7所示的例子中,B1表示噪声量“大”的频谱的修正量,B2表示噪声量“中”的频谱的修正量,B3表示噪声量“小”的频谱的修正量。

修正量计算部151通过阈值判定等来判定所取得的噪声量相当于大、中、小的哪一个,根据判定结果从图7所示的关系中取出修正量。修正量计算部151将求出的修正量向最小可听域修正部152输出。

最小可听域修正部152对从听力推断部103取得的最小可听域加上从修正量计算部151取得的修正量。图8是表示修正前后的最小可听域的一个例子的图。在图8所示的例子中,C1表示修正后的最小可听域,C2表示修正前的最小可听域。

最小可听域修正部152通过针对图8所示的C2的最小可听域加上图7所示的任意一个修正量(B1~B3),来求出修正后的最小可听域(图7所示的C1)。最小可听域修正部152将修正后的最小可听域H′(f)向频谱修正量计算部106输出。修正后的最小可听域H′(f)例如是图8所示的C1。

(例2)

修正量计算部151对从噪声推断部104取得的噪声量noise_level(f)乘以常数β,来计算出修正量。β为常数,例如设为0.1。修正量计算部151将计算出的修正量向最小可听域修正部152输出。

最小可听域修正部152利用下式来求出修正后的最小可听域。

H′(f)=H(f)+β×noise_level(f)…式(7)

H′(f):修正后的最小可听域

H(f):修正前的最小可听域

β:常数

noise_level(f):噪声量

图9是表示噪声量与修正前后的最小可听域之间的关系的一个例子的图。在图9所示的例子中,D1表示修正后的最小可听域,D2表示修正前的最小可听域,D3表示噪声量。

最小可听域修正部152通过对图9所示的D2的最小可听域加上使图9所示的D3的噪声量乘以常数β而得到的修正量,来求出修正后的最小可听域(图9所示的D1)。最小可听域修正部152将修正后的最小可听域H′(f)向频谱修正量计算部106输出。

由此,能够基于推断出的噪声,修正根据用户的年龄推断出的最小可听域。

返回到图2,频谱修正量计算部106将受话音的频谱R(f)与修正后的最小可听域H′(f)进行比较,求出频谱修正量G(f)。例如,频谱修正量计算部106基于以下的条件来求出频谱修正量。

R(f)<H′(f)的情况:G(f)=H′(f)-R(f)

R(f)≥H′(f)的情况:G(f)=0

频谱修正量计算部106将求出的频谱修正量G(f)向频谱修正部107输出。

频谱修正部107利用下式,例如根据受话音的频谱R(f)和频谱修正量G(f)来求出修正后的受话音频谱R′(f)。

R′(f)=R(f)+G(f)…式(8)

图10是用于对频谱修正进行说明的图。图10所示的E1表示修正后的最小可听域H′(f),E2表示修正前的受话音频谱R(f),E3表示修正后的受话音频谱R′(f)。频谱修正部107对受话音频谱R(f)进行修正,以使修正后的受话音频谱R′(f)为最小可听域H′(f)以上。频谱修正部107将修正后的受话音的频谱R′(f)向频率逆变换部108输出。

频谱修正量计算部106也可以仅修正预先设定的频带的受话音频谱。预先设定的频带例如为听力容易降低的低频带域和/或高频带域。这是因为知晓听力容易降低的带域。

返回到图2,频率逆变换部108对从频谱修正部107取得的修正后的受话音频谱R′(f)进行逆频率变换(逆FFT变换),取得修正后的受话信号r′(t)。修正后的受话信号r′(t)被从扬声器输出,成为输出音。

由此,声音控制装置1通过基于送话音的音量与受话音的音量之比来推断用户的听力,并根据该听力控制声音,能够在通话中自动对用户提供容易听到的声音。

另外,声音控制装置1通过基于推断出的噪声,修正根据用户的年龄推断出的最小可听域,能够提供用户更容易听到的声音。

其中,噪声推断部104以及听力修正部105不是必要的构成。此时,频谱修正量计算部106只要使用由听力推断部103推断出的听力(最小可听域)来计算频谱修正量即可。

<动作>

接下来,对实施例中的声音控制装置1的动作进行说明。图11是表示实施例中的声音控制处理的一个例子的流程图。

在图11所示的步骤S101中,送受音比计算部131根据受话音的音量和送话音的音量计算出送受音比。

在步骤S102中,年龄推断部132基于计算出的送受音比,从表示送受音比与年龄之间的关系的信息推断年龄。

在步骤S103中,最小可听域推断部133基于推断出的年龄,从表示年龄(或者年龄段)与最小可听域之间的关系的信息推断最小可听域。

在步骤S104中,听力修正部105基于送话音所含的噪声对推断出的最小可听域进行修正。使用图12对该修正处理进行说明。

在步骤S105中,频谱修正量计算部106按照成为修正后的最小可听域以上的方式计算出受话音频谱的修正量。

在步骤S106中,频谱修正部107通过加上计算出的修正量等来修正受话信号。

由此,能够在通话中根据用户的听力提供用户容易听到的声音。

图12是表示听力修正处理的一个例子的流程图。在图12所示的步骤S201中,噪声推断部104判定送话音的平均功率(以下也称为送话功率)是否小于阈值TH。如果送话功率小于阈值TH(步骤S201-是)则进入步骤S202,如果送话功率为阈值TH以上(步骤S202-否)则进入步骤S203。若果发送功率小于TH,则噪声推断部104判定为送话音为无音。

在步骤S202中,噪声推断部104使用当前帧的送话音频谱,通过式(6)来更新噪声量。

在步骤S203中,听力修正部105基于推断出的噪声量对最小可听域进行修正(参照图8、9)。

由此,在周围的噪声量大的情况下,通过基于噪声量修正最小可听域,能够根据周围的噪声更容易地听到声音。此外,在实施例中,即使不进行基于噪声量的最小可听域的修正,也会发挥足够的效果。

以上,根据实施例,能够不对用户强加负担地根据用户的听力来进行声音控制。另外,根据实施例,由于能够在通话中进行声音控制,所以不需要使用户进行声音控制的操作,能够根据用户自动地进行声音控制。

另外,听力推断部103的处理也可以以规定的定时(每周一次、每月一次等)进行,通常也可以只进行基于噪声量的听力修正。这是因为如果用户不变,则不需要在通话时每次都进行听力推断。

另外,收发音计算部131在计算送受音比时,可以在送话音以及受话音为有音(声音)时进行计算。有音判定只要使用公知的技术进行即可。

例如,在日本专利第3849116号公报中,按输入信号的每一帧,基于使用功率、零交叉率、功率谱的峰值频率、间距周期等而计算出的第一声音特征量;和仅根据功率谱的峰值频率的高次分量的不同而计算出的第二声音特征量来进行是声音还是非声音的判定。由此,能够基于有音时的送话音的音量和受话音的音量来推断用户的听力。

[变形例]

图13是表示实施例中的便携终端装置200的硬件的一个例子的框图。便携终端装置200具有天线201、无线电部202、基带处理部203、控制部204、扩音器205、扬声器206、主存储部207、辅助存储部208以及终端接口部209。

天线201对被发送放大器放大后的无线信号进行发送,另外从基站接收无线信号。无线电部202对被基带处理部203扩散后的发送信号进行D/A变换,通过正交调制变换成高频信号,并利用功率放大器对该信号进行放大。无线电部202将接收到的无线信号放大,并对该信号进行A/D变换,然后向基带处理部203传输。

基带部203进行发送数据的错误修正码的追加、数据调制、扩散调制、接收信号的逆扩散、接收环境的判断、各信道信号的阈值判断、错误修正解密等基带处理等。

控制部204进行控制信号的收发等无线控制。另外,控制部204执行辅助存储部208等中存储的声音控制程序,进行实施例中的声音控制处理。

主存储部207是ROM(Read Only Memory)或RAM(RandomAccess Memory)等,是对控制部204执行的基本软件即OS或应用程序软件等程序、数据进行存储或者暂时保存的存储装置。

辅助存储部208是HDD(Hard Disk Drive)等,是存储与应用程序软件等相关的数据的存储装置。例如,图4、5、7所示那样的信息被存储在辅助存储部208中。

终端接口部209进行数据用适配器处理、电话听筒与外部数据终端的接口处理。

由此,在便携终端装置200中,能够在通话中自动提供与用户的听力对应的声音。另外,也能够将各实施例中的声音控制装置1作为一个或者多个半导体集成化电路而安装于便携终端装置200。

另外,公开的技术并不局限于便携终端装置200,也能够安装于其他的设备。在变形例中,对将实施例的声音控制装置安装于便携终端装置的例子进行了说明,但例如也能够将上述的声音控制装置或者上述的声音控制处理应用到视频电话会议装置、具有电话功能的信息处理装置、固定电话等。

另外,能够通过将用于实现上述实施例中说明的声音控制处理的程序记录到记录介质,来使计算机实施实施例中的声音控制处理。

另外,也能够将该程序记录到记录介质,使计算机或便携终端装置读取记录有该程序的记录介质,来实现上述的控制处理。其中,记录介质可使用如CD-ROM、软盘、光磁盘等那样通过光学、电或磁方式记录信息的记录介质、ROM、闪存等那样通过电方式记录信息的半导体存储器等各种类型的记录介质。

以上,对实施例进行了详述,但并不限定于特定的实施例,能够在权利要求所记载的范围内进行各种变形以及变更。另外,也能够对上述各实施例的构成要素全部或者多个进行组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号