首页> 中国专利> 语音对剩余音频交互助听器及辅助设备

语音对剩余音频交互助听器及辅助设备

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

集成的个人收听装置及解码器(309),用于接收音频信号,它包括:解码器(309),用于通过将音频信号分离为语音信号和背景信号来对音频信号进行解码;第一终端用户可调节放大器(311),它连接到语音信号,并放大语音信号;第二终端用户可调节放大器(310),它连接到背景信号,并放大背景信号;加法放大器(312),它连接到第一和第二终端用户可调节放大器的输出端,并输出总音频信号,所述总信号连接到个人收听装置。

著录项

公开/公告号CN1370386A

专利类型发明专利
公开/公告日2002-09-18

原文格式PDF
申请/专利权人听觉增强有限公司;
展开▼

申请/专利号CN00811618.0
发明设计人 M·A·沃德雷;W·R·桑德斯;
展开▼

申请日2000-06-15
分类号H04R3/00;
代理机构72001 中国专利代理(香港)有限公司;
代理人杨凯;张志醒
地址美国弗吉尼亚州
入库时间 2023-12-17 14:27:51

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-10

专利权有效期届满 IPC(主分类):H04R3/00 授权公告日:20050511 申请日:20000615

专利权的终止
2010-11-10

专利权的转移 IPC(主分类):H04R3/00 变更前: 变更后: 登记生效日:20100928 申请日:20000615

专利申请权、专利权的转移
2005-05-11

授权

授权
2002-11-27

实质审查的生效

实质审查的生效
2002-09-18

公开

公开
2002-08-28

实质审查的生效

实质审查的生效

查看全部

说明书

对相关应用的交叉引用

本申请要求1999年6月15日申请的题为“语音对剩余音频(VRA)交互助听器及辅助设备”的美国临时专利申请序No.60/139243的权益。

发明领域

本发明的实施例一般涉及处理音频信号，更具体地说，涉及用于处理音频信号的方法及装置，使听力损伤者能够调整语音对剩余音频(VRA：voice-to-remaining audio)的水平来改善其听力体验。

发明背景

当人们步入老年时，随着时间的推移，由于多方面的因素，如年龄、遗传、疾病以及环境影响等，人们的听力会逐渐受到损害。这种损害通常特定为某些频率范围。

除了永久性的听力损伤之外，由于特别高的声级的影响，人们可能会遇到暂时性的听力损伤。例如，在打靶或参加一场摇滚音乐会之后，人们可能会遇到暂时性听力损伤的情况，这种情况会稍微有所改善，但随着时间的推移，可能会积聚为永久性听力损伤。即使是较低的声级，但如果持续时间较长，也可能会对人们的听力带来暂时的影响，例如在工厂工作或在小学教书。

通常，人们通过提高音频的音量来补偿听力损失或听力损伤。但是，这种方法只不过提高了全部信号中所有可听频率的音量。这种全部信号音量的提高在语音可懂度方面提供极少改善或没有任何改善，对听力损伤与频率相关的人尤其如此。

虽然听力损伤一般随着年龄而增加，然而许多听力损伤者不承认他们有听觉障碍，因此不使用改善其听力质量的装置。虽然许多老年人随着年龄渐增而配戴眼镜，但这些老年人中的极少数会戴助听器，尽管在减小助听器的尺寸方面有重大的改进。这种现象表现出与助听器和/或听力损伤相关的明显社会偏见。因此，需要提供一种技术，通过一种避免明显相关社会偏见的方法，来改善听力损伤者的听力体验。

大多数音频节目，无论是电视伴音、电影伴音或者音乐，均可以分为两个不同的分量：前景和背景。一般来说，前景声音是用来吸引听众注意力并使他们集中注意的声音，而背景声音则起辅助作用，对听众来说不是主要的兴趣所在。这方面的一个示例就是“连续剧”的电视节目，在其中传递主要人物的声音并发展故事情节，而声音效果、听众的笑声以及音乐则填补空白。

目前，所有类型的音频媒体的听众都被限制于由音频工程师在制作过程中所确定的混合效果。音频工程师会按其喜好的级别，或者按他认为具有某些历史背景意义的标准，将其它所有背景噪声成份与前景声音进行混合。这种混合声音随后便以单一(单声道)信号或有时以立体声(左和右)信号发送给终端用户，而没有任何手段来调节前景声音与背景声音对比度。

对于听力损伤者来说，缺乏调节前景声音与背景声音对比度的功能则更是一个困难。在许多情况下，由于背景声音掩盖了前景信号，使节目难于(最大限度地)被理解。

可以采用许多新的数字音频形式。其中一些形式尝试提供用于听力损伤者的功能。例如，杜比数字，又称作AC-3(或音频编解码器第3版)，是一种数字音频压缩技术，它将更多数据压缩到较小的空间中。数字音频的未来是空间定位，它通过提供5.1独立音频通道来实现：中置、左和右、左和右环绕。称作0.1通道的第六通道指受限带宽低频效果(LFE)通道，由于其低频，所以通常是非定向的。由于有5.1音频通道来传送，所以就需要压缩来保证视频和音频两者均保持在一定的带宽限制之内。目前，对于陆地传送，与数字视频光盘(DVD)相比，这些限制(由联邦通信委员会(FCC)提出)更为严格。DVD中有超过足够空间的空间来为终端用户提供未经压缩的音频(从收听的观点来说是更为需要的)。视频数据通常通过MPEG(运动图像专家组)开发技术来进行压缩，虽然它们也具有类似于杜比的音频压缩技术。

DVD行业采用了杜比数字(DD)作为其选择的压缩技术。大多数DVD采用DD进行制作。ATSC(高级电视标准委员会)也选择了AC-3作为美国数字电视的音频压缩方案。这已经扩展到全球许多其它国家。这意味着，对于广播或录制，制作室(电影和电视)必须按DD对其音频进行编码。

除了严格的编码和解码方案之外，经常结合杜比数字讨论的还有许多特点。这些特点其中一些是DD的一部分，有些则不是。发送压缩比特流的同时，DD还发送有关该比特流的信息，称作元数据，或“有关数据的数据”。主要是0和1，表示是否有终端用户可用的选项。这些选项的其中三个分别是dialnorm(对话标准化)、dynrng(动态范围)以及bsmod(比特流模式，它控制主音频业务(main audioservice)及相关音频业务(associated audio service))。前两个选项已经是DD的组成部分，因为许多解码器都处理这些变量，为终端用户提供了对其进行调节的功能。第三个信息位bsmod在ATSC文档A/54中进行了详细说明(非杜比发布)，但也作为DD比特流的部分而存在。bsmod的值通知解码器有关输入音频业务的性质，包括是否存在任何相关音频业务。现在还没有已知的制造商采用这个参数。目前，通过在DVD的八个可用音频轨道的其中之一上的多个完整主音频节目来提供多语言DVD性能。

dialnorm参数用来使听众能够相对于不变的语音级别来规一化所有音频节目。在频道之间以及在节目和广播片之间，整体音频级别波动大。将来，制作者将被要求加入dialnorm参数，指明录制对话的声压级(SPL)。如果该值对于某个节目设置为80dB，而对于商业设置为90dB，则该电视将对信息进行解码，检查终端用户已输入的所需级别(如85dB)，并将电影调高5dB，将商业节目调低5dB。这是总音量级别调节，它基于制作者输入的dialnorm位值。

AC-3说明的一部分(摘自文档A/52)提供了这种技术的最佳说明。“dynrng值通常指示在最大声信号通过期间的增益减少，以及在静音通过期间的增益增加。对于听众来说，希望将最大声声音级别降低为接近对话级别，而将静音级别提高，同样接近对话级别。与正常说话同样响度的声音的增益通常没有改变。”

dynrng变量为终端用户提供了可调节参数，这个参数将控制出现在总音量中有关对话级别的压缩量。这主要将总音频节目的动态范围限制在大约平均对话级别。但是，它并不提供任何方法独立于剩余音频级别来调节对话级别。

在ATSC的数字电视标准(附录B)中提供了改善听力损伤者听力体验的一种尝试。ATSC标准的附录B第六部分说明了主音频业务及相关音频业务。AC-3基本流(elementary stream)包含单一音频业务的编码表示。多个音频业务由多个基本流提供。每个基本流通过具有唯一PID的传输复用来传送。有许多音频业务类型，它们可以单独地被编码成各个基本流。其中一种音频业务类型称为完整的主音频业务(CM)。CM类型的主音频业务包含完整的音频节目(包括对话、音乐以及声音效果)。CM业务可以包含1至5.1音频通道。CM业务还可以通过其它业务进行扩展。另一个音频业务类型是听力损伤业务(HI)。HI相关业务通常只包含对话，用于与CM业务同时再现。在这种情况下，HI业务为单音频通道。如本文所述，这种对话可以被处理，用于实现听力损伤听众改善的可懂度。CM和HI两种业务的同时再现使听力损伤听众能够听到CM和HI业务的混合声音，以便突出对话，同时还提供一些音乐和声音效果。除了提供HI业务作为单一的对话通道，HI业务也可以作为完整节目混合声音来提供，其中包含音乐、声音效果以及对话，具有提高了的可懂度。在这种情况下，该业务可以使用任何通道数量(最高为5.1)来进行编码。虽然这种业务可以改善某些听力损伤者的听力体验，但它肯定不适合那些因为害怕被视为听力损伤者而不采用指定接收机的人们。最后，为听力损伤者所进行的任何对话处理禁止在为非听力损伤者创建音频节目中使用该通道。此外，附录B中提出的HI业务和CM业务之间的关系仍然没有对每个用来为听力损伤者创建通道的相关信号级进行定义。

其它技术已经被用来尝试改善音频的可懂度。例如，美国专利No.4024344公开了一种创建电影声音中对话的“中置音频通道”的方法。其中公开的这种技术使左、右立体音频通道相关联，并根据左、右音频通道的相关程度来调节组合的和/或独立的左或右音频通道中的增益。假定左、右音频通道之间较强的相关性表示是否出现对话。中置音频通道是左、右音频通道的过滤总和，它根据左、右音频通道之间相关的程度被放大或衰减。这种方法的问题在于：它没有区别有意义的对话和简单的相关声音，也没有针对语音频带中不希望的语音信息。因此，就不能为所有听力损伤者改善所有音频的可懂度。

总的来说，上述杜比及其它的发明均尝试通过各种信号处理硬件或算法来修改音频信号的某些内容，但是，这些方法没有满足不同听众的个人需要或喜好。总之，所有这些技术均为听力损伤者以及非听力损伤者提供了非最佳的听力体验。

最后，微型化电子和高质量数字音频已经在数字助听技术中引起了技术革命。此外，最新的数字音频传输标准以及包括DVD(所有格式的)、数字电视、因特网无线电广播、数字无线电广播在内的录音节目均结合复杂的压缩方法，使终端用户能够对音频节目进行前所未有的控制。这两种技术的结合已经提供了改进的方法，用于为听力损伤的终端用户提供欣赏数字音频节目的能力。但是，这种结合没有针对不同听力损伤终端用户的所有需求和关注。

因此，本发明针对开发一种用于处理音频信号的系统和方法的问题，本优化听力损伤者和非听力损伤者的听力体验，无论是个人的还是集体的。

发明概述

一种集成的用于接收音频信号的个人收听装置和解码器，它包括：解码器，用于通过将音频信号分解为语音信号和背景信号来对音频信号进行解码；第一终端用户可调放大器，它被连接到语音信号并对语音信号进行放大；第二终端用户可调放大器，它被连接到背景信号并对背景信号进行放大；加法放大器，它被连接到所述第一和第二终端用户可调放大器并输出总音频信号，所述总信号被连接到个人收听装置。

附图概述

图1说明按照本发明的一般方法，用于从录制节目或广播节目的普通背景音频中分离有关语音信息。

图2说明按照本发明的示意性实施例，用于接收和播放编码节目信号。

图3说明传统的个人收听装置的示意性实施例，诸如助听器。

图4是方框图，说明用于同时多终端用户的语音对剩余音频(VAR)系统。

图5是方框图，说明一种按照本发明实施例的向个人收听装置发送无线传输的解码器。

图6说明到达助听器麦克风及终端用户耳朵的环境声。

图7说明与图6所示助听器配合使用的耳塞。

图8是信号通路的方框图，其中信号通路通过按照本发明实施例的解码器激活助听器到达听力损伤终端用户。

图9是信号通路的方框图，其中信号通路到达听力损伤终端用户，它结合了自适应噪声消除算法。

图10是信号通路的方框图，其中信号通路通过按照本发明的另一个实施例的解码器到达听力损伤终端用户。

图11说明本发明的另一个实施例。

图12说明本发明的另一个实施例。

详细说明

本发明的实施例针对集成的个人收听装置和解码器。这种解码器的一个示例是杜比数字(DD)解码器。如上所述，杜比数字是一种音频压缩标准，它在陆地广播和记录媒体方面得到广泛应用。虽然本文中的说明采用DD解码器，但也可使用其它类型的解码器，而不脱离本发明的精神和范围。此外，不排除除杜比数字之外的其它数字音频标准。本实施例使听力损伤终端用户可以在与其它听众一起的收听环境中利用DD提供的“听力损伤相关音频业务”，而不影响其它听众的收听兴致。本文所使用的术语“终端用户”是指客户，或者是广播或录音的听众，又或者是接收通过录音或广播所发布的音频媒体上的音频信号的人。此外，术语“个人收听装置”是指助听器、头戴式耳机、助听装置、耳蜗插入物或其它有助于终端用户能力的装置。另外，术语“首选音频”是指音频信号的首选信号、语音成份、语音信息或主要语音成份，术语“剩余音频”是指音频信号的背景、音乐或非语音成份。

本发明的其它实施例涉及一种解码器，它直接向诸如助听器或耳蜗插入物的个人收听装置发送无线传输。“听力损伤相关音频业务”由DD提供，它提供随同主节目一道的单独对话，与“听力损伤相关音频业务”配合使用，解码器为听力损伤终端用户提供调节能力，用于有其他听众也在同一收听环境的情况下改善可懂度，同时其他听众可以欣赏未受影响的主音节目。

本发明的其它实施例涉及截取盒(interception box)，它在广播伴随从模拟传输到数字传输过渡时为通信市场提供服务。截取盒使终端用户可以利用听力损伤方式(HI)，而不需要具备完整功能的主/相关音频业务解码器。截取盒对发送的数字信息进行解码，并允许终端用户采用模拟形式控制来调节听力损伤参数。这种模拟信号还被直接馈送给诸如电视的模拟播放装置。按照本发明，截取盒可以与诸如助听器的个人收听装置一起使用，或者在过渡期间能允许数字业务为模拟终端用户所使用。

首选音频对剩余音频的比率的意义

本发明首先认识到，首选音频信号相对于任何剩余音频的比率的收听优先范围相当大，无疑比所预计的要大。这个重大发现是对小样本人口就其在首选音频信号级对全部剩余音频信号级的比率的喜好方面进行的调查所得出的结果。

听力损伤或正常听众的所需范围的具体调节

在了解正常和听力损伤终端用户是如何感觉到不同类型的音频节目的对话和剩余音频之间的比率方面，进行了非常有针对的研究。已经发现，在语音和剩余音频之间所需的调节范围方面有极大的差别。

对包括小学生、中学生、中年居民以及老年居民在内的随机样本人口进行了两个实验。总共71个人进行了测试。测试包括：要求终端用户调节一场足球赛(其中，剩余音频是喧哗噪声)和一首流行歌曲(其中，剩余音频是音乐)的语音级和剩余音频级。对于每个选项，通过用剩余音频的音量的线性值除对话或语音的音量的线性值来产生称作VRA(语音对剩余音频)比率的量度。

这种测试说明了几件事。第一，对于体育和音乐媒体两者来说，不会有两个人都喜好相同的语音和剩余音频比率。这一点非常重要，因为所述人口依赖于制作者来提供会吸引每个人的VRA(这是客户无法调节的)。这显然是不会出现的，测试结果如此。其次，尽管对于那些听力损伤者，VRA通常较高(以便改善可懂度)，但那些正常听力的人也喜欢不同于目前制作者们所提供的比率。

同样重要的是要强调一个事实：提供VRA调节的任何装置都必须提供至少与这些测试推断的差不多的调节功能，以便使其满足相当大部分的所述人口。由于视频和家庭影院媒体提供各种各样的节目，我们应该考虑，该比率应至少从对任何媒体(音乐或体育赛事)的最低被测比率延伸到对音乐或体育赛事的最高被测比率。这为0.1至20.17，或者说是46dB的范围。应该指出，这只是对所述人口的抽样调查，在理论上调节功能应该是无限的，因为很可能某个人在观看一场赛事广播时可能不喜欢喧哗噪声，而另一个人却不喜欢播音。注意，在文献或先有技术中没有报导或说明这种调查以及对于变化极大的VRA比率的要求。

在这个测试中，选取一组年长的男性，并要求他们在固定背景噪声和播音员声音之间进行调节(稍后对一组学生进行测试)，其中，只有播音员的声音可以改变，而背景噪声则设置为6.00。年长组的测试结果如下：

表I

个人设置值 1 7.50 2 4.50 3 4.00 4 7.50 5 3.00 6 7.00 7 6.50 8 7.75 9 5.50 10 7.00

11 5.00

为了进一步说明一个事实，即各种年龄的人都有不同的听力需求和喜好，选取一组21岁的大学生来听语音和背景音的混合声音，并通过对语音级进行调节来选择语音对背景音的比率。在这种情况下的背景噪声为一场足球赛事的喧哗噪声，它被固定为六(6.00)的设置值，学生可以调节播音员解说声的音量，其中，播音员的解说声已经单独录制并且是纯语音或主要是纯语音。换句话说，选取这些学生来进行与年长的男性组所进行的相同测试。选取学生的目的在于使年龄所引起的听力衰退现象减到最小。这些学生全部为二十岁左右。测试结果如下：

表II

学生语音设置值 1 4.75 2 3.75 3 4.25 4 4.50 5 5.20 6 5.75 7 4.25 8 6.70 9 3.25 10 6.00 11 5.00 12 5.25 13 3.00 14 4.25 15 3.25 16 3.00 17 6.00

18 2.00 19 4.00 20 5.50 21 6.00

年长组(如表I所示)的年龄范围从36至59岁，其中主要为40或50岁的人。正如测试结果所表明的，趋于相当高的平均设置值表明全体人员均有某种程度的听力损失。范围也是在3.00至7.75之间变化，有4.75的差额，证实了人们喜好的语音对背景收听比率或者说任何首选信号对剩余音频(PSRA)比率的变化范围。两组测试对象的音量设置值的整个跨度范围为2.0至7.75。这些级(level)表示有关用于进行该实验所使用的音量调节机构的实际值。它们提供了信号对噪声值的范围的指示(在与“噪声”级6.0相比较时)，可能是不同终端用户所需的。

为了更好地了解这与不同终端用户选择的相对响度变化的联系，认为从2.0至7.75的非线性音量控制变化表示20dB或十(10)倍的增加。这样，即使对于这样小的人口抽样调查和单一类型的音频节目，均发现不同的听众的确喜欢“首选信号”关于“剩余音频”的极为不同的级别。这种喜好贯穿于各年龄组，说明它符合个人喜好和基本的听力，这迄今是完全未预料的。

测试结果表示，没有因年龄而引起听力衰退的被选学生组的范围(如表II所示)变化大，从低设置值2.00至高设置值6.70，差额为4.70，即几乎是1至10的总范围的一半。这个测试说明，大多数录制和广播音频信号的“一个大小适合全体(one size fits all)”之心理远远不能为个人听众提供能力来调节混合声音以满足其个人喜好或听力需求。同样，学生的设置值具有较大的范围，与年长组相同，这表明在喜好和听力需求方面的个人差异。该测试的一个结果是：听力喜好是十分不同的。

对更大的抽样组的进一步测试证实了这个测试结果。此外，这些结果根据音频的类型有所改变。例如，当音频源是音乐时，语音对剩余音频的比率从接近零至大约10的范围变化，而当音频源是体育节目时，语音对剩余音频的比率在接近零和大约20之间变化。此外，标准差增加约三倍，而平均值则比音乐的平均值增加两倍以上。

上述测试的最终结果是：如果选择首选音频对剩余音频比率并将其一直固定为这个值，则很可能创建出一个低于大部分所述人口所需的音频节目。并且，如上所述，首选的比率可能是短期和长期的时间变化函数。因此，需要对该首选音频对剩余音频比率的完全控制，以便满足“正常”或非听力损伤听众的听力需求。另外，为终端用户提供对所述比率的最终控制，以使终端用户能够优化其听力体验。

终端用户对首选音频信号和剩余音频信号的独立调节将是本发明一个方面的显著的表现。为了说明本发明的详细情况，考虑首选音频信号是相关语音信息的应用。

首选音频信号和剩余音频信号的创建

图1说明用于从录制或广播节目的普通背景音频中分离相关语音信息的一般方法。首先就需要由节目导演关于相关语音定义作出决定。演出人员或解说员必须标识为相关的说话者。

一旦标识了相关的说话者，其声音将由语音麦克风301获取。语音麦克风1必须是近讲麦克风(close talking microphone)(在解说员的情况下)或用于录音的强指向性麦克风(highly directional shotgun)。除了强指向性之外，这些麦克风301还必须是语音频带受限的，最好是200-5000Hz。定向性和带通滤波的组合使录制时在声学上结合到相关语音信息的背景噪声降到最小。在某种类型的节目的情况下，通过离线录制对话的相关语音，以及通过适当地给节目的视频部分配上对话，可以避免对防止声结合的需求。背景麦克风302应该是宽带的，以便提供丰富的背景信息(如音乐)音频质量。

摄像机303将用来提供节目的视频部分。音频信号(语音和相关语音)将在编码器304中与视频信号一起被编码。一般来说，仅通过采用不同的载波频率对音频信号进行调制，音频信号常常与视频信号分离。由于现在大多数广播都是立体声的，所以将相关语音信息与背景一起进行编码的一种方法是以大致相同的方式在独立的立体声通道上复用相关语音信息，其中，左前置通道和右前置通道被加到两个立体声通道，以便产生四声道盘录音。尽管这种方法会产生对附加广播带宽的需求，对于录制媒体来说，这将不是问题，只要影碟或磁带播放机中的音频电路被设计成对相关语音信息进行解调。

一旦采用适当的方法对信号进行编码，编码信号由广播系统305通过天线313发出用于进行广播，或通过记录系统306录制在磁带或盘上。在录制的音频视频信息的情况下，背景和语音信息可以仅放置在独立的记录道上。

接收、解调首选音频信号和剩余音频

图2说明用于接收和播放编码节目信号的一个示例性实施例。在广播信息的情况下，接收机系统307对来自编码音频/视频信号的主载波频率进行解调。在录制媒体314的情况下，VCR的磁头或CD播放器的激光读取器308将产生编码音频/视频信号。

在上述任何一种情况下，这些信号将被发送给解码系统309。解码器309结合频分或时分解调利用诸如包络检波的标准解码技术来把信号分离成视频、语音音频及背景音频。背景音频信号被发送给独立的可变增益放大器310，听众可以按照自己的喜好对其进行调节。语音信号被发送给可变增益放大器311，可以由听众按照其自己独特的需求来进行调节，就想上面讨论的那样。

两种经过调节的信号由统一增益加法放大器(unity gain summingamplifier)132相加，以便产生最终的音频输出。另一方面，两种经过调节的信号由统一增益加法放大器312相加，并由可变增益放大器315作进一步调节，以便产生最终的音频输出。照这样，听众可以调节相关语音相对背景的级别，以便在播放音频节目时按照其自己独特的收听要求来优化该音频节目。同一听众每次播放相同音频时，该比率设置值可能由于听众的听力变化而需要改变，该设置值保持无限可调，以便适应这种灵活性。

典型的个人收听装置的配置

图3说明一个诸如助听器的传统个人收听装置10的示意性实施例。助听器10包括麦克风11、前置放大器12、可变放大器13、功率放大器14及激励器15。麦克风11通常位于助听器10中，朝外放置，以便检测贴近终端用户耳朵的周围环境声音。麦克风11接收作为声压的周围环境声，并将声压转换成电信号。麦克风11连接到接收电信号的前置放大器12。电信号由前置放大器12进行处理，并产生较大幅值的电信号。这个较大幅值的电信号被转发给终端用户控制可变放大器。终端用户控制可变放大器连接到助听器外部的刻度盘(dial)。这样，终端用户便具备了控制麦克风信号(即全部环境声音的总和)音量的能力。终端用户控制可变放大器13的输出被发送给功率放大器14，在其中为电信号提供了功率，以便驱动激励器/喇叭15。激励器/喇叭15被放在终端用户的耳道内。激励器/喇叭15将来自功率放大器14的电信号转换成声信号，该声信号是代表环境声音的麦克风信号的放大形式。通过将激励器/喇叭15放置在耳道中而将麦克风11放置在耳道外，来避免从激励器到麦克风11的声反馈。

虽然上面说明了助听器的组件，但是，上述其它个人收听装置可以用于本发明中。

个人收听装置及解码器

在室内收听环境下，可能同时存在不同程度听力损伤的听众以及正常听力的听众。上述助听器或其它收听装置可以配备解码器，所述解码器接收来自节目源的数字信号并单独对该信号进行解码，使终端用户能够使用语音，例如听力损伤相关音频业务，而不会影响其它听众的收听环境。

如上所述，语音对剩余音频的首选比率对于不同的人来说存在极大的差异，尤其是对听力损伤者来说，并且对于不同类型的节目(体育赛事与音乐等)来说也存在差别。图4是一个方框图，说明按照本发明一个实施例的同时多终端用户的VRA系统。该系统包括比特流源220、系统解码器221、中继器222以及多个个人VRA解码器223，其中个人VRA解码器223与个人收听装置224结合或与个人收听装置224连接。数字源(DVD、数字电视广播等)通常提供数字信息信号，其中包含压缩数字和视频信息。例如，杜比数字提供包含音频节目的数字信息信号，诸如音乐和效果(ME)信号、及作为杜比数字相关业务一部分的听力损伤(HI)信号。按照本发明的一个实施例，数字信息信号包括独立的语音成份信号(如HI信号)和剩余音频成份信号(如ME或CE信号)，它们作为单一比特流同时被传送给系统解码器221。

按照本发明的一个实施例，来自比特流源220的比特流还被提供给中继器222。中继器222将该比特流重新发送给多个个人VRA解码器223。每个个人VRA解码器223包括：解调器266和解码器267，用于对比特流进行解码；可变放大器225和226，用于分别调节语音成份信号和剩余音频信号成份。经调节的信号成份由加法器227进行混合(downmix)，并且可由可变放大器281进一步调节。经调节的信号然后被发送给个人收听装置224。按照本发明的一个实施例，个人VRA解码器与个人收听装置连接，并形成一个单元，表示为250。另一方面，个人VRA解码器223和个人收听装置224可以是独立的装置，并以有线或无线的方式进行通信。个人收听装置224可以是包含图3所示组件的助听器。同样，个人VRA解码器223的输出被馈送给终端用户控制放大器13，供终端用户进一步调节。虽然示出三个个人VRA解码器及相关个人收听装置，但是，可以使用更多的个人VRA解码器及相关个人收听装置，而不脱离本发明的精神和范围。

对于5.1通道节目，语音主要置于中置通道，而剩余音频则置于左、右、左环绕以及右环绕上。对于具有个人收听装置的终端用户来说，声音的空间定位是极少关心的事，因为他们中的大多数都对语音可懂度有极大的困难。通过使终端用户调节中置通道关于其它4.1通道的级别，可以提供语音可懂度方面的改善。这些5.1通道则被混合为2通道，中置通道的音量调节允许改善语音可懂度方面，而不依赖于上述听力损伤模式。本发明的这个方面优于全功能AC3类型，这表现为：终端用户能够获得有限VRA调节，而不需要诸如听力损伤模式的独立对话通道。

图5说明一种解码器，它直接向按照本发明一个实施例的个人收听装置发送无线传输。如上所述，数字比特流源220同前面一样向系统解码器221提供数字比特流。如果没有元数据可供听力损伤听众使用(即没有HI模式)，则没有必要发送整个数字比特流，而只发送音频信号。注意，这是与助听器本身包含数字解码器这一概念的一个小偏差，但它意味着向听力损伤者提供相同的业务。在系统再现230中，5.1音频通道被分离成中置(主要包含对话-取决于生产实践)和其它，后者主要包含可能降低可懂度的音乐和效果。5.1音频信号还被馈送给收发机260。收发机260接收信号和并向多个VRA接收装置270重发所述信号。VRA接收装置270包括诸如用于消除传送信号的载波信号的解调器的电路。载波信号是用来传送或“承载”输出信号信息的信号。经解调的信号建立左、右、左环绕、右环绕、亚(剩余音频)和中置(首选)通道信号。利用可变放大器225来调节首选通道信号，而利用可变放大器226来调节剩余音频信号(左、右、左环绕、右环绕及亚低音)。这些可变放大器中每一个的输出被馈送给加法器227，加法器227的输出可以利用可变放大器281来调节。这种相加和调节的电信号被提供给终端用户控制放大器13，随后再被发送给功率放大器14。经放大的电信号则被转换成经放大的声信号，提供给终端用户。根据上述实施例，多个终端用户可以同时接收用于VRA调节的输出信号。

图6至7说明几个与本发明有关的相关特性。图6说明到达助听器麦克风11和终端用户耳朵的环境声(包含相同的数字音频节目)。麦克风所接收的环境声将不是与通过连接助听器的个人VRA解码器223到达的声音完全同步的。其原因在于：两个传输通路具有极为不同的特性。个人VRA解码器提供一种信号，这个信号以光速通过纯电子通路传播，没有增加的声学特性。然而，环境声则通过一条通路以音速从声音源传播到终端用户，并且也包含终端用户所处环境的声学定义的回响因素。如果该终端用户至少具有某种独立听力，那么关闭助听器的环境麦克风将不会完全纠正这个问题。终端用户可以听到的部分环境声将会干扰个人音频解码器提供的节目。

本发明所考虑的一个解决方案是：在从VRA个人解码器提供信号时，为终端用户提供阻挡环境声的能力。这可以通过使用如图7所示的耳塞来实现。

虽然这种方法将逐渐达到耳塞环境噪声抑制能力的极限，但是它有一个显著的缺陷。对于与另一个人一起欣赏节目的某个人，可能需要在节目进行当中进行轻松的交谈。耳塞不仅阻挡了主要音频源(干扰进入助听器的经解码的音频)，而且也不加区别地阻挡了其它环境噪声。为了有选择地阻挡主音频再现系统所产生的环境噪声而不影响其它(所需的)环境声音，就要求更为复杂的方法。注意，同样的说明可以用于有关使用头戴式解码器的可接受性。头戴式耳套提供了对环境噪声的一定衰减程度，但干扰了交谈。如果这对于听力损伤终端用户不是太重要的话，这种方法是可以接受的。

所需要的是一种方法来避免与数字音频节目的空气传播有关的潜在问题，同时还使听力损伤听众能够与同一个房间中的其它观赏者互相交流。图8示出信号通路的方框图，其中，信号通路通过数字解码器激活助听器到达听力损伤终端用户。纯(解码的)数字音频“S”直接到助听器“HA”，并且可以由终端用户可调放大器“w₂”进行修改。在送达助听器变换器之前，这个数字音频信号还通过主传送系统和室内音响装置(G₁)进行传播。除了这个信号，“d”存在并表示所需的环境声，诸如朋友的谈话。这个到达麦克风的总信号也是终端用户通过增益(可能与频率相关)“w₁”可调节的。显然，出现了第一个问题，我们发现，由G修改的信号s干扰来自助听器解码器的纯数字音频信号；所需的室内音频通过相同的信号通路传送。当包含通过助听器的物理通路时存在第二个问题，假定终端用户在一定程度上具有通过该通路(由“G”表示)收听音频的能力。实际上到达耳朵的是由w₁放大的室内音频、由w₂放大的解码器信号、和被“G”抑制的室内音频的组合。从整个系统中希望得到的是在听力损伤修改解码器输出和室内存在的所需信号之间的简单终端用户可调节的混合。由于存在发送给终端用户的解码器信号的单独测量，所以通过使用自适应前馈控制，这个最终结果是可能的。

图9说明一个重构的方框图，其中加入了自适应滤波器(标记为“AF”)。有一个作为实施例提出的自适应滤波的方法的基础的重要假设：通过图8中“G”的传送通路基本上是可以忽略的。在物理方面，这是指助听器本身的无源噪声控制性能足以抑制到达终端用户耳朵的环境噪声。(还要注意，G包括个人的听力损伤量；如果非常高，那么这个声音通路也可以忽略)。如果情况不是这样，则应当进行测量，以便对助听器本身增加附加无源控制，使环境到终端用户耳膜的物理通路(不是电子通路)具有极高的介入损耗。图9中的虚线表示助听器本身。存在音频输入：助听器麦克风获得所有环境噪声(包括来自主要播放装置喇叭的音频节目，它没有受前面所述的听力损伤模式所改变)以及数字音频信号，后者经解码、调节，用于优化听力损伤者收听。如上所述，助听器麦克风的难题在于：它获得所需的环境声音(谈话)和潜在的音频节目。这种音频节目信号将会干扰听力损伤音频节目(单独解码的)。只降低助听器麦克风的音量级将会消除所需的音频。如图9所示的解决方案是：使用解码器信号作为参考，将自适应噪声消除算法置于麦克风信号中。由于自适应滤波器仅尝试消除具有相关参考信号的一些信号，而保持环境谈话不受影响。因此，自适应滤波器的输出可以通过w₁被单独放大，而所需环境信号和经解码的音频可以通过w₂被单独放大。这种方法固有的困难在于：需要消除的音频节目的带宽可能超过自适应滤波器的能力。

另外一个可用的可能性是：将自适应前馈控制与固定增益前馈控制结合。如图10所示，这个选择更为通用，因为它不要求通过助听器的声通路是可以忽略的。有可能确定助听器本身的频率响应(传输损耗)、并利用这个估计来消除对冲击耳朵的整体压力的影响，通过利用这一事实来从冲击耳朵的信号中消去所述通路。图10说明整个助听器设备与控制装置的结合。首先说明所述设备组件。解码器信号“S”被发送给助听器解码器(如上所述)，用于听力损伤或中置通道的处理以改善可懂度(处理未示出)。相同的信号还传送给主要收听环境，并通过全部由G₁表示的那些音响装置。音频信号也在所述收听环境中，诸如谈话，由信号“d”表示。这两种信号的组合(G₁s+d)由位于听众耳朵表面的助听器麦克风接收。这个相同的声学信号通过由G₂表示的助听器本身的物理组件进行传播。如果助听器具有有效的无源控制，则这个传送函数可能很小，如前面所假设的那样。如果不是这样，那么声学或振动传送通路可能很重要。所述信号进入助听器后面的耳道，最后通过终端用户可能有的任何听力损伤(由G₃表示)传播到听觉神经。同样通过助听器传播的是与(已经调节的)听力损伤解码器信号(由w₂放大)结合的环境噪声的电子形式(由w₁放大)。终端用户调节的这两种信号的组合表示环境噪声和相同终端用户已经修改以提供改善的可懂度的纯解码器信号之间的混合声音。为了了解两种控制装置的作用，认为自适应滤波器(AF)和设备估计G₂(上加尖号)均为零(即没有控制)。到达终端用户耳朵的最后所得到的生输出为：

G₃G₂d+G₃G₂G₁S+G₃Hw₂S+G₃Hw₁d+G₃Hw₁G₁S

理论上，助听器(H)将转化听力损伤G₃。因此，出现G₃和H两者的最后三项将具有接近1的系数。于是所产生的公式为：

w₂S+w₁d+G₃G₂d+G₃G₂G₁S+w₁G₁S

这没有提供所需的声音质量。所需的和解码器信号确实具有级调节功能，最后三项将通过电和物理信号通路来传送主要的失真和潜在因素级。所需的结果是纯解码器信号和所需环境音频信号的组合，其中终端用户能够控制在输出中没有其它信号的两个信号之间的相对混合。变量“S”和“d+G₁S”适合直接测量，值H、w₁及w₂是可由终端用户控制的。变量的所述组合允许所需的调节能力。如果现在自适应滤波器和设备估计值(G₂上加尖号)包含在输出到终端用户神经的公式中，则公式为：

w₁d+w₂S+w₁G₁S-w₁AFS+G₃G₂(d+G₁S)-G₃(G₂上加尖号)(d+G₁S)

现在，如果自适应滤波器收敛于最佳解决方案，它将会和G₁相同，使上述公式中的第三和第四项抵消。如果由于良好的系统识别使估计值G₂接近G₂，则在上述公式中的最后两项也将抵消。这样仅留下终端用户通过w₂修改的解码器信号“S”及终端用户通过w₁修改的所需环境声音“d”，这是所需的结果。这种方法的性能极限取决于自适应滤波器的性能，并且还取决于当终端用户舒适地佩戴助听器时，从助听器外部至助听器内部的系统标识的准确度。系统标识步骤本身可以通过许多方式进行，包括最小均方拟合(least meansquares fit)。

截取盒

图11说明按照本发明的另一个实施例。图11示出用于同时传送VRA可调节信号给多个终端用户的VRA机顶盒终端的特性。

VRA机顶盒终端60包括解码器61，用于对诸如数字TV、DVD等数字源提供的数字比特流进行解码。解码器61对数字比特流进行解码，并输出包含首选音频成份(PA)和剩余音频部分(RA)的数字信号。这些数字信号被馈送给数/模(D/A)转换器62和69，数/模转换器62和69将数字信号转换成模拟信号。来自D/A转换器62的模拟信号被馈送给发射机63，以便发送给接收机，诸如图5所示的接收机270。这样，具有个人收听装置的多个终端用户能够对其个人装置的语音对剩余音频进行调节。来自D/A转换器69的输出被发送给播放装置，诸如模拟电视290。

图12说明本发明的另一个实施例。与图11相似，比特流由VRA机顶盒终端60的解码器61来接收。解码器输出数字信号，这些数字信号被发送到D/A转换器62。D/A转换器62的输出是发送给发射机63的模拟信号，用于这些信号向接收机270的传送。D/A转换器62还将其输出的模拟信号馈送给可变放大器225及226，用于在加法器227进行混合之前的终端用户调节。该输出信号按照上面关于图11所述的类似方式馈送给模拟电视290，只是已经进行了VRA调节。按照本发明的本实施例，不仅使用接收机270的听力损伤终端用户将享有VRA调节能力，而且收听模拟电视的终端用户也具有同样的能力。

虽然可以在后附权利要求书的范围内对本发明进行多种变化和修改，但这些变化和修改在权利要求书的范围之内以及被其涵盖。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 语音对剩余音频交互助听器及辅助设备 [P] . 中国专利： CN1201632C . 2005.05.11
2. 语音对剩余音频交互助听器及辅助设备 [P] . 中国专利： CN1370386A . 2002-09-18
3. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment [P] . 美国专利： USRE42737E . 2011-09-27

机译：语音到剩余音频（VRA）交互式助听器和辅助设备
4. VOICE-TO-REMAINING AUDIO (VRA) INTERACTIVE HEARING AID amp; AUXILIARY EQUIPMENT [P] . 欧洲知识产权局专利： EP1190597B1 . 2009-07-22

机译：语音对剩余音频（VRA）交互式助听器和辅助设备
5. VOICE-TO-REMAINING AUDIO (VRA) INTERACTIVE HEARING AID amp; AUXILIARY EQUIPMENT [P] . 欧洲知识产权局专利： EP1190597A4 . 2007-07-04

机译：语音对剩余音频（VRA）交互式助听器和辅助设备