首页> 中国专利> 使用具有时间演化信息的基底函数来分解音乐信号

使用具有时间演化信息的基底函数来分解音乐信号

摘要

本发明揭示使用基底函数库存和稀疏恢复技术分解多源信号。

著录项

  • 公开/公告号CN103189915A

    专利类型发明专利

  • 公开/公告日2013-07-03

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201180051682.3

  • 申请日2011-10-25

  • 分类号G10L21/0272(20130101);G10L25/48(20130101);

  • 代理机构11287 北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2024-02-19 19:15:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-11-03

    未缴年费专利权终止 IPC(主分类):G10L21/0272 专利号:ZL2011800516823 申请日:20111025 授权公告日:20150610

    专利权的终止

  • 2015-06-10

    授权

    授权

  • 2013-07-31

    实质审查的生效 IPC(主分类):G10L21/0272 申请日:20111025

    实质审查的生效

  • 2013-07-03

    公开

    公开

说明书

依据35U.S.C.§119的优先权申明

本专利申请案要求于2010年10月25日递交的发明名称为“音乐应用程序的 CASA(听觉场景计算分析):使用基底函数库存和稀疏恢复分解音乐信号(CASA (COMPUTATIONAL AUDITORY SCENE ANALYSIS)FOR MUSIC APPLICATIONS: DECOMPOSITION OF MUSIC SIGNALS USING BASIS FUNCTION INVENTORY AND  SPARSE RECOVERY)”的第61/406,376号临时申请案的优先权,所述申请案转让给本 受让人。

技术领域

本发明涉及音频信号处理。

背景技术

便携式装置(例如,智能手机、上网本、便携式计算机、平板计算机)或电子游戏机 上的许多音乐应用程序可供单个用户使用。在这些情况下,装置的用户哼唱旋律、演唱 歌曲或演奏乐器,同时装置记录所得音频信号。所记录的信号接着可由应用程序来分析 其音高/音调升降曲线,并且用户可以选择处理操作,例如,纠正或以其它方式变更升降 曲线,用不同音高或乐器音色来对信号进行上混操作(upmix)等。此类应用程序的实例包 含QUSIC应用程序(QUALCOMM公司,圣地亚哥(San Diego),CA);例如吉他英雄(Guitar  Hero)和摇滚乐队(Rock Band)(Harmonix音乐系统,剑桥,MA)等的电子游戏;以及卡拉 OK、单人乐队(one-man-band)及其它记录应用程序。

许多电子游戏(例如,吉他英雄、摇滚乐队)和音乐会音乐场景可能涉及多个乐器和 歌手同时演出。当前市售游戏和音乐制作系统要求顺序地或在具有紧密定位的麦克风的 情况下演奏这些情形,以能够单独地对这些情形进行分析、后处理及上混操作。这些约 束可在音乐制作的情况下限制控制干扰和/或记录空间效应的能力,且可在电子游戏的情 况下导致受限制的用户体验。

发明内容

一种根据一般配置分解音频信号的方法包含针对所述音频信号的多个时间片段中 的每一者,计算在频率范围内的对应信号表示。这种方法还包含基于所述多个所计算的 信号表示和多个基底函数计算激活系数的向量。在这种方法中,所述向量的每一激活系 数对应于所述多个基底函数中的不同基底函数,且所述多个基底函数中的每一者包括在 所述频率范围内的第一对应信号表示,和不同于所述第一对应信号表示的在所述频率范 围内的第二对应信号表示。还揭示具有有形特征的计算机可读存储媒体(例如,非瞬时媒 体),所述有形特征使读取所述特征的机器执行此种方法。

一种用于根据一般配置分解音频信号的设备包含用于针对所述音频信号的多个时 间片段中的每一者计算在频率范围内的对应信号表示的装置;及用于基于所述多个所计 算的信号表示和多个基底函数计算激活系数的向量的装置。在这种设备中,所述向量的 每一激活系数对应于所述多个基底函数中的不同基底函数,且所述多个基底函数中的每 一者包括在所述频率范围内的第一对应信号表示,和不同于所述第一对应信号表示的在 所述频率范围内的第二对应信号表示。

一种用于根据另一一般配置分解音频信号的设备包含经配置以针对所述音频信号 的多个时间片段中的每一者计算在频率范围内的对应信号表示的变换模块;及经配置以 基于所述多个所计算的信号表示和多个基底函数计算激活系数的向量的系数向量计算 器。在这种设备中,所述向量的每一激活系数对应于所述多个基底函数中的不同基底函 数,且所述多个基底函数中的每一者包括在所述频率范围内的第一对应信号表示,和不 同于所述第一对应信号表示的在所述频率范围内的第二对应信号表示。

附图说明

图1A展示了根据一般配置的方法M100的流程图。

图1B展示了方法M100的实施方案M200的流程图。

图1C展示了根据一般配置的用于分解音频信号的设备MF100的方框图。

图1D展示了根据另一一般配置的用于分解音频信号的设备A100的方框图。

图2A展示了方法M100的实施方案M300的流程图。

图2B展示了设备A100的实施方案A300的方框图。

图2C展示了设备A100的另一实施方案A310的方框图。

图3A展示了方法M200的实施方案M400的流程图。

图3B展示了方法M200的实施方案M500的流程图。

图4A展示了方法M100的实施方案M600的流程图。

图4B展示了设备A100的实施方案A700的方框图。

图5展示了设备A100的实施方案A800的方框图。

图6展示了基底函数库存的第二实例。

图7展示了具有和声鸣响的语音的声谱图。

图8展示了在图6的库存中的图7的声谱图的稀疏表示。

图9图解说明模型Bf=y。

图10展示由方法M100产生的分离结果的曲线图。

图11图解说明图9的模型的修改B'f=y。

图12展示了在钢琴和长笛的音调的未定期间基底函数的时域演化的曲线图。

图13展示了由方法M400产生的分离结果的曲线图。

图14展示了在音调F5处的钢琴和长笛的基底函数的曲线图(左)和在音调F5处的钢 琴和长笛的预加重基底函数的曲线图(右)。

图15图解说明多个声源在活跃的情形。

图16图解说明源紧密地挨在一起且一个源位于另一源之后的情形。

图17图解说明分析个别空间集群的结果。

图18展示了基底函数库存的第一实例。

图19展示了吉他音调的声谱图。

图20展示了在图18的库存中的图19的声谱图的稀疏表示。

图21展示了将开始检测方法应用于两个不同复合信号实例的结果的声谱图。

图22到图25表明将基于开始检测的后处理应用于第一复合信号实例的结果。

图26到图32表明将基于开始检测的后处理应用于第二复合信号实例的结果。

图33到图39是表明将基于开始检测的后处理应用于第一复合信号实例的结果的声 谱图。

图40到图46是表明将基于开始检测的后处理应用于第二复合信号实例的结果的声 谱图。

图47A展示了评估应用于钢琴-长笛测试实例的开始检测方法的性能的结果。

图47B展示了通信装置D20的方框图。

图48展示了手机H100的正视图、后视图和侧视图。

具体实施方式

揭示了使用基底函数库存和稀疏恢复技术来分解音频信号,其中基底函数库存包含 与音调的未定期间音符的频谱改变有关的信息。此类分解可用以支持信号的分析、编码、 再现和/或合成。本文中展示了对包含来自和声(即,非打击)和打击乐器的声音的混合物 的音频信号的定量分析的实例。

除非由其上下文明确限制,否则本文中使用术语“信号”来指示其普通意义中的任 一者,包括在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状 态。除非由其上下文明确限制,否则本文中使用术语“产生”来指示其普通意义中的任 一者,例如计算或以其它方式产生。除非由其上下文明确限制,否则本文中使用术语“计 算”来指示其普通意义中的任一者,例如计算、评估、平滑和/或从多个值中进行选择。 除非由其上下文明确限制,否则使用术语“获得”来指示其普通意义中的任一者,例如 计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非由其上 下文明确限制,否则使用术语“选择”来指示其普通意义中的任一者,例如识别、指示、 应用和/或使用两者或两者以上的集合中的不到全部的至少一者。在术语“包括”用于本 描述及权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如“A基于B”) 用以指示其普通意义中的任一者,包含情况(i)“从……导出”(例如,“B是A的前驱体”), (ii)“至少基于”(例如,“A至少基于B”)及在特定上下文中适当的情况下(iii)“等于” (例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包含 “至少响应于”。

对多麦克风音频传感装置的麦克风的“位置”的参考指示麦克风的声学敏感面的中 心的位置,除非上下文以其它方式指示。根据特定上下文,术语“信道”有时用以指示 信号路径,且在其它时候指示由此路径携带的信号。除非以其它方式指示,否则术语“系 列”用以指示两个或两个以上项目的序列。术语“对数”用以指示以十为底数的对数, 但此运算延伸到其它底数(例如,底数二)属于本发明的范围内。术语“频率分量”用以 指示信号的一组频率或频带当中的一者,例如信号的频域表示的样本(例如,通过快速傅 里叶变换产生)或信号的子带(例如,巴克(Bark)标度或梅尔(mel)标度子带)。

除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭 示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容 还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考方法、设备 和/或系统来使用,如其特定上下文所指示。术语“方法”、“过程”、“程序”和“技术” 被一般地且可互换地使用,除非特定上下文以其它方式指示。术语“设备”和“装置” 也被一般地且可互换地使用,除非特定上下文以其它方式指示。术语“元件”和“模块” 通常用以指示较大配置的一部分。除非其上下文明确地限制,否则术语“系统”在本文 中用以指示其普通意义中的任一者,包含“交互以服务共同目的的元素的群组”。任何 以引用的方式并入有文献的一部分还应理解为并入有所述部分内所提及的术语或变量 的定义(在此类定义出现在文献的其它地方的情况下),及所并入有部分中所提及的任何 图式。除非开始由定冠词引入,否则用以修饰权利要求元素的序数术语(例如,“第一”、 “第二”、“第三”等)自身并不指示权利要求元素相对于彼此的任何优先级或次序,而是 仅区别权利要求元素与具有同一名称(但使用序数术语)的另一权利要求元素。除非其上 下文明确地限制,否则术语“多个”在本文中用以指示大于一的整数量。

如本文中所描述的方法可经配置以将所捕获的信号作为一系列片段来处理。典型片 段长度范围在约五或十毫秒到约四十或五十毫秒之间,且片段可重叠(例如,邻近片段重 叠25%或50%)或不重叠。在一个特定实例中,信号被分成各自具有十毫秒长度的一系 列不重叠片段或“帧”。由此种方法进行处理的片段还可以是由不同操作进行处理的较 大片段的片段(即,“子帧”),或反之亦然。

可需要对音乐场景进行分解,以从两个或两个以上乐器和/或声音信号的混合物中提 取个别音调/音高轮廓。潜在使用实例包含用多个麦克风录制音乐会/电子游戏场景,通 过空间/稀疏恢复处理来分解乐器和声音,提取音高/音调轮廓,部分地或完全地用经纠 正的音高/音调轮廓来对个别源进行上混操作。此类操作可用以使音乐应用程序(例如, Qualcomm的QUSIC应用程序、例如摇滚乐队或吉他英雄等的电子游戏)的能力延伸到 多演奏者/歌唱者情形。

可需要使音乐应用程序能够处理特定的情形,在所述特定的情形中,一个以上歌手 在活跃和/或多个乐器同时演奏(例如,如图15中所示)。可需要此能力以支持实际音乐 录制情形(多音高场景)。尽管用户可能想要单独地编辑且重新合成每一源的能力,但产 生音轨可能需要同时记录所述源。

本发明描述可用以允许实现多个源可同时活跃的音乐应用程序的使用实例的方法。 此种方法可经配置以使用基于基底函数库存的稀疏恢复(例如,稀疏分解)技术来分析音 频混合信号。

可需要通过找到基底函数集合的激活系数的最稀疏向量(例如,使用有效稀疏恢复算 法),来将混合信号频谱分解成源分量。可使用激活系数向量(例如,与基底函数集合一 起)来重构混合信号,或重构混合信号的选定部分(例如,来自一个或一个以上选定乐器)。 还可需要对稀疏系数向量进行后处理(例如,根据量值和时间支持)。

图1A展示了根据一般配置的分解音频信号的方法M100的流程图。方法M100包 含任务T100,所述任务T100基于来自音频信号的帧的信息,计算在频率范围内的对应 信号表示。方法M100还包含任务T200,所述任务T200基于由任务T100计算的信号 表示和多个基底函数,来计算激活系数的向量,其中激活系数中的每一者对应于多个基 底函数中的不同基底函数。

可实施任务T100以将信号表示计算为频域向量。此向量的每一元素可指示可根据 梅尔或巴克标度获得的一组子带中的对应者的能量。然而,通常使用例如快速傅里叶变 换(FFT)或短时傅里叶变换(STFT)等的离散傅里叶变换(DFT)来计算此向量。此向量可具 有(例如)64、128、256、512或1024个分格的长度。在一实例中,音频信号具有8kHz 的采样率,且对于长度为32毫秒的每一帧,0到4kHz频带由256分格的频域向量表示。 在另一实例中,对音频信号的重叠片段使用经修改的离散余弦变换(MDCT)来计算信号 表示。

在另一实例中,实施任务T100以将信号表示计算为倒谱系数(例如,梅尔倒频谱系 数或MFCC)的向量,所述向量表示帧的短期功率谱。在此情况下,可实施任务T100以 计算此向量,计算的方式是将梅尔标度滤波器组应用于帧的DFT频域向量的量值,求得 滤波器输出的对数,及求得对数值的DCT。例如,在标题为“STQ:DSR––前端特征提 取算法;压缩算法(STQ:DSR–Front-end feature extraction algorithm;compression algorithm)”的ETSI文献ES201108(欧洲电信标准协会,2000)中所描述的极光标准 (Aurora standard)中描述了此程序(procedure)。

乐器通常具有界限清楚的音色。乐器的音色可由其频谱包络(例如,频率范围内能量 的分布)描述,使得可使用编码个别乐器的频谱包络的基底函数库存来建模不同乐器的音 色范围。

每一基底函数包括在频率范围内的对应信号表示。可需要此些信号表示中的每一者 具有与由任务T100计算的信号表示相同的形式。举例来说,每一基底函数可为长度为 64、128、256、512或1024分格的频域向量。或者,每一基底函数可为倒谱域向量,例 如MFCC的向量等。在另一实例中,每一基底函数为小波域向量。

基底函数库存A可包含每一乐器n(例如,钢琴、长笛、吉他、鼓等)的基底函数集 合An。举例来说,乐器的音色通常是依赖于音高的,使得每一乐器n的基底函数集合 An通常将包含在某所要音高范围内的每一音高的至少一基底函数,所述音高范围可在乐 器之间变化。对应于调谐到(例如)半音阶的乐器的基底函数集合可包含每八音度十二个 音高中的每一音高的不同基底函数。钢琴的基底函数集合可包含钢琴的每一基调的不同 基底函数,总计八十八个基底函数。在另一实例中,每一乐器的基底函数集合包含在所 要音高范围(例如,五个八音度(例如,56个音高)或六个八音度(例如,67个音高)等)中 的每一音高的不同基底函数。这些基底函数集合An可不相交,或两个或两个以上集合 可共享一个或一个以上基底函数。

图6展示了特定和声乐器的十四个基底函数的集合的曲线图(音高指数对频率)的实 例,其中所述集合的每一基底函数编码在不同对应音高处的乐器的音色。在音乐信号的 上下文中,人类话音可被视为乐器,使得库存可包含一个或一个以上人类话音模型中的 每一者的基底函数集合。图7展示了具有和声鸣响的语音的声谱图(以Hz为单位的频率 对以样本为单位的时间),且图8展示了此信号在图6中所示的和声基底函数集合中的表 示。

基底函数的库存可基于从特别记录的个别乐器记录中获知的通用乐器音高数据库, 和/或基于分离的混合物流(例如,使用例如独立分量分析(ICA)、期望最大化(EM)等的分 离方案)。

基于由任务T100计算的信号表示且基于来自库存A的多个基底函数B,任务T200 计算激活系数的向量。此向量的每一系数对应于多个基底函数B中的不同基底函数。举 例来说,任务T200可经配置以计算向量,使得所述向量根据多个基底函数B指示信号 表示的最有可能模型。图9图解说明此模型Bf=y,其中多个基底函数B为矩阵,使得 B的列为个别基底函数,f为基底函数激活系数的列向量,且y为所记录的混合信号的 帧的列向量(例如,呈声谱图频率向量形式的五、十或二十毫秒的帧)。

任务T200可经配置以通过求解线性编程问题来恢复音频信号的每一帧的激活系数 向量。可用以求解此问题的方法的实例包含非负矩阵因式分解(NNMF)。可配置基于 NNMF的单信道参考方法以使用期望最大化(EM)更新规则(例如,如下文所描述),来同 时计算基底函数和激活系数。

可需要通过找到已知或部分已知基底函数空间中的最稀疏激活系数向量,将音频混 合信号分解成个别乐器(其可包含一个或一个以上人类话音)。举例来说,可配置任务 T200以使用已知乐器基底函数的集合通过找到基底函数库存中的最稀疏激活系数向量 (例如,使用有效稀疏恢复算法),将输入信号表示分解成源分量(例如,一个或一个以上 个别乐器)。

已知地是,对线性方程的欠定系统(即,具有多于方程的未知数的系统)的最小L1 范数解常常也是对所述系统的最稀疏解。可如下执行通过L1范数的最小化而进行的稀 疏恢复。

假定目标向量f0是具有K<N个非零项(即,“K稀疏”)的长度为N的稀疏向量, 且对于大小约为K的集合,投影矩阵(即,基底函数矩阵)A是非相干的(类似随机)。观 测到信号y=Afo。接着,求解服从于Af=y的(其中定义为)将 精确地恢复f0。此外,可通过求解易处理的程序,从个非相干量度中恢复 f0。量度的数目M大约等于有效分量的数目。

一种方法是使用来自压缩传感的稀疏恢复算法。在压缩传感(也称作“经压缩传感”) 信号恢复Φx=y的一实例中,y是长度为M的观测到的信号向量,x是具有K<N个非 零项(即,“K稀疏模型”)的长度为N的稀疏向量(其为y的精简表示),且Φ是大小为M ×N的随机投影矩阵。随机投影Φ不是满秩的,但其对于稀疏/可压缩信号模型以高几 率可逆(即,随机投影Φ求解了病态求逆问题)。

图10展示了由方法M100的稀疏恢复实施方案产生的分离结果的曲线图(音高指数 对帧指数)。在此情况下,输入混合信号包含演奏音调序列C5-F5-G5-G#5-G5-F5-C5-D#5 的钢琴和演奏音调序列C6-A#5-G#5-G5的长笛。钢琴的经分离的结果以虚线展示(音高 序列0-5-7-8-7-5-0-3),且长笛的经分离的结果以实线展示(音高序列12-10-8-7)。

可认为激活系数向量f包含每一乐器n的子向量fn,所述子向量fn包含对应基底函 数集合An的激活系数。可独立地处理此些乐器特定激活子向量(例如,在后处理操作中)。 举例来说,可需要强加一个或一个以上稀疏性约束(例如,向量元素的至少一半为零,乐 器特定子向量中的非零元素的数目不超过最大值等)。激活系数向量的处理可包含编码每 一帧的每一非零激活系数的指数编号,编码每一非零激活系数的指数和值,或编码整个 稀疏向量。可使用此信息(例如,在另一时间和/或位置)来使用所指示的活跃基底函数再 现混合信号,或仅再现混合信号的特定部分(例如,仅再现由特定乐器演奏的音调)。

由乐器产生的音频信号可建模为被称作音调的一系列事件。演奏音调的和声乐器的 声音可在时间上分成不同区域:举例来说,开始阶段(也被称作起奏)、固定阶段(也被称 作维持)和偏移阶段(也被称作释放)。对音调(ADSR)的时间包络的另一描述包含在起奏 与维持之间的额外衰减阶段。在此上下文中,音调的持续时间可定义为从起奏阶段的开 始到释放阶段的结束(或到终止音调的另一事件,例如同一根弦上的另一音调的开始等) 的时间间隔。假定音调具有单一音高,但还可以实施库存以建模具有单一起奏和多个音 高的音调(例如,如由例如颤音或滑音等的音高弯曲效应所产生)。一些乐器(例如,钢琴、 吉他或竖琴)可以在被称作和弦的事件中一次产生一个以上音调。

由不同乐器产生的音调可在维持阶段期间具有类似音色,使得可能难以在此时段识 别哪一乐器正在演奏。然而,可预期音调的音色在阶段之间变化。举例来说,识别活跃 乐器可能在起奏或释放阶段期间比在维持阶段期间更为容易。

图12展示了钢琴(虚线)和长笛(实线)的八音度C5到C6中的十二个不同音高的基底 函数的时域演化的曲线图(音高指数对时域帧指数)。可看出(例如)钢琴基底函数的起奏 与维持阶段之间的关系显著不同于长笛基底函数的起奏与维持阶段之间的关系。

为了增加激活系数向量将指示适当基底函数的可能性,可能需要最大化基底函数之 间的差异。举例来说,可能需要使基底函数包含与音调的随时间推移的频谱改变有关的 信息。

可能需要基于随时间推移的音色改变来选择基底函数。此方法可包含将与音调的音 色的此时域演化有关的信息编码成基底函数库存。举例来说,特定乐器n的基底函数的 集合An可包含每一音高处的两个或两个以上对应信号表示,使得此些信号表示中的每 一者对应于音调的演化中的不同时间(例如,起奏阶段一个信号表示,维持阶段一个信号 表示,且释放阶段一个信号表示)。可从演奏音调的乐器的记录的对应帧中提取此些基底 函数。

图1C展示了根据一般配置的用于分解音频信号的设备MF100的方框图。设备 MF100包含用于基于来自音频信号的帧的信息计算在频率范围内的对应信号表示的装 置F100(例如,如本文中参考任务T100所描述)。设备MF100还包含装置F200,所述装 置F200用于基于由装置F100计算的信号表示和多个基底函数,来计算激活系数的向量, 其中激活系数中的每一者对应于多个基底函数中的不同基底函数(例如,如本文中参考任 务T200所描述)。

图1D展示了根据另一一般配置的用于分解音频信号的设备A100的方框图,所述 设备A100包含变换模块100和系数向量计算器200。变换模块100经配置以基于来自 音频信号的帧的信息计算在频率范围内的对应信号表示(例如,如本文中参考任务T100 所描述)。系数向量计算器200经配置以基于由变换模块100计算的信号表示和多个基底 函数,来计算激活系数的向量,其中激活系数中的每一者对应于多个基底函数中的不同 基底函数(例如,如本文中参考任务T200所描述)。

图1B展示了方法M100的实施方案M200的流程图,其中基底函数库存包含针对 每一乐器的每一音高的多个信号表示。此些多个信号表示中的每一者描述在频率范围内 的多个不同能量分布(例如,多个不同音色)。库存还可经配置以包含针对不同时间相关 模态的不同多个信号表示。在一个这样的实例中,库存包含在每一音高处用弓拉弦的多 个信号表示,和在每一音高处拨弦(例如,拨奏)的不同的多个信号表示。

方法M200包含任务T100(在此实例中,任务T100A和T100B)的多个例子,其中每 一例子基于来自音频信号的对应不同帧的信息,计算在频率范围内的对应信号表示。可 串接各种信号表示,且同样,每一基底函数可为多个信号表示的串接。在此实例中,任 务T200将混合帧的串接与每一音高处的信号表示的串接相匹配。图11展示了图S5的 模型Bf=y的修改B'f=y的实例,其中混合信号y的帧p1、p2被串接以用于匹配。

可构造库存以使得从训练信号的连续帧中获得每一音高处之多个信号表示。在其它 实施方案中,可能需要使每一音高处的多个信号表示横跨较大的时间窗(例如,包含时间 上分离而非连续的帧)。举例来说,可能需要使每一音高处的多个信号表示包含来自起奏 阶段、维持阶段与释放阶段当中的至少两者的信号表示。通过包含关于音调的时域演化 的更多信息,可增加不同音调的基底函数集合之间的差异。

在左边,图14展示了音调F5处的钢琴的基底函数(虚线)和音调F5处的长笛的基底 函数(实线)的曲线图(振幅对频率)。可看出指示此特定音高处的乐器的音色的此些基底 函数极为类似。因此,实践中可预期所述基底函数之间的某一程度的不匹配。为了得到 更稳健的分离结果,可能需要最大化库存的基底函数之间的差异。

长笛的实际音色含有比钢琴的实际音色多的高频能量,但图14的左曲线图中所示 的基底函数未编码此信息。在右边,图14展示了音调F5处的钢琴的基底函数(虚线)和 音调F5处的长笛的基底函数(实线)的另一曲线图(振幅对频率)。在此情况下,除了已预 加重源信号的高频区域之外,从与左曲线图中的基底函数相同的源信号导出基底函数。 因为钢琴源信号含有显著少于长笛源信号的高频能量,所以右曲线图中所示的基底函数 之间的差异明显大于左曲线图中所示的基底函数之间的差异。

图2A展示了方法M100的实施方案M300的流程图,所述实施方案M300包含加重 片段的高频的任务T300。在此实例中,任务T100经布置以计算在预加重之后的片段的 信号表示。图3A展示了包含任务T300的多个例子T300A、T300B的方法M200的实施 方案M400的流程图。在一实例中,预加重任务T300增加了高于200Hz的能量对总能 量的比率。

图2B展示了设备A100的实施方案A300的方框图,所述实施方案A300包含经布 置以在变换模块100的上游对音频信号执行高频加重的预加重滤波器300(例如,高通滤 波器,例如一阶高通滤波器等)。图2C展示了设备A100的另一实施方案A310的方框 图,在所述实施方案A310中,预加重滤波器300经布置以对变换系数执行高频预加重。 在此些情况下,还可能需要对多个基底函数B执行高频预加重(例如,高通滤波)。图13 展示了由方法M300对于与图10的分离结果相同的输入混合信号产生的分离结果的曲线 图(音高指数对帧指数)。

音符可包含赋色效应,例如,颤音和/或颤声等。颤音是具有通常在四或五赫兹到七、 八、十或十二赫兹的范围中的调制率的频率调制。归因于颤音的音高改变对于歌唱者来 说可在0.6到2个半音程之间变化,且对于管乐器和弦乐器来说通常小于+/-0.5半音程 (例如,对于弦乐器来说,在0.2与0.35半音程之间)。颤声是通常具有类似调制率的振 幅调制。

可能难以在基底函数库存中建模此类效应。可能需要检测此类效应的存在。举例来 说,颤音的存在可由在4Hz到8Hz的范围中的频域峰值来指示。还可能需要记录所检 测到的效应的水平的量度(例如,作为此峰值的能量),这是因为可使用此特性来在再现 期间还原所述效应。对于颤声检测和量化,可在时域中执行类似处理。一旦效应已被检 测到且可能经量化,就可能需要通过针对颤音使频率在时间上平滑或针对颤声使振幅在 时间上平滑,来移除调制。

图4B展示了设备A100的实施方案A700的方框图,所述实施方案A700包含调制 水平计算器MLC。计算器MLC经配置以计算且可能记录如上文所描述的音频信号的片 段中的所检测到的调制的量度(例如,在时域或频域中所检测到的调制峰值的能量)。

本发明描述可用以允许实现多个源可同时活跃的音乐应用程序的使用实例的方法。 在此情况下,可能需要在计算激活系数向量之前使源分离(如果有可能的话)。为了实现 此目的,提出了多信道和单信道技术的组合。

图3B展示了方法M100的实施方案M500的流程图,所述实施方案M500包含将信 号分离成空间集群的任务T500。任务T500可经配置以将源隔离成尽可能多的空间集群。 在一实例中,任务T500使用多麦克风处理来将所记录的声学情形分离成尽可能多的空 间集群。此处理可基于麦克风信号之间的增益差和/或相位差,其中可跨越整个频带来评 估此类差或在多个不同频率子带或频率分格中的每一者处评估此类差。

单独的空间分离方法可能不足以实现所要的分离水平。举例来说,一些源可能太靠 近麦克风阵列或以其它方式次最佳地相对于麦克风阵列布置(例如,多个小提琴手和/或 和声乐器可位于一个角落;打击乐器乐手通常位于后面)。在典型乐队情形下,源可能紧 密地挨在一起或甚至在其它源之后(例如,如图16中所示),使得单独使用空间信息来处 理由处于相对于乐队的同一大体方向的麦克风阵列捕获的信号可能无法将所有的源彼 此相区分。任务T100和T200使用如本文中所描述的单信道基于基底函数库存的稀疏恢 复(例如,稀疏分解)技术来分析个别空间集群以分离个别乐器(如图17中所示)。

为了便于计算处理,可能需要多个基底函数B显著地小于基底函数库存A。可能需 要对于给定分离任务从大库存开始缩减库存。在一实例中,此减小可通过以下方式来执 行:确定片段是包含来自打击乐器的声音还是包含来自和声乐器的声音,及从库存中选 择适当的多个基底函数B以用于匹配。与和声声音的水平线相反,打击乐器倾向于具有 类似脉冲的声谱图(例如,垂直线)。

在声谱图中,和声乐器的特征通常可为某一基本音高和相关联的音色,及此和声模 式的对应较高频率延伸。因此,在另一实例中,可能需要通过仅分析此些频谱的较低八 音度来减小计算任务,这是因为可基于低频副本来预测其较高频率副本。在匹配之后, 可将活跃基底函数外推到较高频率,且从混合信号减去,以获得可以编码和/或进一步分 解的残余信号。

还可通过用户在图形用户接口中的选择和/或通过基于第一轮稀疏恢复或最大可能 性拟合预先分类最有可能的乐器和/或音高来执行此减小。举例来说,可执行第一轮稀疏 恢复操作以获得经恢复的稀疏系数的第一集合,且基于此第一集合,可对于另一轮稀疏 恢复操作缩减可适用的音调基底函数。

一个减小方法包含通过测量某些音程中的稀疏性得分,来检测某些乐器音调的存 在。此方法可包含基于最初音高估计来改进一个或一个以上基底函数的频谱形状,及使 用改进的基底函数作为方法M100中的多个B。

减小方法可经配置以通过测量投影到对应基底函数中的音乐信号的稀疏性得分来 识别音高。在给定最佳音高得分的情况下,可使基底函数的振幅形状最优化,以识别乐 器音调。接着可使用活跃基底函数的减小的集合作为方法M100中的多个B。

图18展示了可用于第一轮方法中的稀疏和声信号表示的基底函数库存的实例。图 19展示了吉他音调的声谱图(以Hz为单位的频率对以样本为单位的时间),且图20展示 了图18中所示的基底函数集合中此声谱图的稀疏表示(基底函数数目以帧为单位的时 间)。

图4A展示了包含此第一轮库存减小的方法M100的实施方案M600的流程图。方 法M600包含任务T600,所述任务T600计算在非线性频域(例如,其中邻近元素之间的 频率距离随频率而增加,如按梅尔或巴克标度)中的片段的信号表示。在一实例中,任务 T600经配置以使用常数Q变换来计算非线性信号表示。方法M600还包含任务T700, 所述任务T700基于非线性信号表示和多个类似非线性基底函数,计算激活系数的第二 向量。基于来自第二激活系数向量的信息(例如,来自激活的基底函数的恒等式,其可指 示活跃音高范围),任务T800选择用于任务T200中的多个基底函数B。明确地注意到 方法M200、M300和M400还可经实施以包含此些任务T600、T700和T800。

图5展示了设备A100的实施方案A800的方框图,所述实施方案A800包含经配置 以从基底函数的较大集合中(例如,从库存中)选择多个基底函数的库存减小模块IRM。 模块IRM包含第二变换模块110,第二变换模块110经配置以计算非线性频域中的片段 的信号表示(例如,根据常数Q变换)。模块IRM还包含第二系数向量计算器,第二系数 向量计算器经配置以基于非线性频域中的所计算的信号表示和如本文中所描述的第二 多个基底函数,计算激活系数的第二向量。模块IRM还包含基底函数选择器,基底函数 选择器经配置以基于如本文中所描述的来自第二激活系数向量的信息,从基底函数的库 存当中选择多个基底函数。

可能需要方法M100包含开始检测(例如,检测音符的开始)和后处理,以改进和声 乐器稀疏系数。可认为激活系数向量f包含每一乐器n的对应子向量fn,所述子向量fn包含乐器特定基底函数集合Bn的激活系数,且可独立地处理此些子向量。图21到图46 图解说明了将此方案用于复合信号实例1(在同一八音度下演奏的钢琴和长笛)和复合信 号实例2(伴随打击乐器在同一八音度下演奏的钢琴和长笛)的音乐分解的方面。

一般开始检测方法可基于频谱量值(例如,能量差)。举例来说,此种方法可包含基 于频谱能量和/或峰值斜率找到峰值。图21展示了将此种方法分别应用于复合信号实例 1(在同一八音度下演奏的钢琴和长笛)和复合信号实例2(伴随打击乐器在同一八音度下 演奏的钢琴和长笛)的结果的声谱图(以Hz为单位的频率对以帧为单位的时间),其中垂 直线指示所检测到的开始。

可能还需要检测每一个别乐器的开始。举例来说,在和声乐器当中的检测开始的方 法可基于时间的对应系数差。在一个这样的实例中,如果当前帧的乐器n的系数向量(子 向量fn)的最高量值元素的指数不等于先前帧的乐器n的稀疏向量的最高量值元素的指 数,那么触发和声乐器n的开始检测。可对于每一乐器,重复进行此操作。

可能需要执行和声乐器的稀疏系数向量的后处理。举例来说,对于和声乐器,可能 需要保持对应子向量的具有高量值和/或满足指定的标准(例如,足够尖)的起奏轮廓的系 数,和/或移除(例如,归零)残余系数。

对于每一和声乐器,可能需要在每一开始帧处(例如,当指示了开始检测时)对系数 向量进行后处理,使得保持具有支配量值和可接受起奏时间的系数,且使残余系数归零。 可根据例如时间平均量值等的标准来评估起奏时间。在一个这样的实例中,如果系数的 当前平均值小于系数的过去平均值(例如,如果在当前窗(例如,从帧(t-5)到帧(t+4))中的 系数的值的总和小于在过去窗(例如,从帧(t-15)到帧(t-6))中的系数的值的总和),那么使 当前帧t的乐器的每一系数归零(即,起奏时间不可被接受)。在每一开始帧处的和声乐 器的系数向量的此后处理还可包含保持具有最大量值的系数,且使其它系数归零。对于 每一和声乐器,在每一非开始帧处,可能需要对系数向量进行后处理,以便只保持在先 前帧中值非零的系数,且使向量的其它系数归零。

图22到图25表明将基于开始检测的后处理应用于复合信号实例1(演奏同一八音度 的钢琴和长笛)的结果。在此些图中,垂直轴是稀疏系数指数,水平轴是以帧为单位的时 间,且垂直线指示特定帧,在所述特定帧处指示了开始检测。图22和图23分别展示了 在后处理之前和之后的钢琴稀疏系数。图24和图25分别展示了在后处理之前和之后的 长笛稀疏系数。

图26到图30表明将基于开始检测的后处理应用于复合信号实例2(伴随打击乐器在 同一八音度下演奏的钢琴和长笛)的结果。在此些图中,垂直轴是稀疏系数指数,水平轴 是以帧为单位的时间,且垂直线指示特定帧,在所述特定帧处指示了开始检测。图26 和图27分别展示了在后处理之前和之后的钢琴稀疏系数。图28和图29分别展示了在 后处理之前和之后的长笛稀疏系数。图30展示了鼓稀疏系数。

图31到图39是表明将如本文中所描述的开始检测方法应用于复合信号实例1(在同 一八音度下演奏的钢琴和长笛)的结果的声谱图。图31展示了原始复合信号的声谱图。 图32展示了在无后处理的情况下重构的钢琴分量的声谱图。图33展示了在具有后处理 的情况下重构的钢琴分量的声谱图。图34展示了通过使用EM算法获得的库存所建模 的钢琴。图35展示了原始钢琴。图36展示了在无后处理的情况下重构的长笛分量的声 谱图。图37展示了在具有后处理的情况下重构的长笛分量的声谱图。图38展示了通过 使用EM算法获得的库存所建模的长笛。图39展示了原始长笛分量的声谱图。

图40到图46是表明将如本文中所描述的开始检测方法应用于复合信号实例2(在同 一八音度下演奏的钢琴和长笛以及鼓)的结果的声谱图。图40展示了原始复合信号的声 谱图。图41展示了在无后处理的情况下重构的钢琴分量的声谱图。图42展示了在具有 后处理的情况下重构的钢琴分量的声谱图。图43展示了在无后处理的情况下重构的长 笛分量的声谱图。图44展示了在具有后处理的情况下重构的长笛分量的声谱图。图45 和图46分别展示了经重构的鼓分量和原始鼓分量的声谱图。

图47A展示了使用由文森特(Vincent)等人描述的评估尺度(盲音频源分离中的性能 测量,IEEE Trans.ASSP,第14卷,第4期,2006年7月,第1462到1469页)来评估 应用于钢琴-长笛测试情况的如本文中所描述的开始检测方法的性能的结果。信号干扰比 (SIR)是对不想要的源的抑制的量度,且定义为101og10(||starget||2/||einterf||2)。信号伪影比 (SAR)是已由分离过程引入的伪影(例如,音乐噪声等)的量度,且定义为10 log10(||starget+einterf||2/||eartif||2)。信号失真比(SDR)是性能的总体量度,这是因为SDR考虑 以上标准两者,且定义为10log10(||starget||2/||eartif+einterf||2)此定量评估展示了具有可接受 的伪影产生水平的稳健源分离。

EM算法可用以产生最初基底函数矩阵和/或更新基底函数矩阵(例如,基于激活系数 向量)。现描述EM方法的更新规则的实例。在给定声谱图Vft的情况下,希望对于每一 时间帧估计频谱基底向量P(f|z)和加权向量Pt(z)。此些分布提供了矩阵分解。

如下应用EM算法:首先,随机地初始化加权向量Pt(z)和频谱基底向量P(f|z)。 接着,在以下步骤之间重复直到收敛为止:1)期望(E)步骤-在给定频谱基底向量P(f|z)和 加权向量Pt(z)的情况下,估计后验分布Pt(z|f)。此估计可表达如下:

Pt(z|f)=Pt(f|z)P(z)ΣzPt(f|z)P(z).

2)最大化(M)步骤-在给定后验分布Pt(z|f)的情况下,估计加权向量Pt(z)和频谱基底 向量P(f|z)。加权向量的估计可表达如下:

Pt(z)=ΣfVftPt(z|f)ΣzΣfVftPt(z|f).

频谱基底向量的估计可表达如下:

P(f|z)=ΣfVftPt(z|f)ΣtΣfVftPt(z|f)

可能需要在便携式音频传感装置内执行如本文中所描述的方法,所述便携式音频传 感装置具有经配置以接收声学信号的两个或两个以上麦克风的阵列。可经实施以包含此 阵列且可用于音频记录和/或话音通信应用的便携式音频传感装置的实例包含电话手机 (例如,蜂窝式电话手机);有线或无线头戴式耳机(例如,蓝牙头戴式耳机);手持式音 频和/或视频记录器;经配置以记录音频和/或视频内容的个人媒体播放器;个人数字助 理(PDA)或其它手持式计算装置;及笔记本计算机、便携式计算机、上网本计算机、平 板计算机或其它便携式计算装置。便携式计算装置的类别当前包含具有以下名称的装 置:例如,便携式计算机、笔记本计算机、上网本计算机、超便携式计算机、平板计算 机、移动因特网装置、智能本和智能手机等。此装置可具有包含显示屏幕的顶部面板和 可包含键盘的底部面板,其中两个面板可以蛤壳方式或其它铰接关系连接。此装置可类 似地实施为在顶部表面上包含触摸屏显示器的平板计算机。可经构造以执行此方法且可 用于音频记录和/或话音通信应用的音频传感装置的其它实例包含电视显示器、机顶盒及 音频和/或视频会议装置。

图47B展示了通信装置D20的方框图。装置D20包含芯片或芯片组CS10(例如,移 动台调制解调器(MSM)芯片组),芯片或芯片组CS10包含如本文中所描述的设备 A100(或MF100)的实施方案。芯片/芯片组CS10可包含一个或一个以上处理器,所述处 理器可经配置以执行设备A100或MF100的操作的全部或部分(例如,作为指令)。

芯片/芯片组CS10包含接收器,所述接收器经配置以接收射频(RF)通信信号(例如, 通过天线C40),且解码并再现(例如,通过扬声器SP10)编码于RF信号内的音频信号。 芯片/芯片组CS10还包含发射器,发射器经配置以编码基于由设备A100产生的输出信 号的音频信号,且传输描述经编码音频信号的RF通信信号(例如,通过天线C40)。举例 来说,芯片/芯片组CS10的一个或一个以上处理器可经配置以对多信道音频输入信号的 一个或一个以上信道执行如上文所描述的分解操作,使得经编码音频信号基于分解的信 号。在此实例中,装置D20还包含小键盘C10和显示器C20以支持用户控制和交互。

图48展示了可实施为装置D20的例项的手机H100(例如,智能手机)的正视图、后 视图和侧视图。手机H100包含布置于正面的三个麦克风MF10、MF20和MF30;及布 置于后面的两个麦克风MR10和MR20及照相机镜头L10。扬声器LS10布置于麦克风 MF10附近在正面的顶部中心中,且还提供两个其它扬声器LS20L、LS20R(例如,用于 免提电话应用)。此手机的麦克风之间的最大距离通常约为10或12厘米。明确地揭示, 本文中所揭示的系统、方法和设备的适用性不限于本文中所注明的特定实例。

本文中所揭示的方法和设备可大体上应用于任何收发和/或音频传感应用中,所述应 用包含此些应用的移动或其它便携式例项和/或对来自远场源的信号分量的传感。举例来 说,本文中所揭示的配置的范围包含驻留于经配置以使用码分多址(CDMA)空中接口的 无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有本文中所描 述的特征的方法及设备可驻留于使用所属领域的技术人员已知的广泛范围的技术的各 种通信系统中的任一者中,例如,经由有线和/或无线(例如,CDMA、TDMA、FDMA 和/或TD-SCDMA)传输信道使用IP语音(VoIP)的系统等。

明确地考虑且在此揭示,本文中所揭示的通信装置可适用于为包交换(例如,经布置 以根据例如VoIP等的协议携带音频传输的有线和/或无线网络)和/或电路交换的网络中。 还明确地考虑且在此揭示,本文中所揭示的通信装置可适用于窄频带译码系统(例如,编 码约为4或5千赫兹的音频频率范围的系统)和/或适用于宽频带译码系统(例如,编码大 于5千赫兹的音频频率的系统),宽频带译码系统包含全频带宽频带译码系统和分离频带 宽频带译码系统。

提供对所描述配置的以上呈现以使所属领域的技术人员能够制作或使用本文所揭 示的方法及其它结构。本文中所示及描述的流程图、方框图及其它结构只是实例,且此 些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所 呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所示的配置,而是 应符合与在本文中(包括在所递交的附加权利要求书中)以任何方式揭示的原理及新颖特 征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。

所属领域的技术人员将了解,可使用多种不同技术和技艺中的任一者来表示信息和 信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者 其任何组合来表示可在整个以上描述中参考的数据、指令、命令、信息、信号、比特及 符号。

尤其是对于例如压缩的音频或视听信息(例如,根据压缩格式编码的文件或流,例如, 本文中所识别的实例中的一者等)的播放等的计算密集型应用,或用于宽频带通信(例如, 在高于8千赫兹(例如,12、16、44.1、48或192kHz等)的采样率下的话音通信)的应用, 用于实施如本文中所揭示的配置的重要设计要求可包含最小化处理延迟和/或计算复杂 性(通常以每秒百万指令或MIPS为单位测量)。

多麦克风处理系统的目标可包含实现10到12dB的总噪声减小,在所要扬声器的 移动期间保留话音水平和色调,获得噪声已被移到背景中而非激进的噪声移除的感知, 对语音进行去混响,和/或启用用于实现更激进的噪声减小的后处理选项。

如本文中所揭示的设备(例如,设备A100、A300、A310、A700和MF100)可以被认 定适用于所希望的应用的硬件与软件和/或与固件的任何组合来实施。举例来说,此设备 的元件可被制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子 和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵 列,且这些元件中的任一者可实施为一个或一个以上此类阵列。设备的元件中的任意两 者或两者以上或甚至全部可实施于相同的一个或一个以上阵列内。此一个或一个以上阵 列可实施于一个或一个以上芯片内(例如,包含两个或两个以上芯片的芯片组内)。

本文中所揭示的设备的各种实施方案的一个或一个以上元件还可全部地或部分地 实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式 处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品) 及ASIC(专用集成电路)等)上执行的一个或一个以上指令集。如本文中所揭示的设备的 实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包含经编程以 执行一个或一个以上指令集或序列的一个或一个以上阵列的机器,也称作“处理器”), 且此些元件中的任何两者或两者以上或甚至全部可实施于相同的此一个或一个以上计 算机内。

如本文中所揭示的处理器或用于处理的其它装置可制造为驻留于(例如)同一芯片上 或芯片组中的两个或两个以上芯片中的一个或一个以上电子和/或光学装置。此装置的一 个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者 可实施为一个或一个以上此类阵列。所述一个或一个以上阵列可实施于一个或一个以上 芯片内(例如,包括两个或两个以上芯片的芯片组内)。此些阵列的实例包含固定或可编 程逻辑元件阵列,例如,微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和 ASIC等。如本文中所揭示的处理器或用于处理的其它装置还可体现为一个或一个以上 计算机(例如,包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的 机器)或其它处理器。有可能将如本文中所描述的处理器用以执行任务或执行其它指令 集,所述任务或指令集不直接与如本文中所描述的音乐分解程序有关,例如,与嵌入有 处理器的装置或系统(例如,音频传感装置)的另一操作有关的任务等。还有可能由音频 传感装置的处理器执行如本文中所揭示的方法的部分,且在一个或一个以上其它处理器 的控制下执行方法的另一部分。

所述领域的技术人员将了解,结合本文所揭示的配置描述的各种说明性模块、逻辑 块、电路和测试及其它操作可实施为电子硬件、计算机软件,或两者的组合。此些模块、 逻辑块、电路和操作可通过通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA 或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文 中所揭示的配置的任何组合来实施或执行。举例来说,此配置可至少部分实施为硬连线 电路、制造为专用集成电路的电路配置,或载入到非易失性存储器中的固件程序或作为 机器可读代码从数据存储媒体载入或载入到数据存储媒体中的软件程序,此代码是可由 例如通用处理器或其它数字信号处理单元等的逻辑元件阵列执行的指令。通用处理器可 以是微处理器,但在替代例中,处理器可以是任何常规处理器、控制器、微控制器或状 态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理 器、结合DSP核心的一个或一个以上微处理器,或任何其它此配置。软件模块可驻留于 RAM(随机存取存储器)、ROM(只读存储器)、例如闪存RAM等的非易失性 RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄 存器、硬盘、可移动磁盘、CD-ROM或所述技术中已知的任何其它形式的存储媒体。说 明性存储媒体耦合到处理器,使得处理器可以从存储媒体读取信息以及将信息写入存储 媒体。在替代例中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC 中。ASIC可驻留于用户终端中。在替代例中,处理器及存储媒体可作为离散组件驻留 于用户终端中。

注意到,本文中所揭示的各种方法(例如,方法M100和通过描述本文中所描述的各 种设备的操作而揭示的其它方法)可由例如处理器等的逻辑元件阵列执行,且如本文中所 描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用,术 语“模块”或“子模块”可指代包含呈软件、硬件或固件形式的计算机指令(例如,逻辑 表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应了解,多个模块 或系统可组合为一个模块或系统,且一个模块或系统可被分离成多个模块或系统以执行 相同功能。当以软件或其它计算机可执行指令实施时,过程的元素本质上为用以执行例 如与例程、程序、对象、组件、数据结构等有关的任务的代码段。术语“软件”应理解 为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑 元件阵列执行的任何一个或一个以上指令集或序列,以及此类实例的任何组合。程序或 代码段可存储在处理器可读存储媒体中,或由以传输媒体或通信链路上的载波形式体现 的计算机数据信号来传输。

本文中所揭示的方法、方案和技术的实施方案还可有形地体现(例如,在如本文中所 列出的一个或一个以上计算机可读媒体中)为可由包含逻辑元件阵列(例如,处理器、微 处理器、微控制器或其它有限状态机)的机器读取和/或执行的一个或一个以上指令集。 术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、 可拆卸和不可拆卸媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、 ROM、闪存、可擦除ROM(EROM)、软盘或其它磁性存储器、CD-ROM/DVD或其它光 学存储器、硬盘、光纤媒体、射频(RF)链路,或可用以存储所要信息且可被存取的任何 其它媒体。计算机数据信号可包含可经由传输媒体(例如,电子网络信道、光纤、空气、 电磁、RF链路等)传播的任何信号。可经由例如因特网或企业内部网络等的计算机网络 来下载代码段。在任何情况下,本发明的范围不应被解释为受此些实施例限制。

本文中所描述的方法的任务中的每一者可直接以硬件来体现,以由处理器执行的软 件模块来体现,或以两者的组合来体现。在如本文中所揭示的方法的实施方案的典型应 用中,逻辑元件(例如,逻辑门)阵列经配置以执行方法的各种任务中的一者、一者以上 或甚至全部。所述任务中的一者或一者以上(可能所有)还可实施为体现于计算机程序产 品(例如,一个或一个以上数据存储媒体,例如,磁盘、闪存或其它非易失性存储卡、半 导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述计算机程序产品可由 包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如, 计算机)读取和/或执行。如本文中所揭示的方法的实施方案的任务还可由一个以上此阵 列或机器执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置内执行, 所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交 换及/或包交换网络通信(例如,使用一个或一个以上协议,例如,VoIP等)。举例来说, 此装置可包含经配置以接收和/或传输经编码帧的RF电路。

明确地揭示,本文中所揭示的各种方法可由例如手机、头戴式耳机或便携式数字助 理(PDA)等的便携式通信装置执行,且本文中所描述的各种设备可包括于此类装置内。 典型的实时(例如,在线)应用是使用此类移动装置进行的电话会话。

在一个或一个以上示范性实施例中,本文中所描述的操作可以硬件、软件、固件或 其任何组合来实施。如果以软件来实施,那么此些操作可作为一个或一个以上指令或代 码存储在计算机可读媒体上或通过计算机可读媒体来传输。术语“计算机可读媒体”包 含计算机可读存储媒体和通信(例如,传输)媒体。通过实例,但不限于,计算机可读存 储媒体可包括存储元件阵列,例如,半导体存储器(其可包含,但不限于,动态或静态 RAM、ROM、EEPROM和/或闪存RAM)或铁电、磁阻、双向开关半导体、聚合或相变 存储器;CD-ROM或其它光盘存储器;和/或磁盘存储器或其它磁性存储装置。此存储 媒体可存储可由计算机存取的呈指令或数据结构形式的信息。通信媒体可包括可用以携 带呈指令或数据结构形式的所要程序代码且可由计算机存取的任何媒体,包含促进计算 机程序从一处传送到另一处的任何媒体。又,可恰当地将任何连接称作计算机可读媒体。 举例来说,如果使用同轴电缆、光缆、双绞线、数字用户线(DSL)或例如红外线、无线 电和/或微波等的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光缆、 双绞线、DSL或例如红外线、无线电和/或微波等的无线技术包含于媒体的定义中。如 本文中所使用的磁盘和光盘包含光盘(CD)、激光光盘、光学光盘、数字多功能光盘 (DVD)、软盘、蓝光光盘TM(蓝光光盘协会,Universal City,CA),其中磁盘通常以磁性 方式再现数据,而光盘用激光以光学方式再现数据。上文的组合也应包含在计算机可读 媒体的范围内。

如本文中所描述的声学信号处理设备(例如,设备A100或MF100)可并入到接受语 音输入以便控制某些操作或可以其它方式受益于所要噪声与背景噪声的分离的电子装 置中,例如,通信装置等。许多应用可受益于增强清晰的所要声音,或将清晰的所要声 音与起始于多个方向的背景声音分离。此些应用可包含在电子或计算装置中的人机接 口,其并入有例如话音辨识及检测、语音增强及分离、话音激活式控制等的能力。可能 需要实施此声学信号处理设备以适于在只提供有限处理能力的装置中使用。

本文中所描述的模块、元件和装置的各种实施方案的元件可被制造为驻留于(例如) 同一芯片上或芯片组中的两个或两个以上芯片中的电子和/或光学装置。此装置的一个实 例为逻辑元件(例如,晶体管或门)的固定或可编程阵列。本文中所描述的设备的各种实 施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上 固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理 器、FPGA、ASSP及ASIC)上执行的一个或一个以上指令集。

有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用于执行任务 或执行其它指令集,所述任务或指令集不直接与设备的操作相关,例如,与设备所嵌入 于的装置或系统的另一操作相关的任务等。还有可能使此设备的实施方案的一个或一个 以上元件具有共同结构(例如,用于在不同时间执行对应于不同元件的代码部分的处理 器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行不同 元件的操作的电子和/或光学装置的布置)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号