首页> 中国专利> 使用稀疏特征对信息检索进行音频分类

使用稀疏特征对信息检索进行音频分类

摘要

本发明提供了用于使用音频特征对音频进行分类以进行信息检索的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。通常,本说明书中描述的主题的一个方面可以体现为包括如下动作的方法:生成声像的汇集,每个声像根据听觉模型生成自相应的音频文件;从汇集中的每个声像提取稀疏特征以生成表示对应音频文件的稀疏特征向量;以及响应于包括一个或多个字的查询,使用该稀疏特征向量和使稀疏特征向量与该查询中的字相关的匹配函数对该音频文件进行排序。

著录项

  • 公开/公告号CN102405495A

    专利类型发明专利

  • 公开/公告日2012-04-04

    原文格式PDF

  • 申请/专利权人 谷歌公司;

    申请/专利号CN201080017645.6

  • 申请日2010-03-11

  • 分类号G10L11/00(20060101);G06F17/30(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人酆迅

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 04:42:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-23

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L25/48 变更前: 变更后: 申请日:20100311

    专利权人的姓名或者名称、地址的变更

  • 2014-08-06

    授权

    授权

  • 2012-06-13

    实质审查的生效 IPC(主分类):G10L11/00 申请日:20100311

    实质审查的生效

  • 2012-04-04

    公开

    公开

说明书

技术领域

本说明书涉及使用音频特征来对用于信息检索的音频进行分 类。

背景技术

数字音频数据(例如,表示语音、音乐或其他声音)可以存储 在一个或多个音频文件中。音频文件可以包括只具有音频内容的文 件(例如,音乐文件)以及与包含其他内容的其他文件(例如,具 有一个或多个音频轨道的视频文件)相关联或是其一部分的音频文 件。音频文件可以包括语音和音乐以及其他声音分类,包括自然声 音(例如,雨声、风声)、人类情感(例如,叫声、笑声)、动物 发声(例如,狮吼声、猫叫声)或者其他声音(例如,爆炸声、赛 车声、电话铃声)。

可以使用不同技术来表示音频数据。例如,针对强度和时间可 以将音频数据表示为振幅波形,或者针对频率和时间可以将音频数 据表示为声谱图。另外,可以根据声学模型来表示音频数据,该声 学模型用于对生物耳朵(具体地,耳蜗)的听觉响应进行建模。耳 蜗模型可以用于根据时间、频率和自相关延迟生成音频数据的声像 (auditory image)表示。例如,生成音频相关图或稳定声像可以包 括对音频数据应用耳蜗模型。

用户可能希望标识具有特定音频内容的音频文件。例如,用户 可以寻找对包括在投影或家庭电影中的特定声音的示例。用户可以 通过文本标签(例如,声音的名称或声音的描述(例如,“汽车声” 或“吼叫的老虎”))来描述所期望的声音。然而,使用文本查询 对音频内容的常规信息检索(例如,执行针对因特网上的音频内容 的搜索)是困难的并且经常提供不准确的结果。

发明内容

本说明书描述了涉及使用音频特征来对声音进行分类和索引并 且从文本查询检索声音的技术。一般而言,在本说明书中描述的主 题的一个方面可以体现为包括以下动作的方法:生成声像汇集,每 个声像根据听觉模型生成自相应的音频文件;从该汇集中的每个声 像提取稀疏特征以生成表示对应的音频文件的稀疏特征向量;以及 响应于包括一个或多个字的查询,使用稀疏特征向量和使稀疏特征 向量与查询中的字相关的匹配函数对音频文件进行排序。这一方面 的其他实施方式包括对应的系统、装置以及计算机程序产品。

这些和其他实施方式可以可选地包括一个或多个以下特征。从 每个声像提取稀疏特征包括:将声像分成多个子像(sub-image); 向每个子像应用特征提取器以生成对应的局部稀疏代码;以及组合 来自每个子像的稀疏代码以形成针对声像的稀疏向量。匹配函数通 过使用带注释的音频文件的训练汇集生成,并且其中生成匹配函数 包括:接收带注释的音频文件的汇集,每个带注释的音频文件具有 声像和一个或多个与音频文件内容相关联的关键字;针对汇集中的 每个音频文件生成稀疏特征向量;以及使用稀疏特征向量和针对带 注释的音频文件的汇集的一个或多个关键字来训练匹配函数以确定 匹配稀疏特征和关键字的权重的矩阵。该方法还包括利用使用所提 取的音频特征的被动进攻模型(passive-aggressive model)来训练匹 配函数。该训练了解表示稀疏特征与关键字之间的映射的矩阵W, 从而使得针对所有k,FW(qk,ak+)>FW(qk,ak-).

对音频文件进行排序还包括:对与每个稀疏特征向量相关的每 个查询字进行评分;以及组合字之间的评分以对与该查询相关的音 频文件进行排序。对每个查询字进行评分包括计算针对该字的一组 权重与利用特定稀疏特征向量的音频文件的表示之间的点积。该听 觉模型为模仿耳蜗行为的耳蜗模型。该声像是稳定的声像。该声像 是听觉相关图(correllogram)。

一般地,在本说明书中描述的主题的另一方面可以体现为包括 以下动作的方法:接收文本查询,该查询包括一个或多个查询项; 检索使关键字与稀疏特征向量相关的匹配函数,每个稀疏特征向量 从特定的音频文件导出;标识来自查询项的一个或多个关键字;响 应于查询,使用匹配函数来标识一个或多个音频文件;以及呈现标 识一个或多个音频文件的搜索结果。这一方面的其他实施方式包括 对应的系统、装置以及计算机程序产品。

可以实现在本说明书中描述的主题的特定实施方式,以便实现 以下优点中的一个或多个。提取的稀疏特征表示特定的声音。音频 数据继而可以使用这些音频特征和了解的与字特征的关系来进行分 类,该字特征标识音频数据“听上去像什么”。系统继而可以响应 于文本搜索查询,快速并相对准确地对音频内容进行检索和排序。

在附图和下文的描述中阐明在本说明书中所描述的主题的一个 或多个实施方式的细节。根据描述、附图和权利要求,本发明的其 他特征、方面和优点将变得明显。

附图说明

图1是示出了用于响应于文本查询来使用稀疏音频特征检索声 音的示例方法的流程图。

图2是图示了示例音频图像的示意图。

图3是用于稀疏特征提取的示例方法的流程图。

图4是图示了向音频图像应用框切割的示例的示意图。

图5是用于训练系统以匹配关键字和稀疏特征的示例方法的流 程图。

图6是用于搜索音频内容的示例方法的流程图。

图7示出了示例搜索系统。

图8图示了系统的示例架构。

各附图中的相似参考标号和标记指示相似的元素。

具体实施方式

图1是示出了用于响应于文本查询来使用稀疏音频特征检索声 音的示例方法100的流程图。为了方便起见,将针对执行方法100 的系统来描述方法100。

系统接收102音频数据。例如,该音频数据可以是来自音频文 件的汇集的音频文件。每个音频文件可以包括音频数据和非音频数 据。例如,音频文件可以包括音乐、语音或其他音频内容,并且还 可以表示也包括非音频数据的文件(例如,包括已经混合为单个文 件的视频轨道和音频轨道的视频文件)的音频部分。在这种情况下, 提取或隔离该音频数据以便对该音频数据执行操作(例如,从包括 多个内容类型的文件中提取音频轨道)。

系统生成104来自所接收音频数据的声像。该声像根据特定听 觉模型(例如,耳蜗模型)生成。该声像可以是例如音频相关图或 稳定的声像。在某些实现中,系统的听觉前端接收对应于所接收音 频数据的音频波形作为输入。听觉前端向音频波形应用耳蜗模型以 生成声像。

耳蜗模型模仿耳蜗的行为(例如,在人的内耳中)。耳蜗填充 有流体,该流体响应于来自中耳的、由传入声音生成的振动而移动。 随着流体移动,耳蜗中的毛细胞移动,从而将流体振动的机械能转 换成神经放电的模式。当某些毛细胞对于某些频率的振动比其他毛 细胞更加敏感时,对振动的频率响应作为位置的函数进行改变。此 毛细胞布置的结果为耳蜗起到一系列频率滤波器的作用,其通频带 是沿耳蜗位置的函数。

生成包括相关图或稳定声像的声像涉及基于耳蜗模型、根据输 入音频数据(例如,输入音频波形)生成耳蜗图,然后根据耳蜗图 生成声像。耳蜗图(cochleagram)为音频数据的频谱时间表示。

生成耳蜗图(例如,在系统的听觉前端)包括使用一组耳蜗滤 波器来将输入音频数据分成多个频带(例如,使用低通滤波器的级 联或带通滤波器的平行带)。该组滤波器将由于耳蜗毛细胞的变化 的响应而产生的滤波表示为频率或位置的函数。来自该组滤波器中 每个滤波器的输出为表示特定频带的信道。检测每个信道中的能量, 并将其用于调节频带中音频数据的增益,用于实现听觉敏感自适应 的简单模型,或者用于自动增益控制(AGC)。在某些实现方式中, 向输出频带应用半波整流器(HWR)以提供针对每个信道中的音频 数据的波形,该波形表示在沿模型耳蜗的每个位置处的神经放电率。 具体地,半波整流器模拟耳蜗中响应于一个方向移动的毛细胞。所 产生的耳蜗图根据基于耳蜗模型的频率和时间提供音频数据的表 示。

声像通过计算每个频率信道的自动相关性、针对一组给定时间 点向耳蜗表示添加附加维度。在每个这样的给定时间点,作为一系 列滤波器的输出的一维表示被转变成二维表示,从而用自动相关向 量替代每个滤波器的标量输出。当这些图像随时间获取时,产生的 声像为音频数据提供频率、时间和自动相关延迟的三维函数。

图2是图示了示例音频图像200的示意图。具体地,音频图像 200是生成自输入音频波形的稳定声像。音频图像200根据频率、时 间和自动相关延迟表示音频数据。具体地,如图2中所示,x轴表示 自动相关延迟而y轴表示频率,并且图像在每个时间步长变化。从 模式对于稳定的声音(诸如,持续语音声音、稳定音符或稳定噪声) 稳定的意义上来讲,图像是“稳定的”。声音的特性影响图像,并 且图像“看上去像什么”表示声音“听上去像什么”。

如图1中所示,系统从声像提取106稀疏音频特征。音频特征 可以表示能够用于分类音频数据的各种事物。例如,多个不同特征 可以与音频数据相关联,该音频数据包括时域和频域特征(例如, 能量包络和分布、频率含量、调和性和音调)。对于语音和音乐分 类常见的其他音频特征包括表示声音的短期功率谱的梅尔(mel)频 率倒频谱(cepstral)系数。

其他音频特征是稀疏音频特征。本说明书中使用的稀疏指的是 大多数针对每个给定声音的特征值为0,并且所有特征的集合可以通 过仅列出非零特征来高效地编码。具体地,稀疏音频特征表示声像 的抽象局部结构属性。单个特征可能几乎没有有用的解释,但是一 大组这些特征汇集起来可以提供关于声音特性的信息。下文针对图3 更详细地描述从声像提取稀疏特征。

在某些实现方式中,关于声像的每个时间帧计算一组稀疏特征 并且将其聚合或汇集以指示贯穿整个声音(例如,在整个电影音轨 上)每个特征发生了多少次。该结果被称为声音的“特征包”表示。 该“特征包”概念也已经用于表示图像和其他媒体类型,并且类似 于文本文档的“文字包”表示,文字包是对每个文字在文档中出现 的次数的表示,与文字顺序无关,并且已经发现是用于编制索引和 检索的文本文档的有用表现。

系统训练108使音频稀疏特征与查询词汇表中文字相关的匹配 函数。具体地,系统使用训练数据来训练对两对稀疏向量(一个向 量表示声音数据而另一向量表示一组关键字(文本查询))之间匹 配的质量进行评分的函数。具有针对声音的高评分的关键字表示该 音频数据“听上去像什么”。一个帧的特征集合或表示更长分段或 整个声音的“特征包”可以由经训练的匹配转换成可以用作声音的 “文字包”表示,即便该文字包不是来自文字而是来自声音,并且 可以包括数字(例如,正实数和负实数,而不仅是整数字数)。下 文针对图5更加详细地描述了用于生成将稀疏特征的组合与关键字 相关联(即用于将特征包转变成文字包)的匹配的训练。

因此,提取的稀疏特征的给定组合可以和与稀疏特征的组合相 关联的一个或多个关键字匹配。例如,如果音频数据的内容包括狮 吼声,则某些提取的稀疏特征将有助于与狮吼所关联的关键字(例 如,“狮子”和“吼叫”)的匹配。

系统相对于一个或多个文字或项的给定查询,根据稀疏特征对 音频数据进行评分110。该过程可以针对音频文件的汇集中的每一 个,对音频数据进行重复,从而使得针对给定查询,可以向每个音 频文件给出与该查询相关联的评分。系统根据那些评分对音频文件 进行评分或排序。系统可以本地或分布在多个不同存储介质之间而 存储所有声音的特征和匹配函数的表示。系统继而可以在信息检索 期间,例如响应于下文针对图6描述的搜索查询而访问特征和匹配 表示,并且可以返回若干排序靠前的声音文件。

图3是用于稀疏特征提取的示例方法300的流程图。为了方便 起见,将针对执行方法300的系统来描述该方法300。系统使用特征 提取器(例如,向量量化器)的汇集。每个特征提取器将声像的子 像转变成N个稀疏代码之一。当N等于250并且使用100个子像时, 这产生具有25,000维稀疏特征中基本上100个非零元素的净稀疏代 码。

系统根据预定模式将声像分成302多个子像。该过程被称作框 切割。在某些实现中,如图4中所示,框切割将声像分成重叠的矩 形。

图4是图示了框切割音频图像402的示例的示意图400。该图像 被分成多个子像404。然后向每个子像的内容应用特征提取器以提取 稀疏特征。

矩形具有不同大小,以便以多种标度捕获声像中的信息。系统 单独变化水平和垂直大小。另外,系统变化矩形的垂直位置。系统 将这些矩形重新标度成固定大小(对于所有矩形都相同),而不考 虑其原始大小。通常这产生较小的尺寸。针对每个重新调整大小的 矩形,系统可选地计算水平边际和垂直边际(marginal)。边际是针 对特定矩形中每列和行的平均值。针对每个单独矩形的水平和垂直 边际被连接至单个实值向量。备选地,系统维持每个矩形内容作为 单个向量,而不将其减少到其边际。

系统向每个子像应用304特征提取器以生成针对子像的局部稀 疏代码。系统利用稀疏代码估计表示声像中矩形区域的每个向量。 系统可以使用向量量化或匹配追踪(pursuit)来逼近向量。

向量量化使用来自码本的最佳匹配向量(在欧氏(Euclidean) 意义上最接近)来逼近向量。一旦选定最佳匹配,表示可以被编码 为稀疏代码向量,其中长度等于码本的大小,并且包括所有的0,除 了在所选择代码字的索引位置的单个“1”。

匹配追踪向码本向量上投影向量(表示矩形);寻找最大的投 影;向稀疏特征表示(在适当的索引位置)添加该投影的带符号的 标度值;以及从原始向量减去向量值投影,从而产生剩余向量。然 后重复该过程,直到最大投影的量级变得小于给定阈值。

针对匹配追踪和向量量化两者,系统了解到用于在声像中的每 个特定位置表现矩形的单独码本。系统使用例如k平均算法从数据 了解到码本。

系统从所有子像收集稀疏代码以建立针对整个帧的大型稀疏代 码向量。具体地,一旦每个矩形转变成稀疏代码,它们便连接成一 个高维稀疏向量,从而表示整个声像。

为了表示整个音频文件,系统将表示单独帧的稀疏向量组合306 成表示音频文件的音频数据的稀疏向量,这例如通过简单地将它们 加起来。产生的向量经常不如针对单独帧的向量稀疏,但是通常依 然是稀疏的。

系统可以存储308该音频文件以及其他音频文件的稀疏代码向 量。例如,这些向量继而可以用于表示训练系统中的音频数据,或 者用于标识匹配给定查询的音频文件。

图5是用于训练系统以将稀疏特征映射到关键字的示例方法500 的流程图。为了方便起见,将针对执行方法500的系统描述方法500。

系统接收502带注释音频的汇集。带注释音频文件的汇集可以 包括仅包括音频数据的文件和包括音频数据以及其他内容类型(例 如,音频和视频内容)的文件。例如,带注释音频文件的汇集可以 包括接收自资源库的音频文件,该资源库包括针对每个音频文件标 识音频文件的对应内容的一个或多个关键字标签。

在某些实现中,系统从声音效果的资源库选择用于包括在待用 于训练的带注释音频文件的汇集中的音频文件。声音效果资源库可 以包括仅具有一个音频对象(例如,狮吼声而无其他声音)的纯净 音频数据。例如,系统可以使用商售的或免费可获得的声音效果的 资源库来选择用于包括在音频文件的汇集中的音频文件。在某些实 现中,选定的音频文件没有标识音频数据的内容的标签。在这种情 况下,音频文件可以例如通过使得听众回顾每个音频文件并指派针 对每个音频文件的一个或多个标签来手动添加标签。

在某些实现中,音频文件是指派的层级标签。例如,如果音频 文件标记有关键字“猫”,则可以添加附加的关键字“猫科”、“哺 乳动物”和“动物”。在某些情形下,标签被限于预定关键字词汇 表以提供标签一致性。

在某些实现中,系统从用户上传的音频文件的资源库选择用于 包括在待用于训练的带注释音频文件的汇集中的音频文件。例如, Freesound项目(http://freesound.org)提供了公共可获得的带标记音 频文件的在线资源库。个人用户可以上传音频文件以及标识每个所 上传音频文件的内容的一个或多个标签。与特定效果音频文件相比, 这些音频文件中的每一个都包括不止一个组合为复合音频场景(即, 不只是单个特定声音)的音频对象。

来自选定音频文件的标签可以被处理以生成与该汇集的每个音 频文件相关联的关键字。例如,可以过滤标签以移除包含数字和非 检索用字(stopword)的标签。还可以对标签进行抽取(stem)以移 除格式后缀(例如,mp3、wav、afi),标签还可以进行拼写检测以 改正拼写错误,并且可以对所有字进行抽取(例如,以从标签中移 除包括例如“-s”和“-ing”后缀的复数或其他修饰语)。词汇表可 以基于生成自音频文件标签的唯一关键字进行限定。在某些实现中, 某些音频文件的标签可能是噪声。例如,在某些情况下,某些标签 没有正确地描述音频文件的内容。例如,包含狮吼的音频文件可能 被标记为包含人的叹息。

系统从每个音频文件提取504稀疏特征。例如可以如针对图3 所述那样来提取稀疏特征。由此,针对每个音频文件,存在经提取 的稀疏特征和一个或多个关键字。

系统训练506匹配函数(诸如线性矩阵映射)以将稀疏特征与 关键字匹配。给定任意稀疏特征向量和标签的任意集合,匹配函数 计算测量两者之间关联的质量的评分。由于训练,具有稀疏特征的 特定组合的音频文件的内容生成包含词汇表中的一个或多个关键字 的文字包,其中文字表示声音听上去像什么。

可以使用不同的训练技术来训练匹配函数。例如,如机器学习 领域公知的,匹配函数可以被训练为使用分类器的排序器。训练技 术包括“针对图像检索的被动进攻模型”(PAMIR)、高斯混合模 型(GMM)和Boosting或支持向量机(SVM)。GMM用于计算音 频文档的概率密度函数。训练GMM模型可以使用最大后验(MAP) 方法。SVM和Boosting寻找最大化正面示例和负面示例之间边缘同 时最小化训练中误分类数目的判别式函数。

PAMIR是最初应用于检索自文本查询的基于内容的图像的技 术。PAMIR特别训练用于响应于查询而不是分类来产生媒体文档(图 像或声音)的良好排序。PAMIR可以适用于简单地通过使用音频特 征而不是图像特征来训练基于内容的音频检索;PAMIR工作如下:

查询q可以由针对词汇表T中(例如在从添加标签的训练数据 导出的关键字的词汇表中)每个关键字的标准化逆文档频率(tf-idf) 的权重的向量表示,其中

文档(例如,音频文件)可以由维度d的稀疏特征向量表 示,其中da表示稀疏音频特征的潜在数目。针对多维((|T|xda))的 矩阵W,查询水平评分Fw(q,a)可以定义如下:

Fw(q,a)=qtranspWa,

其测量文档a匹配查询q的程度。另外,W可以被示为从声学表示 到文本表示的转换,由此,评分成为文本查询q与 “文字包”或“文本文档”Wa的向量表示之间的点积,其中每个分 量针对文字t计算为针对单个文字查询的评分:

scorePAMIR(a,t)=Wta,

其中Wt是W的第t行。W因此是待学习的矩阵,表示从音频“特 征包”到“文字包”的线性映射。

针对文本查询和音频文档的训练集合,有限训练集合Dtrain(例 如,训练集合中音频文件的汇集)可以表示为一组三元组 Dtrain={(q1,a1+,a1-),...,(qn,an+,an-)},其中针对第k个三元组qk是文本查询,是与qk有关的音频文档并且 是与qk无关的音频文档。PAMIR方法标识参数W, 从而使得针对每个k,Fw(qk,ak+)-Fw(qk,ak-)ϵ,ε>0。这可以被 重写为损失函数lW((qk,ak+,ak-))=0,k,其中 lw((qk,ak+,ak-))=max{0,ϵ-Fw(qk,ak+)+Fw(qk,ak-)}.由此,PAMIR方法的目 的在于标识W,从而使得针对所有k,评分应当比评分 大至少一个小正数差值。因此,针对训练集合中尽可能多 的文档与查询的组合,与给定查询有关的文档评分应当高于与该查 询无关的文档评分。

使用PAMIR对训练集合上的模型进行训练包括使用开发用于分 类和回归问题的被动攻击(PA)系列技术来迭代最小化:

L(Dtrain;W)=Σk=1nlW((qk,ak+,ak-)).

在每次训练迭代i,PAMIR解决以下凸(convex)问题:

Wi=argminw12||W-Wi-1||2+ClW((qk,ak+,ak-)).

其中‖W-Wi-1‖是逐点的L2正则化。因此,在每次迭代,Wi被选作保 持靠近先前参数Wi-1与最小化当前示例上损失之间的权 衡。攻击参数C控制此权衡。此凸优化问题的解为:

Wi=Wi-1iVi

其中τi=min{C,lWi-1(qk,ak+,ak-)||Vi||2}

并且Vi=-[(qi1(ak+-ak-),...,qi|T|(ak+-ak-)]

其中是向量qi的第j个值并且Vi是针对W的损失的梯度。

在训练过程期间,查询的词汇表对应于被标识用于表示训练数 据中的音频文件的关键字。凸最小化问题的解使用已知关联的训练 数据来根据迭代过程学习特定关键字与特定音频内容之间的通用关 联,该迭代过程对于关键字与音频内容之间更可能的匹配产生更高 评分,如由提取自每个音频文件的稀疏特征所表示。该训练过程用 于生成稀疏特征与关键字之间的匹配。

系统以矩阵W的形式存储508稀疏特征与关键字之间的匹配函 数。如上文针对图1所述,该匹配继而可以用于标识针对非带注释 音频数据的关键字。

图6是用于搜索音频内容的示例方法600的流程图。为了方便 起见,将针对执行方法600的系统描述方法600。系统接收602针对 音频内容的查询。所接收的查询包括一个或多个查询项,例如“对 狮吼的记录”。

系统响应于查询,使用与音频文件的汇集相关联的关键字标识 604音频文件。具体地,将查询与词汇表中的一个或多个关键字匹配。 这可以包括移除不具有对应词汇表条目的查询项。例如,查询“对 狮吼的记录”可以被缩减为“狮吼”。匹配关键字用于形成查询向 量q,从而表示该查询。查询向量q是稀疏的(大多数分量的值为0), 这是因为任意查询中只存在所有可能关键字中的若干关键字。针对 查询向量和每个音频文件的稀疏特征而计算的评分包括计算查询向 量与“文字包”特征Wa之间的点积。由此,评分是文本查询q的向 量表示与表示音频文件的“文本文档”或“文字包”之间的点积, 其中特征向量Wa,FW(q,a)=qtranspWa。该评分指示特定音频文件 与搜索查询的匹配程度。该评分越高,音频文件越可能是搜索查询 的良好响应。由此,音频文件的排序列表可以响应于根据该评分的 查询进行标识。系统可以基于针对表示的排序指定限于搜索结果的 前k个。

系统可选地使用由查询项进行索引的预计算索引来标识针对查 询具有排序高的潜力的音频文件,这是由于其具有针对至少一个查 询项显著正面的关键字评分。具体地,索引标识待排序的潜在可接 受查询匹配,从而使得系统针对接收的查询不计算所有音频文件的 排序函数。例如,针对查询“狮吼”,索引可以标识1000个具有一 位“狮”在其中的音频文件,并且标识具有某些“吼”在其中的数 千音频文件。系统继而可以使用排序函数来只组合所述音频文件以 标识排序列表而不是对所有音频文件评分。备选地,可以使用针对 所有音频文件计算与稀疏查询向量的点积的其他快速方法,其包括 位置敏感哈希或邻近树。

系统呈现606标识音频文件的排序列表的搜索结果。具体地, 搜索结果可以被呈现为到对应于具有响应于查询的内容的音频文件 的资源的一组链接。搜索结果可以被呈现为列表、图标或者缩略声 像。

图7图示了用于提供与所提交的查询相关的搜索结果的示例搜 索系统714,该搜索系统714可以实现在因特网、内网或者另一客户 端和服务器环境中。搜索系统714是在其中能够实现下面描述的系 统、组件和技术的信息检索系统的示例。

用户702可以通过客户端设备704与搜索系统714交互。例如, 客户端704可以是通过局域网(LAN)或例如因特网的广域网(WAN) 耦合至搜索系统714的计算机。在某些实现中,搜索系统714和客 户端设备704可以是一个机器。例如,用户可以在客户端设备704 上安装桌面搜索应用。客户端设备704一般包括随机存取存储器 (RAM)706和处理器708。

用户702可以向搜索系统714内的搜索引擎730提交查询710 (例如,针对音频内容的查询)。当用户702提交查询710时,查 询710通过网络传送到搜索系统714。搜索系统714可以实现为例如 运行在一个或多个位置中、通过网络彼此耦合的一个或多个计算机 上的计算机程序。搜索系统714包括索引数据库722和搜索引擎730。 搜索系统714通过生成搜索结果728来对查询710进行响应,该搜 索结果728以能够呈现给用户702的形式(例如,要显示在运行在 客户端设备704上的web浏览器中的搜索结果web页面,该搜索结 果web页面列出了响应于音频查询的音频资源的标识符)通过网络 传送到客户端设备704。

当搜索引擎730接收到查询710时,搜索引擎730标识与查询 710匹配的资源。搜索引擎730通常将包括对在资料(例如内容的汇 集或存储库)中找到的资源(例如因特网上的音频数据、web页面、 图像或者新闻文章)进行索引的索引引擎720,存储索引信息的索引 数据库722,以及用以对与查询710匹配的资源进行排序的排序引擎 752(或其他软件)。可以结合上文描述的排序技术使用常规技术来 执行对资源的索引编制和排序。搜索引擎730可以通过网络向客户 端设备704传送搜索结果728,例如,以便呈现给用户702。

搜索系统714还可以基于其从用户接收的查询来维持一个或多 个用户搜索历史。一般而言,用户搜索历史存储从用户接收的查询 序列。用户搜索历史还可以包括附加信息,诸如在执行了搜索之后 选择了哪些结果以及每个所选择的结果被查看了多久。

具体地,当查询710为针对音频内容的请求时,搜索引擎730 可以使用关键字词汇表和如上文所述标识潜在匹配的索引(例如, 存储在索引数据库722中)或者通过访问存储的针对所有声音的特 征或者存储在如针对图1所述的搜索系统中的匹配函数的表示来搜 索匹配查询710的资源。当确定音频数据匹配查询710时,排序引 擎752可以基于经计算的评分对响应于查询710的音频数据进行排 序。

图8图示了系统架构800的示例架构。架构800包括一个或多 个处理器802(例如IBM PowerPC、Intel Pentium 4等)、一个或多 个显示设备804(例如CRT、LCD)、图形处理单元806(例如NVIDIA  GeForce等)、网络接口808(例如以太网、FireWire、USB等)、 输入设备810(例如键盘、鼠标等)以及一个或多个计算机可读介质 812。这些部件使用一个或多个总线814(例如EISA、PCI、PCI Express 等)交换通信信息和数据。

术语“计算机可读介质”指的是参与向处理器802提供指令以供 执行的任意介质。计算机可读介质812还包括操作系统816(例如 Mac OS、Windows、Linux等)、网络通信模块818、特征提取器 820、关键字特征匹配822和其他应用824。

操作系统816可以是多用户、多处理、多任务、多线程、实时 以及类似的。操作系统816执行基本任务,包括但不限于:识别来 自输入设备810的输入;向显示设备804发送输出;在计算机可读 介质812(例如存储器或者存储设备)上保持文件和目录的轨道;控 制外围设备(例如盘驱动器、打印机等);以及管理一个或多个总 线814上的通信。网络通信模块818包括用于建立和保持网络连接 的各种组件(例如,用于实现诸如TCP/IP、HTTP、以太网等通信协 议的软件)。

特征提取器820提供各种软件组件以用于执行各种功能以如针 对图3至图4所述从音频数据提取稀疏特征。关键字特征匹配822 提供各种软件组件以用于执行各种功能,以训练模型来将稀疏特征 与关键字相关联并且向所接收的稀疏特征应用该模型,以便如针对 图1至图5所述标识匹配关键字。其他应用824可以包括声像生成 器,用于从输入音频文件生成声像。

本说明书中描述的主题和操作的实施方式可以在包括本说明书 中公开的结构及其结构等效物的数字电子电路、或者在计算机软件、 固件或者硬件,或者上述各项中的一个或多个的组合中实现。本说 明书中描述的主题的实施方式可以实现为编码在计算机存储介质上 的一个或多个计算机程序,即,一个或多个计算机程序指令模块, 以用于由数据处理装置执行或者控制数据处理装置的操作。备选地 或者附加地,程序指令可以编码在人工生成的传播信号(例如,机 器生成的电、光或者电磁信号)上,其被生成用于编码信息以用于 向适当的接收机传输,以便由数据处理装置执行。计算机存储介质 可以是计算机可读存储设备、计算机可读存储衬底、随机或者串行 存取存储器阵列或者设备或者上述各项中的一个或多个的组合,或 者包括在上述各项及上述各项中的一个或多个的组合之中。

本说明书中描述的操作可以实现为由数据处理装置对存储在一 个或多个计算机可读存储设备上或者从其他来源接收的数据执行的 操作。

术语“数据处理装置”包括用于处理数据的所有种类的装置、 设备和机器,包括例如可编程处理器、计算机、片上系统或者上述 各项的组合。装置可以包括专用逻辑电路,例如FPGA(现场可编程 门阵列)或者ASIC(专用集成电路)。除了硬件以外,装置还可以 包括创建用于考虑中的计算机程序的执行环境的代码,例如,构成 处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时 环境(例如,虚拟机)或者上述各项中的一个或多个的组合的代码。 装置和执行环境可以实现各种不同的计算模型基础架构,诸如web 服务、分布式计算和网格计算基础架构。

计算机程序(也称为程序、软件、软件应用、脚本或者代码) 可以按照任何形式的编程语言(包括编译或者解释语言、声明或者 过程语言)编写,并且其可以按照任何形式部署,包括作为独立程 序或者作为模块、组件、子例程、对象或者适于在计算环境中使用 的其他单元。计算机程序可以但不必与文件系统中的文件相对应。 程序可以存储在保持其他程序或者数据的文件的一部分中(例如, 存储在标记语言文档中的一个或多个脚本)、专用于考虑中的程序 的单个文件或者多个协作的文件中(例如,存储一个或多个模块、 子程序或者部分代码的文件)。计算机程序可以部署用于在一个计 算机或者位于一个站点或者跨多个站点分布并且通过通信网络互连 的多个计算机上执行。

本说明书中描述的过程和逻辑流可以由一个或多个可编程处理 器执行,其执行一个或多个计算机程序以通过对输入数据进行操作 并且生成输出来执行功能。过程和逻辑流还可以由专用逻辑电路来 执行,并且装置也可以实现为专用逻辑电路,该专用逻辑电路例如 FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。

适于执行计算机程序的处理器包括例如通用和专用微处理器二 者,以及任何类型的数字计算机的任何一个或多个处理器。一般而 言,处理器将从只读存储器或者随机访问存储器或者这二者接收指 令和数据。计算机的主要元件是用于实现或执行指令的处理器以及 用于存储指令和数据的一个或多个存储器设备。一般而言,计算机 还将包括用于存储数据的一个或多个海量存储设备(例如,磁、磁 光盘或者光盘)或者可操作地耦合至该海量存储设备以从其接收数 据或者向其传送数据或者二者。然而,计算机不需要具有此类设备。 另外,计算机可以嵌入在另一设备中,该另一设备例如移动电话、 个人数字助理(PDA)、移动音频或者视频播放器、游戏机、全球 定位系统(GPS)接收机或者便携式存储设备(例如,通用串行总线 (USB)闪速驱动器),仅作为几例。适于存储计算机程序指令和 数据的设备包括所有形式的非易失性存储器、介质和存储器设备, 包括例如:半导体存储器设备,例如EPROM、EEPROM和闪速存储 器设备;磁盘,例如内部硬盘或者可移动盘;磁光盘;以及CD-ROM 和DVD-ROM盘。处理器和存储器可以由专用逻辑电路进行补充或 者并入其中。

为了提供与用户的交互,本说明书中描述的主题的实施方式可 以在计算机上实现,该计算机具有用于向用户显示信息的显示设备 (例如,CRT(阴极射线管)或者LCD(液晶显示)监视器)以及 用户可以通过其向计算机提供输入的指点设备,例如鼠标或者轨迹 球。其他种类的设备也可以用于提供与用户的交互;例如,向用户 提供的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈 或者触觉反馈;并且来自用户的输入可以按照任何形式接收,包括 声音、语音或者触觉输入。另外,计算机可以通过向用户使用的设 备发送文档或者从其接收文档而与用户交互;例如,通过响应于从 用户的客户端设备上的web浏览器接收的请求,向该web浏览器发 送web页面。

本说明书中描述的主题的实施方式可以在包括后端组件的计算 系统(例如作为数据服务器)或者包括中间件组件的计算系统(例 如,应用服务器)或者包括前端组件的计算系统(例如用户可以通 过其与本说明书中描述的主题的实现进行交互的具有图形用户接口 或者Web浏览器的客户端计算机)中,或者一个或多个此类后端、 中间件或者前端组件的任意组合中实现。系统的组件可以通过数字 数据通信的任何形式或者介质(例如,通信网络)互连。通信网络 的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络 (例如,因特网)和端对端网络(例如,ad hoc端对端网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此 远离并且通常通过通信网络进行交互。客户端和服务器的关系借助 于相应计算机上运行的并且彼此具有客户端-服务器关系的计算机程 序来体现。在某些实施方式中,服务器向客户端设备传输数据(例 如,HTML页面)(例如,出于向与客户端设备交互的用户显示数 据或者从其接收用户输入的目的)。可以在服务器处从客户端设备 接收在客户端设备处生成的数据(例如,用户交互的结果)。

虽然本说明书包含很多特定实现细节,但是这些不应当视为对 本发明或者可以要求保护的范围的限制,而是作为特定于本发明的 特定实施方式的特征的描述。本说明书在独立的实施方式的上下文 中描述的特定特征可以在单个实施方式中组合实现。相反,在单个 实施方式的上下文中描述的各种特征也可以在多个实施方式中或者 在任意适当的子组合中分开实现。另外,虽然上文可能将特征描述 为在特定组合中进行并且甚至初始如此要求保护,但是在某些情况 下,所要求保护的组合中的一个或多个特征可以从组合中去除,并 且所要求保护的组合可以针对子组合或者子组合的变体。

类似地,虽然附图中以特定次序描绘了操作,但是这不应理解 为需要以所示出的特定次序或者顺序执行此类操作,或者执行所有 示出的操作来达到期望的结果。在某些情况下,多任务和并行处理 可能是有利的。另外,上文描述的实施方式中的各种系统组件的分 离不应当理解为在所有实施方式中需要此类分离,并且应当理解, 所描述的程序组件和系统通常可以一起集成在单个软件产品中或者 封装为多个软件产品。

由此,已经描述了本发明的特定实施方式。其他实施方式也在 所附权利要求的范围内。在某些情况下,权利要求中限定的动作可 以按照不同的次序来执行并且仍然达到期望的结果。另外,附图中 绘出的过程未必需要所示出的特定次序或者顺序来达到期望的结 果。在某些实现中,多任务和并行处理可能是有利的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号