首页> 中国专利> 利用音调匹配访问音频文件集中的音频文件的方法和装置

利用音调匹配访问音频文件集中的音频文件的方法和装置

摘要

提供了一种用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件的方法。该方法包括:生成一个索引,所述索引包括从该集合中多于一个音频文件的每个获取的信息条目的索引,其中,该集合中的每个音频文件被链接到至少一个信息条目;在输入接收模式期间接收输入;利用模数转换器将输入转换为数字信号;利用频谱分析或旋律轮廓分析将数字信号解析为离散部分;以及比较离散部分与索引中的信息条目。优点在于当离散部分与索引中的至少一个信息条目基本一致时,音频文件被访问。离散部分可以是音符、旋律轮廓或波形。至少一个信息条目也可以是音符、旋律轮廓或波形。还公开了一种应用上述方法的装置。

著录项

  • 公开/公告号CN101454778A

    专利类型发明专利

  • 公开/公告日2009-06-10

    原文格式PDF

  • 申请/专利权人 创新科技有限公司;

    申请/专利号CN200780019080.3

  • 发明设计人 许军;张化云;

    申请日2007-05-22

  • 分类号G06F17/30;

  • 代理机构北京东方亿思知识产权代理有限责任公司;

  • 代理人宋鹤

  • 地址 新加坡新加坡市

  • 入库时间 2023-12-17 22:06:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2011-12-07

    授权

    授权

  • 2009-08-05

    实质审查的生效

    实质审查的生效

  • 2009-06-10

    公开

    公开

说明书

技术领域

本发明涉及用于访问音频文件集(collection of audio files)中的音频文件的方法和装置,并且更具体而言,涉及利用音调匹配对文件的访问。

背景技术

能够购买数字娱乐年代的出现已经在很大程度上增加了消费者对个人数字娱乐设备的使用。这些个人数字娱乐设备通常设有一定大小的存储容量。由于诸如硬盘驱动和闪存之类的存储设备的价格下降,存储容量超过1GB的个人数字娱乐设备的数目增加了。个人数字娱乐设备中的用于音频文件的这种大小的存储容量使得能够存储成千上万份文件。

虽然可以将音频文件根据它们的歌曲标题、演唱者、流派等进行存储和分类,但是存在这样的情况:用户可能忘记了歌曲的标题或演唱者,因而提供对相关音频文件的搜索类似于大海捞针。在很多情况下,用户可能只能够忆起歌曲或者其曲调的一部分。此时,这不能以任何方式来帮助搜索相关的音频文件。当试图访问很大音频文件集中的音频文件而不知道某些诸如歌曲名或演唱者之类的信息的时候,这便成了一个问题。当视觉受损者试图访问音频文件集中的音频文件而他们不能够通过使用视觉来选择音频文件时,这个问题更加严重。

在没有使其参加昂贵的歌唱训练(vocal coach)的情况下,要提高人的歌唱技能也是相当困难的。当前,除了使用其中设有“评分”功能的卡拉OK机以外,很难独立地提高人的歌唱技能。现在,还很少有可用的能够容易且方便地判定人歌唱技能质量的设备。

发明内容

在本发明的一个优选方面中,提供了一种用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件的方法。该方法包括:生成一个索引,所述索引包括从该集合中多于一个音频文件的每个获取的信息条目的索引,该集合中的每个音频文件被链接到至少一个信息条目;在输入接收模式期间接收输入;利用模数转换器将输入转换为数字信号;利用频谱分析或旋律轮廓分析将数字信号解析为离散部分;以及比较离散部分与索引中的信息条目。优点在于当离散部分与索引中的至少一个信息条目基本匹配时,音频文件被访问。优选地,离散部分例如是音符、旋律轮廓或波形。至少一个信息条目也可以是音符、旋律轮廓或波形。优选地,旋律轮廓分析基于对每个音频文件的音频输出的一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)以及持续时间轮廓(LSK)进行的分析,其中所述分析生成用于音频文件匹配的“接近(closeness)”评分。

输入优选地可以是独立于扬声器的并且可以是歌唱、哼唱、口哨、MIDI信号以及音符的形式。输入形式优选地可以是手动可选择的或自动可选择的。

优选地,音频文件可以从电子设备本身、功能上连接到该电子设备的设备或者被连接的计算机网络进行访问。优选地,信息条目也可以从音频文件、链接到音频文件的预先记录的歌唱条目以及被连接的计算机网络来接收。优选地,电子设备可以从由以下选项组成的组中选择:车载音频系统、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器以及移动电话。

优选地,该方法还包括通过按下预定按钮至少一次来选择用于访问所述音频文件的装置(facility),并且对输入进行滤波。

还提供了一种用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件的装置。优选地,该装置包括:用于生成包括从集合中多于一个音频文件的每个获取的信息条目的索引的索引器,其中,集合中的每个音频文件被链接到至少一个信息条目;用于在输入接收模式期间接收输入的输入接收接收器;使用模数转换器将输入转换为数字信号;以及被配置为利用频谱分析或旋律轮廓分析将数字信号解析为离散部分的处理器,该处理器还可以比较离散部分与索引中的信息条目。优点在于当离散部分与索引中的至少一个信息条目基本匹配时,音频文件被访问。该装置可以包括显示屏并且输入可以被滤波。输入接收模式可以通过按下至少一个按钮至少一次来激活。优选地,离散部分是音符、旋律轮廓或波形。优选地,旋律轮廓分析基于对每个音频文件的音频输出的一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)以及持续时间轮廓(LSK)进行的分析,其中所述分析生成用于音频文件匹配的“接近”评分。

优选地,该装置是从由以下选项组成的组中选择的:车载音频系统、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器以及移动电话。

优选地,输入是手动地或自动地从由以下选项组成的组中选择的:歌唱、哼唱、口哨、MIDI信号以及音符。优点在于输入可以独立于扬声器。至少一个信息条目可以从音符或波形来选择。优选地,至少一个信息条目可以从音频文件、链接到音频文件的预先记录的歌唱条目以及被连接的计算机网络来接收。音频文件可以从电子设备本身、功能上连接到该电子设备的任何设备或被连接的计算机网络来访问。

还提供了一种使用前述装置来确定歌唱输入的质量水平的方法。

附图说明

为了更全面地理解本发明,并且更容易获得本发明的实际效果,现在,将本发明的优选实施例仅作为非限制性示例来进行描述,并参考所附示例性图来进行描述。

图1示出了本发明优选实施例的方法的流程图。

图2示出了本发明优选实施例的装置的示意图。

图3示出了用于图示出如何得出针对旋律的一阶旋律轮廓(UDR)和二阶旋律轮廓(udr)的示例。

图4示出了用于图示出使用本发明优选实施例如何将音频文件与音频输入进行匹配的序列。

图5示出了用于图示出如何得出针对另一旋律的一阶旋律轮廓(UDR)和二阶旋律轮廓(udr)的示例。

具体实施方式

下面的讨论意图提供对本发明在其中被实现的适当的计算环境的简要的一般描述。虽然不是必要的,但是将在由个人计算机执行的诸如程序模块之类的计算机可执行指令的通用背景中来描述本发明。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例行程序、程序、字符、组件(component)、数据结构。本领域技术人员将会理解,可以利用其它计算机系统配置,包括手持设备、多处理器系统、基于微处理器或可编程用户电子设备、网络PC、小型计算机、大型计算机等来实现本发明。本发明也可以在其中由通过通信网络链接的远程处理设备来执行任务的分布式计算环境中实现。在分布式计算环境中,程序模块既可以位于本地存储器存储设备中也可以位于远程存储器存储设备中。

参考图1,其中提供了一种方法(18)的流程图,该方法用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件。该电子设备例如可以是车载音频系统、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器或移动电话等等。该方法可以包括以例如按下电子设备上的预定按钮至少一次的方式来使能电子设备中的输入接收模式(20)。输入接收模式可以被使能或被禁止,因为这样可以防止由于持续使能输入接收模式而持续消耗电子设备中的电源。输入接收模式可以用于输入例如歌唱、哼唱、口哨、MIDI信号或音符(musical note)。可以使用模数转换器将模拟输入转换为数字输入。

使能电子设备中的输入接收模式可以启动索引系统(24)。一旦索引系统被启动,则该系统随后判定集合中的音频文件的构成是否已改变(26)。音频文件的构成可以包括音频文件的数目和音频文件名。索引可以包括从存储在电子设备、在功能上连接到电子设备的任何设备或被连接的计算机网络中的音频文件集中多于一个音频文件的每个所获取的信息条目。可以以有线或无线的方式连接到计算机网络。集合中的每个音频文件可以被链接到索引中的至少一个信息条目。至少一个信息条目可以是使用对应于存储在音频文件中的一部分或全部内容的语义分割而确定的音符或波形。信息条目还可以是像文件元数据一样被链接/附接到音频文件的MIDI组件。信息条目还可以从被链接/附接到音频文件的预先记录的歌唱条目或被连接的计算机网络获取。在被连接的计算机网络上可以有在线数据库,其中,针对每个音频文件的音符或波形的信息条目是可下载的。信息条目可以包括每个音频文件的音频输出的一阶旋律轮廓(melodycontour)(UDR)、二阶旋律轮廓(udr)以及持续时间轮廓(LSK)。

如果发现音频文件的构成不同,则在存储在电子设备、在功能上连接到电子设备的任何设备或被连接的计算机网络中的音频文件集中进行搜索(28)。该步骤是为了判定音频文件是否已经被添加到集合或从集合被移除。搜索之后,从每个音频文件直接获取的信息条目(25)、从被连接的计算机网络下载的针对每个音频文件的信息条目(29),或者链接到每个音频文件的预先记录的歌唱条目(23)可以被组合成为索引(30)。该索引随后被装载以在电子设备中使用(32)。

如果发现音频文件的构成未改变,则随后将最近使用的索引装载以在电子设备中使用(32)。随着对输入接收模式的使能,可能有输入进入设备(34)。该输入可以是歌唱、哼唱、口哨、MIDI信号或音符。在具体实例中,该输入不必是以完整形式存在的歌曲。一首歌曲的一部分足以作为该输入的可行形式。该输入可以被滤波。用户可以手动选择针对输入接收模式的特定输入(22)。也可以存在对输入的自动检测,但是这种模式通常会使用更多的电能。由电子设备进行的输入接收可以独立于扬声器。如果歌唱输入太响亮(以至于发生了输入失真)或太柔和(以至于听不见输入),则输入接收模式可以具有针对歌唱输入的自动音量校正。电子设备还可以通过基于索引中的音频文件条目,提供对最接近走调歌唱输入的音频文件的选择,来克服走调歌唱输入的问题。用户可以设置设备以显示达预定数目的最接近的近似音频文件,例如十个最接近的近似音频文件。

接下来,模拟形式的输入由模数转换器转换为数字信号(36)。该转换器可以是模拟-MIDI转换器。随后,电子设备中的处理器可以将数字信号解析成为离散部分,其中,离散部分可以是音符或者波形。可以使用频谱分析或旋律轮廓分析来进行数字信号处理。随后,处理器可以将离散部分与索引中的条目相比较(40)。离散部分和索引中的条目之间的精确近似或基本近似使得生成了一个以近似程度排序的音频文件列表(42)。该列表可以显示出音频文件数目,这个数目可以由用户预定并且可以被显示在电子设备的显示屏上。近似程度可以基于根据音符或波形的相对接近度。索引可以包括针对每个音频文件的旋律轮廓信息。

参考图3,其中示出了用于图示出怎样得出针对一个曲调(tune)的一阶旋律轮廓(UDR)和二阶旋律轮廓(udr)的示例。在此示例中,曲调是“Do Re Mi Re Do”。每个音符具有预定的被量化的音调(pitch)(MIDI调值(key value)),如下:

Do-60;

Re-62;

Mi-64;

Re-62;以及

Do-60。

一阶导数△可以用下式获得:

△=音调(当前的)-音调(前一个)

一阶导数△的结果在图3的表格中的第三行中示出。随后,一阶旋律轮廓(UDR)根据一阶导数△的值得出,其中:

△>0:U;

△=0:R;以及

△<0:D。

一阶旋律轮廓(UDR)的结果在图3的表格中的第四行示出。接下来,二阶导数△△可以用下式得出:

△△=|△(当前的)|-|△(前一个)|

二阶导数△△的结果在图3的表格中的第五行示出。随后,二阶旋律轮廓(udr)根据二阶导数△△的值得出,其中:

△△>0:u;

△△=0:r;以及

△△<0:d。

二阶旋律轮廓(udr)的结果在图3的表格中的第六行示出。

参考图5,示出了第二曲调“Do So La So Do”的一阶(UDR)和二阶(udr)轮廓。可以看出,第一曲调“Do Re Mi Re Do”的一阶(UDR)轮廓与第二曲调“Do So La So Do”的一阶(UDR)轮廓相同。但是,第一和第二曲调的二阶(udr)轮廓不同。这清晰地说明了二阶(udr)轮廓的使用是如何有助于区分不同曲调的准确度的。

持续时间轮廓(LSK)也是可导出的参数,并且可以以下面的三组进行分类:

DD=持续时间(当前的音符)-持续时间(前一个音符)

L用于DD>0;

S用于DD=0;以及

K用于DD<0。

因此,L是当前音符具有长于前一音符的持续时间的情况。K是当前和前一音符两者具有相同持续时间的情况,以及S是当前音符具有短于前一音符的持续时间的情况。

应当注意,当使用旋律轮廓解析时即使忽略音调转换比例(scale),由于在这种情况下解析了音调轮廓“加速”,因此使用二阶旋律轮廓也可以克服这种忽视音调转换比例的缺点。

输入和被存储的音频文件之间的比较可以基于旋律轮廓分析,其中旋律轮廓分析基于每个被存储的音频文件的音频输出的一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)和持续时间轮廓(LSK)。

D(i,j)表示输入和被存储音频文件的音频输出之间的距离。

D(i,j)=minD(i-1,j-1)+SubCost@(i,j)D(i-1,j)+DelCost@(i,j)D(i,j-1)+InsCost@(i,j)---(1)

Cost@(i,j)表示由UDR、udr和LSK误差的组合所引起的总花费。

Cost@(i,j)=UDRCost@(i,j)+udrCost@(i,j)+LSKCost@(i,j)(2)

UDRCost@(i,j)表示来自UDR的误差的花费。

应当注意,针对上述误差的值‘2.0’仅仅是代表性的,并且它可以采用任何大于零的数值。

udrCost@(i,j)表示来自udr的误差的花费。

(4)

应当注意,针对上述误差的值‘1.0’仅仅是代表性的,并且它可以采用任何大于零的数值。

LSKCost@(i,j)表示来自LSK的误差的花费。

(5)

应当注意,针对上述误差的值‘2.0’仅仅是代表性的,并且它可以采用任何大于零的数值。

参考图4,其中示出了涉及如何在比较过程(40)中应用上述等式(1)-(5)的示例。被存储音频文件之一的一部分根据一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)和持续时间轮廓(LSK)来表达。被存储音频文件之一的一部分以如下的矩阵形式来表达:

基准旋律:

RDUDRDUrudddudKLSSKRL

输入也根据一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)和持续时间轮廓(LSK)来表达。示例性输入用以下矩阵形式来表达:

输入旋律:RDURRUruddrdKKSLRS

应当注意,基准旋律有七个音符而输入旋律有六个音符。输入和基准旋律两者不必具有相等数目的音符。这种情况可以在如下情况中被证实:例如,用户哼唱了所存储音频文件中的歌曲的一部分,用户哼唱了变化了的歌曲(走调),或者比如当输入旋律由模数转换器转换时引入了误差。

参考图4,可以看出,基准旋律矩阵沿着距离表99的水平轴呈现而输入旋律矩阵沿着垂直轴呈现。距离表99的大小取决于基准旋律和输入旋律两者的音符数目。应当注意,在这最初的时刻(juncture)应当忽略距离表中的暗色方块。在后续的描述部分将提供对暗色方块的进一步说明。还应当注意,比较过程(40)可以由一组处理来支持,所述处理对输入和基准旋律进行调准(alignment)以使得正确地将输入旋律与基准旋律的有关部分相比较。可以由处理器/控制器来执行输入和基准旋律之间的调准。使用任何已知的例如枚举距离比较等比较方法来完成调准处理。

参考开始框100,由于根据旋律轮廓“RrK”,基准旋律的第一音符和输入旋律的第一音符是匹配的,因此框100的值为“0”。这意味着当UDR(如按照式子(3))、udr(如按照式子(4))和SLK(如按照式子(5))分别没有误差时,由于UDRCost@(i,j)、udrCost@(i,j)和LSKCost@(i,j)的每个等于0,因此Cost@(i,j)等于0(如按照式子(2))。由此,当没有更早的基准音符用于比较时,开始框100的值D为“0”,如按照式子(1)。

距离表的第一行102随后被填充。当由于输入旋律的第一音符与基准旋律的第二音符存在极大的不同,因此分别存在UDR、udr和SLK误差时,Cost@(i,j)=5(由于UDRCost@(i,j)、udrCost@(i,j)和LSKCost@(i,j)的每个分别等于“2”、“1”和“2”),因此表的行102中的第二框104具有值“5”。由此,框104的D=5。沿着行102的后续框根据每个应用等式(1)-(5)具有比沿着第一行102的前一框多5的值。

接下来,距离表的第一列106被填充。当由于输入旋律的第二音符与基准旋律的第一音符存在极大的不同,因此分别存在UDR、udr和SLK误差时,Cost@(i,j)=5(由于UDRCost@(i,j)、udrCost@(i,j)和LSKCost@(i,j)的每个分别等于“2”、“1”和“2”),因此表的列106中的第二框108具有值“5”。由此,框106的D=5。沿着列106的后续框根据每个应用等式(1)-(5)具有比沿着第一列106的前一框多5的值。

接下来斜对着开始框100的框110被填充。在这种情况下,输入旋律是“DuK”而基准旋律是“DuL”。因此,可以看出,存在LSK误差。LSKCost@(i,j)等于“2”,相应地,Cost@(i,j)=2,并且D=0+2=2。

距离表中的所有其它条目按照上述方式依序被计算。距离表99的每个框中的值不是随机生成的数字。距离表的每个框中的值是实际累加评分。

在计算了距离表99中的值以后,通过利用评分系统,表99中的值帮助判定输入旋律与基准旋律匹配的“接近”程度。“接近”评分是通过具有从开始框100到结束框112的值的最小和的连续路径而获得的。暗色方块表示具有从开始框100到结束框112的值的最小和的连续路径。这种情况下的“接近”评分为14。另一具有低于14的“接近”评分的基准旋律意味着其与输入旋律有更近的匹配,而又一具有高于14的评分的基准旋律意味着其与输入旋律具有更差的匹配。

参考图2,其中提供了用于访问包括存储在装置50中或者通过装置50可访问的多于一个音频文件的集合中的至少一个音频文件的装置50。装置50例如可以是车载音频系统、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器或移动电话。除了用作它们主要功能的组件之外,下面部分所描述的组件可以被并入上述不同形式的装置50中。

装置50可以包括数字存储设备58,用于存储组成文件集的音频文件。数字存储设备58可以是硬盘驱动或闪存形式的非易失性存储器。数字存储设备58可以具有至少数兆字节的容量。

另外,装置50还可以包括索引器56,用于生成包括从集合中的多于一个音频文件的每个所获取的信息条目的索引。该索引可以包括从存储在装置50的数字存储设备58、在功能上连接到装置50的任何设备或被连接的计算机网络中的音频文件集中的多于一个音频文件的每个获取的信息条目。集合中的每个音频文件可以被链接到索引中的至少一个信息条目。至少一个信息条目可以是使用对应于存储在音频文件中的一部分或全部内容的语义分割而确定的音符或波形。信息条目还可以是像文件元数据一样被链接/附接到音频文件的MIDI组件。信息条目还可以从被链接/附接到音频文件的预先记录的歌唱条目或被连接的计算机网络获取。在被连接的计算机网络上可以有在线数据库,其中,针对每个音频文件的音符或波形的信息条目是可下载的。信息条目可以包括每个音频文件的音频输出的一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)以及持续时间轮廓(LSK)。

用于在接收模式期间接收输入的输入接收装置64也可以被包括在装置50中。输入接收装置64可以是麦克风。该输入可以是歌唱、哼唱、口哨、MIDI信号或音符。在具体实例中,该输入不必是以完整形式存在的歌曲。一首歌曲的一部分足以作为该输入的可行形式。该输入可以被滤波。可以存在选择器来选择输入类型,或者对输入的检测可以是自动的。可以通过按下设在装置50上的激活按钮63至少一次来激活输入接收模式。歌唱输入进入输入接收装置64可以独立于扬声器。如果歌唱输入太响亮(以至于发生了输入失真)或太柔和(以至于听不见输入),则输入接收模式可以具有针对歌唱输入的自动音量校正。电子设备还可以通过基于索引中的音频文件条目,提供对最接近走调歌唱输入的音频文件的选择,来克服走调歌唱输入的问题。用户可以设置设备以显示达预定数目的最接近的近似音频文件,例如十个最接近的近似音频文件。索引可以包括针对每个音频文件的旋律轮廓信息。

输入接收装置64可以被耦合到将通过输入接收装置64的所有输入转换为数字信号的模数转换器62。转换器62可以是模拟-MIDI转换器。经转换的数字信号随后被输入到处理器60用于将数字信号解析为离散部分,其中,离散部分可以是音符或波形。处理器60可以使用频谱分析或旋律轮廓分析来进行数字信号处理。随后,处理器可以将信号的离散部分与由索引器56生成的索引中的条目相比较。当离散部分与索引中的至少一个信息条目相匹配时,音频文件由此可以被访问。离散部分和索引中的条目之间的精确近似或基本近似使得生成了一个以近似程度排序的音频文件列表。该列表可以显示出音频文件数目,这个数目可以由用户预定。装置50中的显示屏54允许清晰地显示文件列表用于由用户选择。近似程度可以基于根据音符或波形的相对接近度。

视觉受损者可以使用装置50来访问存储在其中的或者使用音调匹配通过装置50可访问的文件。虽然他们不能选择显示在显示屏54上的文件,但是他们可以仅仅使用歌唱输入来方便地访问已经从集合中提取出来的音频文件。

本发明的替换应用使用电子设备的歌唱接收模式判定并提高用户的歌唱能力。例如,如果用户在通过使用歌唱输入到电子设备中以寻找所需要的音频文件而反复失败时,则很大可能是用户的歌唱输入(技能)有缺陷。随后,根据找到所需音频文件的更高发生率,用户因此倾向于连续练习歌唱输入到电子设备中直至获得了提高。因此,还公开了一种用于方便地确定歌唱输入的质量水平的设备。

已经在前述描述中描述了本发明的优选实施例,但是,相关技术领域的技术人员应当理解,只要不脱离本发明,可以对设计或构造作出许多详细的改变或修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号