首页> 中国专利> 音响信号检测系统、音响信号检测服务器、影像信号搜索装置、影像信号搜索方法、影像信号搜索程序与记录介质、信号搜索装置、信号搜索方法、及信号搜索程序与记录介质

音响信号检测系统、音响信号检测服务器、影像信号搜索装置、影像信号搜索方法、影像信号搜索程序与记录介质、信号搜索装置、信号搜索方法、及信号搜索程序与记录介质

摘要

本发明的音响信号检测系统从存储音响信号中,搜索出类似于目的音响信号的部分,其中,具有:存储特征计算部,根据存储音响信号的时间系列数据,计算存储特征;目的特征计算部,根据目的音响信号的时间系列数据,计算目的特征;存储特征面积选择部,从存储特征中,选择存储特征的统计量超过阈值的要素,导出由选择的要素构成的存储面积选择特征;目的特征面积选择部,从目的特征中选择目的特征的统计量超过阈值的要素,导出由选择的要素构成的目的面积选择特征;以及特征对照部,对存储面积选择特征设定对照区间,计算目的和存储面积选择特征中对照区间的彼此之间的类似度。

著录项

  • 公开/公告号CN1898720A

    专利类型发明专利

  • 公开/公告日2007-01-17

    原文格式PDF

  • 申请/专利权人 日本电信电话株式会社;

    申请/专利号CN200580001355.1

  • 发明设计人 黑住隆行;永野秀尚;柏野邦夫;

    申请日2005-07-08

  • 分类号G10L15/10;G10L11/00;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人浦柏明

  • 地址 日本东京都

  • 入库时间 2023-12-17 18:08:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-01-25

    授权

    授权

  • 2007-03-14

    实质审查的生效

    实质审查的生效

  • 2007-01-17

    公开

    公开

说明书

                    技术领域

本发明涉及一种从存储的存储音响信号中搜索出长度比该存储音响信号短乃至与其相同的、与目的音响信号类似的信号的位置的信号检测,涉及例如用于实际环境中的音响信号检测的音响信号检测系统和音响信号检测服务器。

即,本发明由便携终端接收在实际环境中流动的音乐或CM(Commercial Message:商业广告),并使用该接收到的音响信号,从庞大的音乐CM数据库中检索相同的音乐或CM。

另外,本发明涉及一种影像信号搜索装置、影像信号搜索方法、影像信号搜索程序和记录介质,从存储在数据库中的影像信号(存储影像信号)中,搜索与包含在实际环境下取得的特征失真的影像信号(目的影像信号)类似的影像信号。

另外,本发明涉及一种信号搜索装置、信号搜索方法、信号搜索程序及记录介质,从存储在数据库中的信号(存储信号)中,搜索包含与在实际环境下取得的特征失真的信号(目的信号)类似的信号。

本申请对2004年7月9日申请的特愿2004-203198号主张优先权,这里援引其内容。

本申请对2004年7月9日申请的特愿2004-203199号主张优先权,这里援引其内容。

本申请对2005年3月17日申请的特愿2005-077726号主张优先权,这里援引其内容。

本申请对2005年3月22日申请的特愿2005-082107号主张优先权,这里援引其内容。

本申请对2005年3月24日申请的特愿2005-086280号主张优先权,这里援引其内容。

                        背景技术

近年来,声音或影像等多媒体信息的流通日益盛行,需要用于得到该多媒体信息的检索或搜索。

例如,考虑由便携终端等接收在实际环境中流动的音乐和影像或CM,使用该接收到的信号(目的音响信号或目的影像信号),从庞大的数据库中检索相同的音乐或影像、CM。

因此,需要具体地将想搜索的声音或影像信号指定为目的音响信号或目的影像信号,搜索与此类似的存储音响信号或存储影像信号存在于数据库的何处。

作为时间系列信号的高速一致法,例如公开有日本专利第3065314号。这里执行的搜索是时间系列搜索,必需高速且高精度地执行。

但是,考虑在用户在实际环境中收录获得的音乐或影像中,包含各种特性失真,例如基于扬声器或屏幕等信号发生源的设备特性、输入的便携终端的特性的乘法性失真,或基于实际环境中的要素(若为声音,则为噪音、回声、吸收等,若为影像,则为大气透明度、亮度角度不稳定、反射等)的加法性噪音。针对于此,基于日本专利第3065314号公报的方法是以构成检索对象的信号中特征失真少为前提,在包含噪音或失真的情况下,其搜索精度显著下降。

为了解决该缺陷,提出有如下方法,即通过设置对输入的信号附加变动的变动附加过程,执行对特征失真稳固的信号检测(例如参照日本专利第3408800号公报)。但是,在设置上述变动附加过程时,在需要考虑多个噪音或失真的情况下,必须准备这多个目的特征,存在信息量大幅度增大的缺陷。

另外,提出有如下方法,即检测输入的音乐或影像的目的信号的强度峰值,将该峰值的频率设为特征,由此进行对噪音或失真稳固的信号检测。

但是,该方法中存在如下缺陷,即由于使用输入的信号的峰值,所以受到位于该实际信号峰值周边的大的噪音的影响,从而实际的信号峰值检测失败,搜索精度下降。

因此,提出有通过使用局部特征的统计量来规格化输入的声音或影像的目的信号由此进行对失真稳固的信号检测的方法(例如参照日本专利特开2003-022084号公报,或尤其就音响信号而言,参照WO02/11123 A2号公报)。即,该信号检测的方法由于吸收特征失真引起的声音或影像的目的信号的变动,所以在抽取频率特征之后,对时间-频率空间上的每个局部区域,都规格化目的信号,执行对特征失真稳固的向空间的数据变换,在该空间中执行声音或影像与存储音响信号的比较。

但是,就执行对上述特征失真稳固的向空间的数据变换的方法而言,对于噪音或间歇、不稳定的失真,仅通过规格化无法吸收其特征失真,存在使搜索的可靠性下降的缺陷。

                    发明内容

本发明鉴于上述问题作出,其目的在于将作为检索对象的声音或影像的信号(目的信号:目的音响信号和目的影像信号)变换为对加法性噪音或间歇稳固的数据后,使搜索精度提高,并且使搜索时间大幅度缩短。

另外,目的在于提供一种系统,对于包含乘法性失真的信号,通过将其变换为稳固的数据,提高搜索精度,并可执行高速高精度的处理。

另外,目的在于提供一种信号搜索装置、信号搜索方法、信号搜索程序及记录介质,通过在线性量化后应用提高量化后的值的可靠性的量化单元,可使整体的搜索精度提高。

为了实现上述目的,本发明的音响信号检测系统从存储音响信号中,搜索出长度比该存储音响信号短乃至与其相同的、类似于目的音响信号的部分,其特征在于,具有:存储特征计算部,根据所述存储音响信号的时间系列数据,计算由特征矢量构成的存储特征;目的特征计算部,根据所述目的音响信号的时间系列数据,计算由特征矢量构成的目的特征;存储特征面积(area)选择部,根据所述存储特征,计算规定的统计量,从该存储特征中,选择其统计量超过规定阈值的要素,导出由该选择到的要素的矢量构成的存储面积选择特征;目的特征面积选择部,根据所述目的特征,计算规定的统计量,从该目的特征中,选择其统计量超过规定阈值的要素,导出由该选择到的要素的矢量构成的目的面积选择特征;以及特征对照部,在所述存储面积选择特征中,设定对照区间,计算所述目的面积选择特征和所述存储面积选择特征中的该对照区间的彼此之间的类似度,所述特征对照部对于所述存储面积选择特征,使对照区间依次移动并重复执行,根据所述类似度,搜索与目的面积选择特征类似的存储面积选择特征的区域。

尤其是,与“高速信号检测法、装置及其记录介质”(日本专利第3065314号公报)和“信号检测方法、装置及其程序、记录介质”(日本专利第3408800号公报)相比,由于新设置存储特征面积选择部和目的特征面积选择部,选择特征矢量的有特别特征的要素,仅比较该选择到的要素,所以对于噪音、间歇,可执行比日本专利第3065314号公报和2更稳固的音响信号检测。

另外,对于“信号检测方法和装置、程序及记录介质”(日本专利特开2003-022084号公报)的规格化并单纯比较判定目的信号和存储信号的方法,由于新设置存储特征面积选择部和目的特征面积选择部,选择特征矢量的有特别特征的要素,仅比较该选择到的要素,所以对于噪音、间歇,可执行比上述方法更稳固的音响信号检测。

并且,与“System and methods for recognizing sound and musicsignal in high noise and distortion”(WO 02/11123 A2号公报)相比,由于新设置存储特征面积选择部和目的特征面积选择部,选择特征矢量的有特别特征的要素,仅比较该选择到的要素,所以对于噪音、间歇,可执行比上述方法更稳固的音响信号检测。

根据本发明,由于去除噪音或间歇的影响,所以从存储音响信号和目的音响信号中,在统计上仅选择特征要素,进行对照。通过使用由该选择到的要素构成的多维矢量,可比较存储音响信号与目的音响信号的更有特征的图案,算出它们的类似度,不执行无用部分的比较处理,所以可使重叠于目的音响信号上的噪音或音响间歇的影响大幅度降低,可执行稳固的音响信号检测。

另外,实际上通过从由存储音响信号和目的音响信号获得的存储特征和目的特征中,统计评价抽取由更有特征的要素构成的存储面积选择特征和目的面积选择特征,可大幅度降低对照的数据量,使类似度的计算处理高速化,并且可大幅度削减存储的存储音响信号每一件的数据量,在与以前一样的存储部容量中,可存储更多的存储音响信号信息,就这点而言,也可使类似的存储音响信号的检测精度提高。

另外,为了实现上述目的,本发明的音响信号检测系统是一种信号检测系统,从存储音响信号中,搜索出长度比该存储音响信号短乃至与其相同的、类似于目的音响信号的部分,其特征在于,具有:存储特征计算部,根据所述存储音响信号的时间系列数据,计算由特征矢量构成的存储特征;目的特征计算部,根据所述目的音响信号的时间系列数据,计算由特征矢量构成的目的特征;存储特征规格化部,根据所述存储特征、以及该存储特征的采样时间附近的其它存储特征,计算规定的统计量,对存储特征中的矢量的每个要素进行规格化,导出由将该规格化得到的数值设为要素的矢量构成的存储规格化特征;目的特征规格化部,根据所述目的特征、以及该目的特征的采样时间附近的其它目的特征,计算规定的统计量,对目的特征中的矢量的每个要素进行规格化,导出由将该规格化得到的数值设为要素的矢量构成的目的规格化特征;存储特征量化部,根据所述存储规格化特征,导出由将量化得到的值设为要素的矢量构成的存储量化特征;目的特征量化部,根据所述目的规格化特征,导出由将量化得到的值设为要素的矢量构成的目的量化特征;以及特征对照部,在所述存储量化特征中,设定对照区间,计算所述目的量化特征和所述存储量化特征中的该对照区间的彼此之间的类似度,所述特征对照部对于所述存储量化特征,使对照区间依次移动并重复执行,根据所述类似度,搜索与目的量化特征类似的存储量化特征的区域。

尤其是,与“高速信号检测法、装置及其记录介质”(日本专利第3065314号公报)和“信号检测方法、装置及其程序、记录介质”(日本专利第3408800号公报)相比,由于新设置目的特征规格化部、存储特征规格化部、目的特征量化部和存储特征量化部,在规格化之后,利用规定的阈值量化特征矢量的各要素,由此对于间歇,可执行比日本专利第3065314号公报和2更稳固的音响信号检测。

另外,除了“信号检测方法和装置、程序及记录介质”(日本专利特开2003-022084号公报)的规格化并单纯比较判定目的信号和存储信号的方法,还新设置目的特征量化部和存储特征量化部,通过量化特征矢量的各要素,可对特征失真执行比上述方法更稳固的音响信号检测。

并且,与“System and methods for recognizing sound and musicsignal in high noise and distortion”(WO 02/11123 A2号公报)相比,通过新设置目的特征规格化过程和存储特征规格化过程,规格化特征,可对特征失真执行比上述方法更稳固的音响信号检测。

根据本发明,由于吸收特征失真,所以通过设置利用规定阈值来标量量化音响信号的量化部(过程),可大幅度降低比较的数据量,使类似度的计算处理高速化,并且可大幅度削减存储的存储音响信号每一件的数据量,利用与以前一样的存储部容量,可存储更多的存储音响信号信息,就这点而言,也可使类似的存储音响信号的检测精度提高。

另外,根据本发明,通过设置上述量化部(过程),不是每个要素的数据的详细比较判定,而是将对照区间中的特征矢量作为整体图案进行检索,所以可使搜索精度提高,防止漏检,与公知的方法相比,可执行对各种各样的特征失真稳固的信号检测处理,执行对较通用的特征失真稳固的音响信号检测。

并且,为了解决上述问题,本发明是一种影像信号搜索装置,从存储影像信号中,搜索类似于目的影像信号的信号,其特征在于,具有:目的特征计算单元,根据目的影像信号,计算目的特征;目的统计量计算单元,根据目的特征,计算目的统计量;目的特征面积选择单元,对目的统计量,利用规定阈值,进行阈值处理,选择目的统计量,并算出目的面积选择特征,该目的面积选择特征由将选择到的目的统计量设为要素的矢量或矩阵构成;存储统计量计算单元,根据存储特征,计算规定的存储统计量;以及存储特征面积选择单元,对存储统计量,利用规定阈值,进行阈值处理,选择存储统计量,并算出存储面积选择特征,该存储面积选择特征由将选择到的存储统计量设为要素的矢量或矩阵构成;以及特征对照单元,对存储面积选择特征设定对照区间,计算对照区间中的存储面积选择特征与目的面积选择特征的至少一部分的类似度,特征对照单元使对照区间依次移动并重复执行,计算出类似度。

本发明就上述所述的发明而言,其特征在于:所述目的特征面积选择部和所述存储特征面积选择部分别算出目的特征和存储特征在第1规定时间区间中的平均值以作为统计量,选择从所述要素中减去该平均值后的值的绝对值超过规定阈值的目的统计量和存储统计量。

本发明就上述所述的发明而言,其特征在于:所述目的特征量算出单元和所述存储统计量计算单元分别对目的特征和存储特征的每个要素算出在第2规定时间区间中的平均值与标准偏差,并使用该平均值与标准偏差,规格化目的特征和存储特征,由此算出目的统计量和存储统计量。

另外,本发明是一种影像信号搜索方法,从存储影像信号中搜索类似于目的影像信号的信号,其特征在于,具有:目的特征计算步骤,根据目的影像信号,计算目的特征;目的统计量计算步骤,根据目的特征,计算目的统计量;目的特征面积选择步骤,对目的统计量,利用规定阈值,进行阈值处理,选择目的统计量,并算出目的面积选择特征,该目的面积选择特征由将选择到的目的统计量设为要素的矢量或矩阵构成;存储统计量计算步骤,根据存储特征,计算规定的存储统计量;以及存储特征面积选择步骤,对存储统计量,利用规定阈值,进行阈值处理,选择存储统计量,并算出存储面积选择特征,该存储面积选择特征由将选择到的存储统计量设为要素的矢量或矩阵构成;以及特征对照步骤,对存储面积选择特征设定对照区间,计算对照区间中的存储面积选择特征与目的面积选择特征的至少一部分的类似度,特征对照步骤使对照区间依次移动并重复执行,计算出类似度。

另外,本发明是一种影像信号搜索程序,使计算机用作上述发明之一所述的影像信号搜索装置。

另外,本发明是一种记录上述发明的计算机程序的计算机可读取的记录介质。

根据本发明,由于去除反射或间歇的影响,所以从存储影像信号和目的影像信号中,在统计上仅选择特征要素,进行对照。通过使用由该选择到的要素构成的多维矢量,可比较存储影像信号与目的影像信号的更有特征的图案,算出它们的类似度,不执行无用部分的比较处理,所以可使重叠于目的影像信号上的反射或影像的间歇的影响大幅度降低,可执行对噪音稳固的影像信号检测。

另外,通过从由存储影像信号和目的影像信号得到的存储特征和目的特征中,统计评价抽取由更有特征的要素构成的存储面积选择特征和目的面积选择特征,可大幅度降低对照的数据量,使类似度的计算处理高速化,并且可大幅度削减存储的存储影像信号每一件的数据量,在与以前一样的存储容量部中,可存储更多的存储影像信号信息。

即,通过设置存储特征面积选择部与目的特征选择部,可避开包含于目的影像中的、物体因反射而映射的部位、或捕获失败后间歇的部位,执行目的影像信号与存储影像信号的特征量彼此的对照。由此,与不执行面积选择地对照的情况相比,相对的类似度上升,可提高搜索精度。

并且,为了解决上述问题,本发明是一种影像信号搜索装置,从存储影像信号中,搜索类似于目的影像信号的信号,其特征在于,具有:目的特征计算单元,根据目的影像信号,计算目的特征;目的统计量计算单元,根据目的特征,计算目的统计量;目的特征规格化单元,使用目的统计量与目的特征,算出目的规格化特征的要素;目的量化单元,使用规定阈值,量化目的规格化特征的要素,求出目的量化特征的要素,生成目的矢量;存储统计量计算单元,根据存储特征,计算存储统计量;存储特征规格化单元,使用存储统计量与存储特征,算出存储规格化特征的要素;存储量化单元,使用规定阈值,量化存储规格化特征的要素,求出存储量化特征的要素,生成存储矢量;以及特征对照单元,对存储矢量设定对照区间,计算对照区间中存储矢量的要素与目的矢量的至少一部分要素的类似度,特征对照单元使对照区间依次移动并重复执行,计算出类似度。

另外,本发明是一种影像信号搜索方法,从存储影像信号中,搜索类似于目的影像信号的信号,其特征在于,具有:目的特征计算步骤,根据目的影像信号,计算目的特征;目的统计量计算步骤,根据目的特征,计算目的统计量;目的特征规格化步骤,使用目的统计量与目的特征,算出目的规格化特征的要素;目的量化步骤,使用规定阈值,量化目的规格化特征的要素,求出目的量化特征的要素,生成目的矢量;存储统计量计算步骤,根据存储特征,计算存储统计量;存储特征规格化步骤,使用存储统计量与存储特征,算出存储规格化特征的要素;存储量化步骤,使用规定阈值,量化存储规格化特征的要素,求出存储量化特征的要素,生成存储矢量;以及特征对照步骤,对存储矢量设定对照区间,计算对照区间中存储矢量的要素与目的矢量的至少一部分要素的类似度,特征对照步骤使对照区间依次移动并重复执行,计算出类似度。

另外,本发明是一种影像信号搜索程序,使计算机用作上述影像信号搜索装置。

另外,本发明是一种记录上述影像信号程序的计算机可读取的记录介质。

根据本发明,由于吸收特征失真,所以通过设置利用规定阈值来标量量化影像信号的量化部,可大幅度降低比较的数据量,使类似度的运算处理高速化,并且可大幅度削减存储的存储影像信号每一件的数据量,利用与以前一样的存储部容量,可存储更多的存储影像信号,就这点而言,也可使类似的存储影像信号的检测精度提高。

另外,根据本发明,通过设置量化部,不是各要素的数据的详细比较判定,而是将对照区间中的特征矢量作为整体图案进行检索,所以可使搜索精度提高,防止漏检,与公知的方法相比,可执行对各种各样的特征失真稳固的信号检测处理,执行对较通用的特征失真稳固的影像信号检测。

并且,为了解决上述问题,本发明是一种信号搜索装置,从存储信号中搜索类似于目的信号的信号,其特征在于,具有:目的特征计算单元,根据目的信号,计算目的特征;目的统计量计算单元,根据目的特征,计算目的统计量;目的特征规格化单元,使用目的统计量与目的特征,算出目的规格化特征的要素;目的面积选择非线性量化单元,输入目的规格化特征的要素,求出被选择的目的非线性量化特征的要素,生成目的矢量;存储统计量计算单元,根据存储特征,计算存储统计量;存储特征规格化单元,使用存储统计量与存储特征,算出存储规格化特征的要素;存储面积选择非线性量化单元,将存储规格化特征的要素设为输入,求出被选择的存储非线性量化特征的要素,生成存储矢量;以及特征对照单元,对存储矢量设定对照区间,计算对照区间中存储矢量的要素与目的矢量的至少一部分要素的类似度,特征对照单元使对照区间依次移动并重复执行,计算出类似度。

本发明就上述所述的发明而言,其特征在于:目的面积选择非线性量化单元和存储面积选择非线性量化单元对多维矢量进行芙诺以(Voronoi)分割,非线性量化与特征矢量所属的芙诺以边界面的距离。

本发明就上述所述的发明而言,其特征在于:目的面积选择非线性量化单元由目的特征面积选择单元与非线性量化特征矢量的目的特征非线性量化单元构成,所述目的特征面积选择单元选择统计量超过规定阈值的要素,导出由选择到的要素的多维矢量构成的目的面积选择特征。

本发明就上述所述的发明而言,其特征在于:存储面积选择量化单元由存储特征面积选择单元与非线性量化特征矢量的存储特征非线性量化单元构成,所述存储特征面积选择单元选择统计量超过规定阈值的要素,导出由选择到的要素的多维矢量构成的存储面积选择特征。

本发明是一种信号搜索方法,从存储信号中搜索类似于目的信号的信号,其特征在于,具有:目的特征计算步骤,根据目的信号,计算目的特征;目的统计量计算步骤,根据目的特征,计算目的统计量;目的特征规格化步骤,使用目的统计量与目的特征,算出目的规格化特征的要素;目的面积选择非线性量化步骤,输入目的规格化特征的要素,求出被选择的目的非线性量化特征的要素,生成目的矢量;存储统计量计算步骤,根据存储特征,计算存储统计量;存储特征规格化步骤,使用存储统计量与存储特征,算出存储规格化特征的要素;存储面积选择非线性量化步骤,将存储规格化特征的要素设为输入,求出被选择的存储非线性量化特征的要素,生成存储矢量;以及特征对照步骤,对存储矢量设定对照区间,计算对照区间中存储矢量的要素与目的矢量的至少一部分要素的类似度,特征对照步骤使对照区间依次移动并重复执行,计算出类似度。

另外,本发明是一种信号搜索程序,使计算机用作上述信号搜索装置。

另外,本发明是一种记录上述信号搜索程序的计算机可读取的记录介质。

另外,根据本发明,由于去除噪音或失真的影响,所以从存储信号和目的信号中,在统计上仅抽取特征的要素,进行对照。通过使用由该抽取到的要素构成的多维矢量,可执行识别存储信号与目的信号的更有特征的图案的类似度计算,进而通过将非线性量化适用于利用统计处理算出的统计量中,使量化后的值的可靠性提高,可边降低重叠于目的信号上的噪音或失真的影响,边执行高精度的信号检测。

另外,统计地评价抽取由更有特征的要素构成的存储面积选择特征和目的面积选择特征,进而非线性量化存储面积选择特征和目的面积选择特征。由此,可大幅度降低对照的数据量,使类似度的计算处理高速化,并且可大幅度削减存储的存储信号每一件的数据量。即,在与以前一样的存储容量部中,可存储更多的存储信号信息,就这点而言,也可使类似的存储信号的检测精度提高。

                    附图说明

图1是表示本发明一实施例的音响信号检测系统的构成例的框图。

图2是表示图1的音响信号检测系统的动作例的流程图。

图3是表示本发明一实施例的音响信号检测系统的构成例的框图。

图4是表示图3的音响信号检测系统的动作例的流程图。

图5是表示本发明一实施例的影像信号搜索系统的构成例的框图。

图6是用于说明本发明一实施例的影像信号搜索系统中的阈值设定的图表。

图7是用于说明本发明一实施例的影像信号搜索系统中的阈值设定的图表。

图8是表示图5的影像信号搜索系统的动作例的流程图。

图9是本发明一实施例的影像信号搜索系统中的子画面的说明图。

图10是本发明一实施例的影像信号搜索系统中局部时间与帧的关系的说明图。

图11是表示本发明一实施方式的影像信号搜索系统的构成例的框图。

图12是表示图11的影像信号搜索系统的动作例的流程图。

图13是本发明一实施方式的影像信号搜索系统中时间窗与帧的关系的说明图。

图14是本发明一实施方式的影像信号搜索系统中的子画面的说明图。

图15是表示本发明一实施方式的信号搜索系统的构成例的框图。

图16是用于说明本发明一实施例的信号搜索系统中的阈值设定的图表。

图17是用于说明本发明一实施例的信号搜索系统中的阈值设定的图表。

图18是表示图15的信号搜索系统的一例动作的流程图。

图19是本发明一实施方式的信号搜索系统中时间窗与帧的关系的说明图。

图20是本发明一实施方式的信号搜索系统中的子画面的说明图。

图21是本发明一实施方式的非线性量化的说明图。

图22是表示图15的信号搜索系统的动作例的另一例的流程图。

符号说明

11  目的特征计算部

12  存储特征计算部

13  目的特征规格化部

14  存储特征规格化部

15  目的特征面积选择部

16  存储特征面积选择部

17  特征对照部

18  存储面积选择特征数据库

21  目的特征计算部

22  存储特征计算部

23  目的特征规格化部

24  存储特征规格化部

25  目的特征量化部

26  存储特征量化部

27  特征对照部

28  存储量化特征数据库

31  目的特征计算部

32  存储特征计算部

33  目的特征规格化部

34  存储特征规格化部

35  目的特征面积选择部

36  存储特征面积选择部

37  特征对照部

38  存储面积选择特征数据库

41  目的特征计算部

42  存储特征计算部

43  目的特征规格化部

44  存储特征规格化部

45  目的特征量化部

46  存储特征量化部

47  特征对照部

48  存储量化特征数据库

51  目的特征计算部

52  存储特征计算部

53  目的特征规格化部

54  存储特征规格化部

55  目的特征面积选择部

56  存储特征面积选择部

57  目的特征非线性量化部

58  存储特征非线性量化部

59  特征对照部

510 存储非线性量化特征数据库

                    具体实施方式

下面,参照附图来说明本发明的最佳实施例。但是,本发明不限于以下的各实施例,例如也可适当组合这些实施例的构成要素彼此。

<第1实施方式>

图1表示本发明的第1实施方式,是表示将音响信号设为对象的对特征失真稳固的音响信号检测系统的构成框图。

图1所示的音响信号检测系统实现将音响信号设为对象的对特征失真稳固的信号检测,包括:目的特征计算部11、存储特征计算部12、目的特征规格化部13、存储特征规格化部14、目的特征面积选择部15、存储特征面积选择部16、特征对照部17、以及存储面积选择特征数据库18,输入存储时间系列信号(存储音响信号)即想检索的音响信号、以及目的时间系列信号(目的音响信号)即检索的音响信号,输出与目的时间系列信号类似的存储时间系列信号中的部位。

目的特征计算部11从按规定间隔以时间系列采样目的音响信号得到的、作为离散值的目的时间系列信号中,例如以采样单位抽取每个频率的功率谱值等,多维矢量化该抽取出的特征量,得到特征矢量,导出由该特征矢量构成的目的特征。

存储特征计算部12也一样,从按规定间隔以时间系列采样存储音响信号得到的、作为离散值的存储时间系列信号中,例如以采样单位抽取每个频率的功率谱值等,多维矢量化该抽取出的特征量,得到特征矢量,导出由该特征矢量构成的存储特征。

目的特征规格化部13根据上述目的特征,使用从还包含邻接部分的周边目的特征导出的统计量,对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的多维矢量的目的规格化特征。

存储特征规格化部14根据上述存储特征,使用从还包含邻接部分的周边存储特征导出的统计量,对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的多维矢量的存储规格化特征。

目的特征面积选择部15根据上述目的规格化特征,计算规定的统计量,从该目的规格化特征中,选择其统计量超过规定阈值的要素,导出由该被选择的要素的多维矢量构成的目的面积选择特征。

存储特征面积选择部16根据上述存储规格化特征,计算规定的统计量,从该存储规格化特征中,选择其统计量超过规定阈值的要素,导出由该被选择的要素的多维矢量构成的存储面积选择特征。

例如,各面积选择部可求出所述规格化中的存储特征和目的特征与“0”和“1”的边界面的差分,作为统计量,将其与阈值相比较,由此分别导出面积特征。此时,考虑该阈值为最大差分值的7/10或8/10的数值。

在各频带下,由于将功率谱变动大的要素设为特征要素,所以如上所述,选择具有较大值的要素,作为特征图案。

此时,也可设置每个要素的下限值,进行控制,使阈值缓慢降低,直到选择超过该下限值(1或多个)的要素为止。

另外,目的特征面积选择部15也可对上述目的特征求出排列中的规定范围的特征矢量的各要素的平均值(每个频带下的平均值),从该目的规格化特征中,选择各要素除以该平均值后的结果的绝对值超过规定阈值的要素,并导出由该被选择的要素的多维矢量构成的目的面积选择特征。

同样,存储特征面积选择部16也可对上述存储特征求出排列中的规定范围的特征矢量的各要素的平均值(每个频带下的平均值),从该存储面积特征中,选择各要素除以该平均值后的结果的绝对值超过规定阈值的要素,并导出由该被选择的要素的多维矢量构成的存储面积选择特征。

利用上述方法,各面积选择部计算存储特征或目的特征与平均值的差分值,作为统计量,通过将其与阈值相比较,分别导出面积选择特征,此时,考虑该阈值为最大差分值的7/10或8/10的数值。

在各频带下,由于将功率谱变动大的要素设为特征要素,所以如上所述,选择具有大值的要素,作为特征图案。

此时,也可设置要素的下限值,进行控制使阈值缓慢降低,直到选择超过该下限值的要素为止。

并且,目的特征面积选择部15也可输入上述目的特征和目的规格化特征,求出该目的特征排列中的规定范围(一定区段)的特征矢量的每个要素的标准偏差(每个频带下的标准偏差),然后,对目的规格化特征的对应排列位置的特征矢量的每个要素,乘以上述标准偏差,计算乘法结果的绝对值,作为统计量,从目的规格化特征中,选择该统计量中最上位或从最上位起的多个(例如2个)统计量,导出作为特征图案的、被选择的要素的多维矢量所构成的目的面积选择特征。

同样,存储特征面积选择部16也可输入上述存储特征和存储面积选择特征,求出该存储特征排列中的规定范围(一定区段)的特征矢量的每个要素的标准偏差(每个频带下的标准偏差),然后,对存储规格化特征的对应排列位置的特征矢量的每个要素,乘以上述标准偏差,计算乘法结果的绝对值,作为统计量,从存储规格化特征中,选择该统计量中最上位或从最上位起的多个(例如2个)统计量,导出作为特征图案的、被选择的要素的多维矢量所构成的存储面积选择特征。

该目的面积选择特征和存储面积选择特征分别按时间系列采样的顺序,依次排列各采样中的特征矢量。目的面积选择特征的排列数(排列长度)比存储面积选择特征的短,或相等。

特征对照部17对上述存储面积选择特征中按时间系列排列的特征矢量,设定该排列的规定范围,作为对照区间,将长度与该对照区间相同的被对照区间设定为目的面积选择特征,计算上述对照区间与被对照区间的类似度,与事先设定的搜索阈值相比较,判定是否类似。

另外,特征对照部17在上述对照区间的对照处理结束时,由于设定新的对照区间,所以移向排列邻接的相同时间宽度范围。

存储面积选择特征数据库18对多个、例如很好配送的歌曲,利用存储特征计算部12、存储特征规格化部14和存储特征面积选择部16,事先计算存储面积选择特征,对应于各歌曲名来存储。

下面,参照附图来说明本实施例的音响信号检测系统的动作。图2是表示图1的音响信号检测系统的动作例的流程图。

存储特征计算部12读入提供的存储音响信号并进行输入(步骤S1),对输入的存储音响信号执行特征抽取。

此时,存储特征计算部12使用音响信号的傅立叶变换的振幅分量,抽取(傅立叶变换例如以频率8000Hz标本化的音响信号的1秒区间,将0-4000Hz等间隔分割为32个频带的区间,以每0.1秒排列)各区间内的振幅分量的平均功率构成的32维多维矢量,作为特征矢量,设为存储特征(步骤S2)。

然后,存储特征规格化部14从存储特征计算部12读入存储特征,对该存储特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。

例如,存储特征规格化部14根据每个频带(要素)下某个时间区间的值,求出平均值与标准偏差,使用求出的平均值与标准偏差,进行规格化。

此时,存储特征规格化部14规格化后的频率特征y(i)的第k个要素如下式(1)所示。

(公式1)

>>y>>(>i>,>k>)>>=>>1>>σ>>(>i>,>k>)>>>>>(>x>>(>i>,>k>)>>->m>>(>i>,>k>)>>)>>->->->>(>1>)>>>s>

其中,式(1)中,m(i,k)为平均值,由下式(2)求出,σ(i,k)为标准偏差,由下式(3)求出。

(公式2)

>>m>>(>i>,>k>)>>=>>1>>2>M>>>>Σ>>i>=>->M>>>M>->1>>>x>>(>i>,>k>)>>->->->>(>2>)>>>s>

(公式3)

>>σ>>>(>i>,>k>)>>2>>=>>1>>2>M>>>>Σ>>i>=>->M>>>M>->1>>>>>(>x>>(>i>,>k>)>>->m>>(>i>,>k>)>>)>>2>>->->->>(>3>)>>>s>

式(2)和式(3)中,M是用于求出局部时间内的频率特征的平均值和标准偏差的时间窗一半大小的数值。

然后,将由式(1)-(3)得到的多维矢量的时间系列的排列(由k表示的顺序)设为存储规格化特征(步骤S3)。

接着,存储特征面积选择部16从存储特征计算部12读入存储特征并进行输入,或从存储特征规格化部14读入存储规格化特征并进行输入,用上述式(2)和(3),对各要素(频带的功率谱构成的特征矢量)排列的一定区段,求出存储特征的多维矢量的每个要素的标准偏差σ(i,k)。

然后,存储特征面积选择部16如下式(5)所示,对每个要素y(i,k)乘以上述标准偏差σ(i,k),取其绝对值。

(公式4)

z(i,k)=|y(i,k)·σ(i,k)|                       …(4)

这里,存储特征面积选择部16从得到的各要素与标准偏差的乘法结果的统计量z(i,k)中,以规定区间单位对每个要素选择从最上位起的多个矢量、例如上位2个矢量。

然后,存储特征面积选择部16对于上述一定区段,输出从存储规格化特征中对每个要素选择的要素的矢量构成的多维矢量,作为存储面积选择特征(步骤S4)。

此时,存储特征面积选择部16执行将由计算得出的存储面积选择特征直接发送给特征对照部17、或暂时登录到存储面积选择特征数据库18之一的处理。

在特征对照部17实时比较存储面积选择特征与目的面积选择特征的情况下,存储特征面积选择部16向特征对照部17输出输入的存储音响信号的存储面积选择特征,向存储面积选择特征数据库18登录存储音响信号的数据,此时,存储特征面积选择部16不向特征对照部17发送存储面积选择特征,而与歌曲名对应地向存储面积选择特征数据库18登录存储面积选择特征。

目的特征计算部11读入提供的目的音响信号并进行输入(步骤S5),对输入的目的音响信号执行特征抽取。

此时,目的特征计算部11与存储特征计算部12一样,使用音响信号的傅立叶变换的振幅分量,抽取(傅立叶变换例如以频率8000Hz标本化的音响信号的1秒区间,将0-4000Hz等间隔分割为32个频带的区间(特征矢量的要素),以每0.1秒排列)各区间内的振幅分量的平均功率构成的32维多维矢量,作为特征矢量,设为目的特征(步骤S6)。

然后,目的特征规格化部13从目的特征计算部11读入目的特征,对该目的特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。

即,目的特征规格化部13与存储特征规格化部14一样,将由式(1)-(3)得到的多维矢量的时间系列的排列(由k表示的顺序)设为目的规格化特征(步骤S7)。

接着,目的特征面积选择部15从目的特征计算部11读入目的特征并进行输入,或从目的特征规格化部13读入目的规格化特征并进行输入,与存储特征面积选择部16一样,对每个要素乘以根据目的特征的一定区段求出的标准偏差σ(i,k),将乘法结果设为统计量。

然后,目的特征面积选择部15对每个要素的排列,从上述统计量中,按数值从大到小的顺序,选择上位的2个要素,输出从目的规格化特征中对每个要素选择的要素的矢量构成的多维矢量,作为目的面积选择特征(步骤S8)。

然后,特征对照部17分别读入由目的特征面积选择部15和存储特征面积选择部16得到的目的面积选择特征和存储面积选择特征。

另外,特征对照部17在同时输入目的音响信号和存储音响信号、实时判定类似的情况以外,从存储面积选择特征数据库18中依次读出进行比较的存储面积选择特征,与目的面积选择特征进行比较。

此时,特征对照部17对于存储面积选择特征,将长度与由目的特征面积选择部15提供的目的面积选择特征相同的特征矢量的排列设定为对照区间。

即,特征对照部17将由多个上述一定区段构成的目的面积选择特征设为对照区间,对于存储面积选择特征,使与目的面积选择特征相同的一定区段数构成的排列长度对应,作为相对目的面积选择特征的对照区间,依次利用类似度来比较两个对照区间。

然后,特征对照部17用下式(5)来计算目的面积选择特征与存储面积选择特征中对照区间与比较部位的类似度。

即,特征对照部17计算目的面积选择特征中的要素yq(i,k)和存储面积选择特征的对照区间中的要素ys(i,k)的一致部位的欧几里德距离、与向非一致部位的数量乘以规定常数a的值的和,输出该和,作为类似度(步骤S9)

(公式5)

>>S>=>>Σ>>k>=>q>∩>s> >>>(>>y>q>>>(>i>,>k>)>>->>y>s>>>(>i>+>j>,>k>)>>)>>2>>+>a>>(>max>>(>|>q>|>,>|>s>|>)>>->|>q>∩>s>|>)>>->->->>(>5>)>>>s>

其中,q、s表示目的特征和存储特征的面积选择部位,x∩y表示x与y的共同部位,|x|表示面积选择部位x的要素数量,max(x,y)表示x与y中大的一方的数量。

这里,例如特征对照部17在设目的面积选择特征为15秒长度时,从该目的面积选择特征的特征矢量排列中,以0.1秒间隔抽取共计150部位的作为排列要素的特征矢量,对各采样,将频带分割成32份,所以根据由这些矢量构成的150×32的4800维,对每个频带使用功率谱的上位2个(目的特征面积选择部15抽取),将64个要素构成的多维矢量设为用于对照的目的矢量。

另外,与上述目的矢量一样,特征对照部17从存储面积选择特征的数据开头起,15秒长度为单位,依次设定为对照区间,从特征矢量的排列中,以0.1秒为间隔抽取共计150部位的特征矢量,对各采样,将频带分割成32份,所以根据由这些矢量构成的150×32的4800维,对每个频带使用功率谱的上位2个(存储特征面积选择部16抽取),将64个要素构成的多维矢量设为用于对照的存储矢量。

接着,特征对照部17边从存储面积选择特征的开头依次偏移对照区间,边使用与目的面积选择特征的即式(5),计算上述目的矢量与存储矢量的类似度,与事先设定的搜索阈值进行比较处理(步骤S10)。

在对照处理目的面积选择特征与存储面积选择特征直到存储面积选择特征的最后之后,输出每个对照区间的类似度比事先设定的搜索阈值低的、存储面积选择特征的对照区间的区域,作为搜索结果(步骤S11)。

另外,特征对照部17也可输出比较的结果中、类似度明显低的存储面积选择特征的对照区间的区域,作为搜索结果。

另外,特征对照部17也可在多个对照区间的类似度低于搜索阈值的情况下,输出类似度的上位(从低的数值起)第N个以前的对照区间。

并且,特征对照部17也可在没有低于搜索阈值的对照区间的情况等下,通知表示没有对应部位的信息,从存储面积选择特征数据库18中读出新的存储音响信号的存储面积选择特征,继续步骤S9以后的搜索处理,直到搜索具有上述搜索阈值以下的对照区间的存储面积选择特征。

另外,也可将图1中的目的特征计算部11、目的特征规格化部13和目的特征面积选择部5安装在各用户终端(例如电脑)中,将具有存储特征计算部12、存储特征规格化部14、存储特征面积选择部16、特征对照部17和存储面积选择特征数据库18的音响信号检测服务器设置在执行音乐配送的服务提供者中。

由此,构成为将用户利用便携电话等接收到的音响信号作为目的音响信号,生成至目的面积选择特征,经因特网等向上述音响信号检测服务器发送该目的面积选择特征,请求搜索类似于该目的面积选择特征的存储音响信号。此时,使计算存储面积选择特征和目的面积选择特征时的一定区段的特征矢量的排列长度等规定在音响信号检测服务器与终端中事先一致。

下面,示出应用上述音响信号检测系统时的动作实验例及其结果。

为了确认本发明的音响信号检测系统的效果,比较应用本发明的情况与不应用本发明的情况下的搜索精度。

为了实验,将再生某个CD(致密盘)的歌曲的音响信号作为存储音响信号,原样输入到图1的音响信号检测系统的存储特征计算部12中。

另一方面,作为目的音响信号,利用噪音大的饮茶店内的扬声器,播出上述CD的相同歌曲的规定部分(存储音响信号的一部分),在该饮茶店内将便携电话连接于PHS(注册商标),将从该PHS(注册商标)的声音输出接收得到的音响信号作为目的音响信号,输入到目的特征计算部11。

在上述相同的实验条件下,重复执行搜索处理200次,测定搜索精度。

该搜索精度为调节搜索阈值的设定、适合率(precision rate)与再现率(recall rate)相等时的值。

这里,所谓适合率是作为搜索结果输出的结果中正确的比例,再现率是应搜索的对象中、作为搜索结果输出的比例。

适合率或再现率随着搜索阈值的设定而变化,在本实验中,由下式(6)来确定搜索阈值(相对于式(5)中使用的类似度的阈值)。

(公式6)

θ=m+nν                        …(6)

在上式(6)中,m和ν分别是对提供的存储信号采样输入信号、并预备执行类似度的计算后收集到的类似度的平均值与标准偏差,n是经验提供的系数。

其中,式(6)中,在搜索阈值θ超过1的情况下,设θ=1,当低于0时,θ=0。

在本实验中,设在重复执行200次期间,式(6)中的n值恒定,调节其t值,使适合率与再现率大致相等。

上述实验的结果是:上述精度在不使用利用规格化特征得到的存储和目的面积选择特征时为15.0%,在使用本发明的存储和目的面积选择特征时(一实施例)为80.1%。

另外,就搜索处理而言,在CPU中使用Intel(注册商标)Pentium(注册商标)III 1133MHz,在OS中使用RedHat(注册商标)7.3,在程序编译器中使用GNU gcc。

另外,执行文件利用程序编译器最佳化选项“-03”来执行编译。

在上述实验中,可确认通过本发明的音响信号检测系统,搜索精度提高。

本发明的音响信号检测系统也可用于附加在实际环境中收录的有噪音或间歇的片断音响信号,不仅搜索一致的音乐或CM的曲名或播放时间,还使其与存储了关联于音乐或CM的信息的附带信息数据库组合,进行信息搜索。

例如,用户利用便携电话接收从TV或广播流动的音乐或CM,发送给音响信号检索服务等。可构成为音响信号检索服务提供者从数据库中检索与该音响信号一致或类似的音响,经因特网等网络,收费或免费地将音乐或关于该CM的信息(例如演奏者、作词作曲者名、商品信息、制品特征、服务、拍摄地、出演者、主页等)提供给用户。

这里,就检索的音响的输入方法而言,也可从便携终端访问服务器,由终端的麦克风直接接收信号,作为目的信号。另外,也可适当切取暂且录音的音响后发送。

另外,作为其它发明的实施例,也可用于根据用户利用家庭用磁带录音机录音的图象音响中,从配送的CD或电影、电视程序中检索接近该图象的音乐的音节,利用内容,或收集相当于录音的图象音响的音节来编辑。

<第2实施方式>

图3表示本发明的第2实施方式,是表示将音响信号设为对象的对特征失真稳固的音响信号检测系统的构成框图。

图3所示的音响信号检测系统实现将音响信号设为对象的对特征失真稳固的信号检测,包括:目的特征计算部21、存储特征计算部22、目的特征规格化部23、存储特征规格化部24、目的特征量化部25、存储特征量化部26、特征对照部27、以及存储量化特征数据库28,输入存储时间系列信号(存储音响信号)即想检索的音响信号、以及目的时间系列信号(目的音响信号)即检索的音响信号,输出与目的时间系列信号类似的存储时间系列信号中的部位。

目的特征计算部21从按规定间隔以时间系列采样目的音响信号得到的、作为离散值的目的时间系列信号中,例如以采样单位抽取每个频率的功率谱值等,多维矢量化该抽取出的特征量,得到特征矢量,导出(计算)由该特征矢量构成的目的特征。

存储特征计算部22也一样,从按规定间隔以时间系列采样存储音响信号得到的、作为离散值的存储时间系列信号中,例如以采样单位抽取每个频率的功率谱值等,多维矢量化该抽取出的特征量,得到特征矢量,导出由该特征矢量构成的存储特征。

目的特征规格化部23根据上述目的特征,使用从还包含邻接部分的周边目的特征导出的统计量,对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的多维矢量的目的规格化特征。

存储特征规格化部24根据上述存储特征,使用从还包含邻接部分的周边存储特征导出的统计量,对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的多维矢量的存储规格化特征。

目的特征量化部25利用规定阈值,标量量化上述目的规格化特征,导出将由该量化得到的值设为要素的多维矢量构成的目的量化特征。

存储特征量化部26利用规定阈值,标量量化上述存储规格化特征,导出将由该量化得到的值设为要素的多维矢量构成的存储量化特征。

在例如二进制化目的和存储规格化特征的情况下,通过选择最小化二进制得到的要素的数值与原要素的数值的均方差的点等,求出执行量化的上述规定阈值。

该目的量化特征和存储量化特征分别按时间系列采样的顺序,依次排列各采样中的特征矢量。目的量化特征的排列数(排列长度)比存储量化特征的短,或相等。

另外,下面,所谓存储特征中被简并(degeneracy)的矢量是根据存储面积选择特征或存储规格化特征等规定的统计量、通过计算得到的矢量,此外,所谓目的特征中被简并的矢量是根据目的面积选择特征或目的规格化特征等规定的统计量、通过计算得到的矢量。

特征对照部27对上述存储量化特征中按时间系列排列的特征矢量,设定该排列的规定范围,作为对照区间,将长度与该对照区间相同的被对照区间设定为目的量化特征,计算上述对照区间与被对照区间的类似度,与事先设定的搜索阈值相比较,判定是否类似。

另外,特征对照部27在上述对照区间的对照处理结束时,由于设定新的对照区间,所以移向排列邻接的相同时间宽度范围。

存储量化特征数据库18对多个、例如很好配送的歌曲,利用存储特征计算部22、存储特征规格化部24和存储特征量化部26,事先计算存储量化特征,对应于各歌曲名来存储。

下面,参照附图来说明本实施例的音响信号检测系统的动作。图4是表示图3的音响信号检测系统的动作例的流程图。

存储特征计算部22读入提供的存储音响信号并进行输入(步骤T1),对输入的存储音响信号执行特征抽取。

此时,存储特征计算部22使用音响信号的傅立叶变换的振幅分量,傅立叶变换例如以频率8000Hz标本化的音响信号的1秒区间,将0-4000Hz等间隔分割为32个频带的区间,以每0.1秒抽取各区间内的振幅分量的平均功率构成的32维多维矢量,作为特征矢量,设为存储特征(步骤T2)。

然后,存储特征规格化部24从存储特征计算部22读入存储特征,对该存储特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。

例如,存储特征规格化部24根据每个频带下某个时间区间的值,求出平均值与标准偏差,使用求出的平均值与标准偏差,进行规格化。

此时,存储特征规格化部24规格化后的频率特征y(i)的第k个要素如下式(21)所示。

(公式21)

>>y>>(>i>,>k>)>>=>>1>>σ>>(>i>,>k>)>>>>>(>Q>>(>i>,>k>)>>->m>>(>i>,>k>)>>)>>->->->>(>21>)>>>s>

其中,式(21)中,m(i,k)为平均值,由下式(22)求出,σ(i,k)为标准偏差,由下式(23)求出。

(公式22)

>>m>>(>i>,>k>)>>=>>1>>2>M>>>>Σ>>i>=>->M>>>M>->1>>>Q>>(>i>,>k>)>>->->->>(>22>)>>>s>

(公式23)

>>σ>>>(>i>,>k>)>>2>>=>>1>>2>M>>>>Σ>>i>=>->M>>>M>->1>>>>>(>Q>>(>i>,>k>)>>->m>>(>i>,>k>)>>)>>2>>->->->>(>23>)>>>s>

式(22)和式(23)中,M是用于求出局部时间内的频率特征的平均值和标准偏差的时间窗一半大小的数值。

然后,将由式(21)-(23)得到的多维矢量的时间系列的排列(由k表示的顺序)设为存储规格化特征(步骤T3)。

接着,存储特征量化部26从存储特征规格化部24读入存储规格化特征并进行输入,对存储规格化特征的多维矢量的每个要素,以事先提供的阈值为界,执行二进制化处理,得到量化后的数值的矢量。

例如,存储特征量化部26以得到的阈值t为界,量化存储规格化特征的各要素。

由此,存储特征量化部26利用下示的式(24),分别计算量化后的频率特征z(i)的第k个要素。

(公式24)

然后,存储特征量化部26二进制化各要素,输出该多维矢量,作为存储量化特征(步骤T4)。

此时,存储特征量化部26执行将由计算得出的存储量化特征直接发送给特征对照部27、或暂时登录到存储量化特征数据库28之一的处理。

在特征对照部27实时比较存储量化特征与目的量化特征的情况下,存储特征量化部26向特征对照部27输出输入的存储音响信号的存储量化特征,向存储量化特征数据库28登录存储音响信号的数据,此时,存储特征量化部26不向特征对照部27发送存储量化特征,而与歌曲名对应地向存储量化特征数据库28登录存储量化特征。

目的特征计算部21读入提供的目的音响信号并进行输入(步骤T5),对输入的目的音响信号执行特征抽取。

此时,目的特征计算部21与存储特征计算部22一样,使用音响信号的傅立叶变换的振幅分量,傅立叶变换例如以频率8000Hz标本化的音响信号的1秒区间,将0-4000Hz等间隔分割为32个频带的区间,以每0.1秒抽取各区间内的振幅分量的平均功率构成的32维多维矢量,作为特征矢量,设为目的特征(步骤T6)。

然后,目的特征规格化部23从目的特征计算部21读入目的特征,对该目的特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。

即,目的特征规格化部23与存储特征规格化部24一样,将由式(21)-(23)得到的多维矢量的时间系列的排列(由k表示的顺序)设为目的规格化特征(步骤T7)。

接着,目的特征量化部25从目的特征规格化部23读入目的规格化特征并进行输入,对目的规格化特征的多维矢量的每个要素,以事先提供的阈值为界,与存储特征量化部26一样,使用式(24),执行二进制化处理,得到量化后的数值的矢量。

然后,目的特征量化部25输出二进制化各要素后的该多维矢量,作为目的量化特征(步骤T8)。

接着,特征对照部27分别读入由目的特征量化部25和存储特征量化部26得到的目的量化特征和存储量化特征。

另外,特征对照部27在同时输入目的音响信号和存储音响信号、实时判定类似的情况以外,从存储量化特征数据库28中依次读出进行比较的存储量化特征,与目的量化特征进行比较。

此时,特征对照部27对于存储量化特征,将长度与由目的特征量化部25提供的目的量化特征相同的特征矢量的排列设定为对照区间。

然后,特征对照部27计算目的量化特征与上述对照区间的类似度,作为类似度,计算双方的特征矢量之间的加重平均(hamming)距离(步骤T9)。

例如,特征对照部27在设目的量化特征为15秒长度时,从该目的量化特征的特征矢量排列中,以0.1秒间隔抽取共计150部位的作为排列要素的特征矢量,对各采样,将频带分割成32份,所以将由这些矢量构成的150×32的4800维多维矢量设为用于对照的目的矢量。

另外,与上述目的矢量一样,特征对照部27从存储量化特征的数据开头起,以15秒长度为单位,依次设定为对照区间,从特征矢量的排列中,以0.1秒为间隔抽取共计150部位的特征矢量,对各采样,将频带分割成32份,所以将由这些矢量构成的150×32的4800维多维矢量设为用于对照的存储矢量。

此时,特征对照部27也可从目的量化特征的特征矢量排列中,抽取多个部位的要素,若是设为目的矢量的要素,则目的特征量化部25从目的规格化特征中事先抽取作为排列的要素的特征矢量,即,以0.1秒为间隔抽取共计150部位的特征矢量,执行标量量化,作为目的矢量输出到特征对照部27。

此时,特征对照部27边从存储量化特征的开头依次偏移对照区间,边通过计算与目的量化特征的即上述目的矢量与存储矢量的加重平均距离来进行比较处理。

接着,在对照处理存储量化特征至最后之后,特征对照部27参照每个对照区间的加重平均距离,输出加重平均距离最小的对照区间的区域,作为搜索结果。

另外,特征对照部27也可在事先提供加重平均距离的搜索阈值来作为搜索结果的情况下,判定该搜索阈值与选择到的对照区间的加重平均距离(步骤T10),仅输出低于该搜索阈值的对照区间(步骤T11)。

另外,特征对照部27也可在多个对照区间的加重平均距离低于搜索阈值的情况下,输出加重平均距离的上位(从低的数值起)第N个以前的对照区间。

并且,特征对照部27也可在没有低于搜索阈值的对照区间的情况等下,通知表示没有对应部位的信息,从存储量化特征数据库28中读出新的存储音响信号的存储量化特征,继续步骤T9以后的搜索处理,直到搜索具有上述搜索阈值以下的对照区间的存储量化特征。

另外,也可将图3中的目的特征计算部21、目的特征规格化部23和目的特征量化部25安装在各用户终端(例如电脑)中,将具有存储特征计算部22、存储特征规格化部24、存储特征量化部26、特征对照部27和存储量化特征数据库28的音响信号检测服务器设置在执行音乐配送的服务提供者中。

由此,构成为将用户利用便携电话等接收到的音响信号作为目的音响信号,生成至目的量化特征,经因特网等向上述音响信号检测服务器发送该目的量化特征,请求搜索类似于该目的量化特征的存储音响信号。

下面,示出应用上述音响信号检测系统时的动作实验例及其结果。

为了确认本发明的音响信号检测系统的效果,比较应用本发明的情况与不应用本发明的情况下的搜索精度。

为了实验,将再生某个CD(致密盘)的歌曲的音响信号作为存储音响信号,原样输入到图3的音响信号检测系统的存储特征计算部22中。

另一方面,作为目的音响信号,利用扬声器,播出上述CD的相同歌曲的规定部分(存储音响信号的一部分),在该饮茶店内将便携电话连接于PHS(注册商标),将从该PHS(注册商标)的声音输出接收得到的音响信号作为目的音响信号,输入到目的特征计算部21。

在上述相同的实验条件下,重复执行搜索处理200次,测定搜索精度。

该搜索精度为调节搜索阈值的设定、适合率(precision rate)与再现率(recall rate)相等时的值。

这里,所谓适合率是作为搜索结果输出的结果中正确的比例,再现率是应搜索的对象中、作为搜索结果输出的比例。

适合率或再现率随着搜索阈值的设定而变化,在本实验中,由下式(25)来确定搜索阈值(相对于加重平均距离的阈值)。

(公式25)

θ=m+nν                    …(25)

在上式(25)中,m和ν分别是对提供的存储信号采样输入信号、并预备执行类似度的计算后收集到的类似度的平均值与标准偏差,n是经验提供的系数。

其中,式(25)中,在搜索阈值θ超过1的情况下,设θ=1,当低于0时,θ=0。

在本实验中,设在重复执行200次期间,式(25)中的n值恒定,调节其t值,使适合率与再现率大致相等。

上述实验的结果是:上述精度在不执行规格化特征的量化时为60.0%,在执行了量化时(一实施例)为85.77%。

另外,就搜索处理而言,在CPU中使用Intel(注册商标)Pentium(注册商标)III 1133MHz,在OS中使用RedHat(注册商标)7.3,在程序编译器中使用GNU gcc。

另外,执行文件利用编译器最佳化选项“-03”来执行编译。

在上述实验中,可确认通过本发明的音响信号检测系统,搜索精度提高。

本发明的音响信号检测系统也可用于附加在实际环境中收录的因终端特征、编码特性等而失真的片断音响信号,不仅搜索一致的音乐或CM的曲名或播放时间,还使其与存储了关联于音乐或CM的信息的附带信息数据库组合,进行信息搜索。

例如,用户利用便携电话接收从TV或广播流动的音乐或CM,发送给音响信号检索服务等。可构成为音响信号检索服务提供者从数据库中检索与该音响信号一致或类似的音响,经因特网等网络,收费或免费地将音乐或关于该CM的信息(例如演奏者、作词作曲者名、商品信息、制品特征、服务、拍摄地、出演者、主页等)提供给用户。

这里,就检索的音响的输入方法而言,也可从便携终端访问服务器,由终端的麦克风直接接收信号,作为目的信号。另外,也可适当切取暂且录音的音响后发送。

另外,作为其它发明的实施例,也可用于根据用户利用家庭用磁带录音机录音的图象音响中,从配送的CD或电影、电视程序中检索接近该图象的音乐的音节,利用内容,或收集相当于录音的图象音响的音节来编辑。

<第3实施方式>

下面,参照附图来说明本发明的第3实施方式。图5是本发明的一实施方式,是表示将影像信号设为对象的对反射或间歇稳固的影像信号搜索系统的构成框图。

图5所示的影像信号搜索系统实现将影像信号设为对象的对反射或间歇稳固的信号检测,包括:目的特征计算部31、存储特征计算部32、目的特征规格化部33、存储特征规格化部34、目的特征面积选择部35、存储特征面积选择部36、特征对照部37、以及存储面积选择特征数据库38,输入存储影像信号即检索的影像信号、以及目的影像信号即想检索的影像信号,输出与目的时间系列信号类似的存储时间系列信号中的部位。

目的特征计算部31将目的影像信号设为输入,从按规定间隔以时间系列采样该目的影像信号得到的、作为离散值的目的时间系列信号中,例如以采样单位从目的影像信号中抽取每个频率的功率谱值等,设为特征量,多维矢量化该抽取出的特征量,得到特征矢量,导出由该特征矢量构成的目的特征。

存储特征计算部32与目的特征计算部31一样,多维矢量化从按规定间隔以时间系列采样存储影像信号得到的作为离散数据的存储时间系列信号中、抽取出的特征量,得到特征矢量,导出由该特征矢量构成的存储特征。

另外,这里将目的特征和存储特征作为多维矢量,但也可矩阵表现目的特征和存储特征。

目的特征规格化部33根据上述目的特征,使用从包含邻接该目的特征的目的特征的周边多个目的特征导出的统计量,对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的特征矢量的目的规格化特征。

存储特征规格化部34根据上述存储特征,使用从包含邻接该存储特征的存储特征的周边多个存储特征导出的统计量,对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的特征矢量的存储规格化特征。

这里,所谓在“‘邻接’于存储特征的存储特征”的表现中使用的“邻接”对应于例如对于就时间采样影像信号时得到的离散时刻的帧、表示其前后的离散时刻的帧时的“前后离散时刻的”。另外,所谓“周边的多个的”在使用所述实例时,对应于“某个离散时刻间的”。

目的特征面积选择部35根据上述目的特征,计算规定的统计量,从目的规格化特征中,选择其统计量超过规定阈值的要素,导出由被选择的要素的多维矢量构成的目的面积选择特征。

存储特征面积选择部36根据上述存储规格化特征,计算规定的统计量,从存储规格化特征中,选择其统计量超过规定阈值的要素,导出由被选择的要素的多维矢量构成的存储面积选择特征。

特征对照部37对上述存储面积选择特征,将规定范围设定为对照区间,将长度与该对照区间相同的被对照区间设定为目的面积选择特征,计算上述对照区间与被对照区间的类似度,与事先设定的搜索阈值相比较,判定是否类似,输出其结果,作为信号检测结果。

另外,特征对照部37在上述对照区间的对照处理结束时,由于设定新的对照区间,所以执行将对照区间移向排列邻接的相同时间宽度范围的处理。

存储面积选择特征数据库38存储利用存储特征计算部32、存储特征规格化部34和存储特征面积选择部36事先计算的存储面积选择特征。

若使用将多个CM影像设为存储影像信号的实例,则存储面积选择特征数据库38对应于各CM提供者名,存储所述事先计算的存储面积选择特征。

另外,在本例中,在存储面积选择特征数据库38中计算存储事先计算的存储面积选择特征,但也可设置存储存储影像信号(新的影像信号)的数据库。

这里,说明目的特征面积选择部35和存储特征面积选择部36中的阈值设定。

考虑上述阈值在例如选择规格化特征矢量的各要素的值、与通过统计处理求出的构成基准的值(这里为“0”)的差分绝对值大的要素时,将规格化特征矢量的各要素值与“0”的差分的绝对值最大的值的8/10的数值设为阈值,选择各要素中、差分的绝对值超过阈值的要素。

图6表示该实例。图6中,将规格化特征矢量的各要素d1-d6的值与“0”的差分的绝对值设为D1-D6。这里,选择差分的绝对值D1-D6中最大的绝对值,将该值的例如8/10设为阈值。

如图6所示,差分的绝对值最大的是要素d2的差分绝对值D2。由此,将与D2的差分的绝对值的8/10设定为阈值|θ|。

|θ|=0.8×D2

然后,分别将与各要素d1-d6的值的差分绝对值D1-D6与阈值|θ|相比较,抽取超过阈值的要素。另外,对被选择的要素附加圆标记。

图6中,由于要素d2的差分的绝对值D2、要素d4的差分的绝对值D4、要素d5的差分的绝对值D5、要素d6的差分的绝对值D6超过阈值|θ|,所以选择这些要素,作为选择特征的图案。

这里,将差分的绝对值最大的绝对值的8/10的值设为阈值,但这是一例,不限于8/10。

另外,也可设置每个要素的下限值,进行控制使阈值缓慢降低,直到选择得到该下限值(1或多个)的要素为止。例如,在图7的实例中,示出选择上位2个要素的情况,通过缓慢降低阈值,选择差分的绝对值最大的要素d2的值与“0”的差分的绝对值D2、以及要素d5的值与“0”的差分的绝对值D5,作为选择特征的图案。

另外,目的特征面积选择部35也可求出上述目的特征中的规定范围的特征矢量的各要素的平均值,从目的规格化特征中,选择各要素除以该平均值后的结果的绝对值超过规定阈值的要素,并导出由被选择的要素的多维矢量构成的目的面积选择特征。

同样,存储特征面积选择部36也可求出上述存储特征中的规定范围的特征矢量的各要素的平均值,从存储规格化特征中,选择各要素除以该平均值后的结果的绝对值超过规定阈值的要素,并导出由被选择的要素的多维矢量构成的存储面积选择特征。

上述阈值例如也可在选择规格化特征矢量的各要素的值与平均值的差分的绝对值大的要素的情况下,将规格化特征矢量的各要素的值与平均值的差分的绝对值最大的值的如8/10的数值设为阈值,选择各要素中、与平均值的差分的绝对值超过阈值的要素。

此时,也可设置要素的下限值,进行控制使阈值缓慢降低,直到选择超过该下限值的要素为止。

并且,目的特征面积选择部35也可输入上述目的特征和目的规格化特征,求出该目的特征中的规定范围(一定区段)的特征矢量的每个要素的标准偏差,然后,对目的规格化特征的对应排列位置的特征矢量的每个要素,乘以上述标准偏差,计算乘法结果的绝对值,作为统计量,从目的规格化特征中,选择该统计量中最上位或从最上位起的多个(例如2个)统计量,导出作为特征图案的、被选择的要素的多维矢量所构成的目的面积选择特征。

同样,存储特征面积选择部36也可输入上述存储特征和存储规格化特征,求出该存储特征中的规定范围(一定区段)的特征矢量的每个要素的标准偏差,然后,对存储规格化特征的对应排列位置的特征矢量的每个要素,乘以上述标准偏差,计算乘法结果的绝对值,作为统计量,从目的规格化特征中,选择该统计量中最上位或从最上位起的多个(例如2个)统计量,导出作为特征图案的、被选择的要素的多维矢量所构成的目的面积选择特征。

下面,参照附图来说明本实施方式的影像信号搜索系统的动作。图8是表示图5的影像信号搜索系统的动作例的流程图。

在以下的说明中,示出使用将1帧分割成多个的各区域的RGB各色的平均值信息的实施例。

图8中,存储特征计算部32读入提供的存储影像信号并进行输出(步骤U1),对输入的存储影像信号执行特征抽取。

此时,存储特征计算部32根据存储影像的时间系列数据,如图9所示,例如将存储影像的1帧图像横向3等分、纵向3等分,共计分割成9个区域,对各个分割(区域)内的RGB各色象素,算出平均值。在第i个帧的情况下,将关于第1子画面的RGB的平均值分别设为(xi,1,xi,2,xi,3),将关于第2子画面的RGB的平均值分别设为(xi,4,xi,5,xi,6),将关于第3子画面的RGB的平均值分别设为(xi,7,xi,8,xi,9),以下一样,生成将关于各子画面的RGB的平均值分别设为要素的多维矢量。将该多维矢量称为局部区域原色特征。

此时,所述的xi,1等变为局部区域原色特征的要素。

抽取如此得到的9个区域中的RGB各自的平均象素值构成的共计27维矢量,作为特征矢量,并设为存储特征。此时,对每个帧得到特征矢量(步骤U2)。

另外,在存储特征的抽取方法中,有使用作为数字动态图像压缩技术的MPEG(Moving Picture Coding Experts Group)编码方式(由活动补偿、DCT(Discrete Cosine Transform)与可变长编码构成)或傅立叶变换的振幅分量的方法。

然后,存储特征规格化部34从存储特征计算部32读入存储特征,对该存储特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。例如,存储特征规格化部34对各区域中每个RGB色,根据某个时间区间的值,求出平均值与标准偏差,使用求出的平均值与标准偏差,进行规格化。

此时,当将存储特征规格化部34规格化后的局部区域原色特征称为规格化局部原色特征时,其第k个要素如下式(31)所示。

(公式31)

>>>y>>i>,>k>>>=>>1>>σ>>i>,>k>>>>>x>>i>,>k>>>->>m>>i>,>k>>>->->->>(>31>)>>>s>

其中,式(31)中的x(i+j),k表示向全部帧附加通用序号时的第(i+j)个帧的局部区域特征的第k个要素。j是对设定的时间区间内的帧中的中心帧的相对序号,在设定的时间区间内包含2M个帧的情况下,为-M≤j≤M-1,j为整数。i为设定的时间区间的帧中、中心帧的通用序号(i≥M),相当于j=0时的通用序号。另外,mi,k是对-M≤j≤M-1的x(i+j),k的平均值,由式(32)表示。σi,k为对-M≤j≤M-1的x(i+j),k的标准偏差,由下式(33)求出。

(公式32)

>>>m>>i>,>k>>>=>>1>>2>M>>>>Σ>>j>=>->M>>>M>->1>>>>x>>>(>i>+>j>)>>,>k>>>->->->>(>32>)>>>s>

(公式33)

>>>>σ>2>>>i>,>k>>>=>>1>>2>M>>>>Σ>>j>=>->M>>>M>->1>>>>>(>>x>>>(>i>+>j>)>>,>k>>>>>->m>>>i>,>k>>>)>>2>>->->->>(>33>)>>>s>

为了执行局部时间内的统计处理,当设定相当于2M帧的时间窗时,如图10所示,得到2M帧大小的特征矢量。特征矢量如图9所示,将1帧分割成9个区域,在各个区域中,对RGB的各象素平均化,所以由27个要素构成。从而,若设定相当于2M帧的时间窗时,则得到2M个特征矢量,若统一由该2M帧构成的特征矢量,则可由如下的(2M)行N列矩阵表现。其中,N为对每个帧得到的特征矢量的要素数量。当将n设为表示分割1帧时的子画面的数量的整数时,N由N=3×n来表示。另外,所述时间窗的帧数量由2M等偶数来记载,但不限于偶数,也可以是奇数。

(公式34)

> >>>>x>0.1>>>>>x>0.2>>>>>x>0.3>>>>>x>0.4>>>>>x>0.5>>>>>x>0.6>>>>·>·>>>>x>>0>.>N>>>>>>>>x>1.1>>>>>x>1.2>>>>>x>1.3>>>>>x>1.4>>>>>x>1.5>>>>>x>1.6>>>>·>·>·>>>>x>>1>.>N>>>>>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>>>>x>>>(>2>M>->1>)>>.>1>>>>>>x>>>(>2>M>->1>)>>.>2>>>>>>x>>>(>2>M>->1>)>>.>3>>>>>>x>>>(>2>M>->1>)>>.>4>>>>>>x>>>(>2>M>->1>)>>.>5>>>>>>x>>>(>2>M>->1>)>>.>6>>>>>·>·>·>>>>x>>>(>2>M>->1>)>>.>N>>>>>>>->->->>(>34>)>>>s>

将下一阶段设定的时间窗设定在仅移位1帧的位置上。然后,将利用式(31)-(33)得到的规格化局部区域原色特征的要素构成的多维矢量的时间系列的排列(由k表示的顺序)设为存储规格化特征(步骤U3)。

接着,存储特征面积选择部36从存储特征计算部32读入存储特征并进行输入,或从存储特征规格化部34读入存储规格化特征并进行输入,用上述式(32)和(33),对各要素(由局部区域的RGB原色构成的特征矢量)排列的一定区段,就存储特征的多维矢量的每个要素求出标准偏差σi,k。同样,也可通过将存储规格化特征与标准偏差从存储特征规格化部34读入并输入存储特征面积选择部36中来实现。

然后,存储特征面积选择部36如下式(35)所示,对每个要素yi,k乘以标准偏差σi,k,取其绝对值。

(公式35)

zi,k=|yi,k·σi,k|=|xi,k-mi,k|          …(35)

这里,存储特征面积选择部36从得到的作为各要素与标准偏差的乘法结果的统计量zi,k中,以规定区间单位对每个要素选择从最上位起的多个要素、例如上位2个要素。用于选择统计量zi,k的规定区间(时间窗或帧数)与算出规格化局部区域原色特征的要素yi,k时的时间窗独立确定,不必一致。这里,设包含于所述时间窗中的帧数为M’。

即,局部时间内的特征矢量也可用式(36)所示的矩阵表现。在该矩阵的各行要素中,按降序选择对应于上述规定个数的P个(P为正整数)、例如(P=2)个。

(公式36)

>>Z>= >>>>z>>i>.>1>>>>>>z>>i>.>2>>>>>>z>>i>.>3>>>>>>z>>i>.>4>>>>>>z>>i>.>5>>>>>>z>>i>.>6>>>>>·>·>>>>z>>i>.>N>>>>>>>>z>>i>+>1.1>>>>>>z>>i>+>1.2>>>>>>z>>i>+>1.3>>>>>>z>>i>+>1.4>>>>>>z>>i>+>1.5>>>>>>z>>i>+>1.6>>>>>·>·>·>>>>z>>i>+>1>.>N>>>>>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>>>>z>>i>+>>(>M>->1>)>>.>1>>>>>>z>>i>+>>(>M>->1>)>>.>2>>>>>>z>>i>+>>(>M>->1>)>>.>3>>>>>>z>>i>+>>(>M>->1>)>>.>4>>>>>>z>>i>+>>(>M>->1>)>>.>5>>>>>>z>>i>+>>(>M>->1>)>>.>6>>>>>·>·>·>>>>z>>i>+>>(>M>->1>)>>.>N>>>>>>>->->->>(>36>)>>>s>

这种选择可通过将对应于被选择的(M’×P)个要素的要素为“0”、其它要素为(-zi,k)的矩阵(选择屏蔽(mask))相加来实现。例如,选择zi,1,zi,3,zi+1,2,zi+1,N,zi+(M’-1),2,zi+(M’-1),3的选择屏蔽如下所示。

(公式37)

>>>Z>0>>= >>>0>>>>>->z>>>i>.>2>>>>>0>>>>>->z>>>i>.>4>>>>>>>->z>>>i>.>5>>>>>>>->z>>>i>.>6>>>>>·>·>>>>z>>i>.>N>>>>>>>>>->z>>>i>+>1>.>1>>>>>0>>>>>->z>>>i>+>1.3>>>>>>>->z>>>i>+>1.4>>>>>>>->z>>>i>+>1.5>>>>>>>z>->>>i>+>1.6>>>>>·>·>·>>>0>>>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>·>·>·>>>>>>>->z>>>i>+>>(>M>->1>)>>.>1>>>>>0>>>0>>>>>->z>>>i>+>>(>M>->1>)>>.>4>>>>>>>->z>>>i>+>>(>M>->1>)>>.>5>>>>>->>z>>i>+>>(>M>->1>)>>.>6>>>>>·>·>·>>>>>->z>>>i>+>>(>M>->1>)>>.>N>>>>>>>->->->>(>37>)>>>s>

若向式(36)所示的矩阵加上式(37)所示的选择屏蔽,则如下所示,得到存储面积选择特征的矩阵。

(公式38)

             Zs=Z+Z0         …(38)

Zs:存储面积选择特征

然后,存储特征面积选择部36对于上述一定区间,输出从存储规格化特征中对每个要素选择的要素的矢量构成的多维矢量,作为存储面积选择特征(步骤U4)。

此时,存储特征面积选择部36执行将由计算得出的存储面积选择特征直接发送给特征对照部37、或暂时登录到存储面积选择特征数据库38之一的处理。

在特征对照部37实时比较存储面积选择特征与目的面积选择特征的情况下,存储特征面积选择部36向特征对照部37输出输入的存储影像信号的存储面积选择特征。另外,在向存储面积选择特征数据库38登录存储影像信号的数据的情况下,存储特征面积选择部36不向特征对照部37发送存储面积选择特征,而与例如影像广告提供者名或节目名和电影的题目对应地向存储面积选择特征数据库38登录存储面积选择特征。

目的特征计算部31读入提供的目的影像信号并进行输入(步骤U5),对输入的目的影像信号执行特征抽取。

此时,目的特征计算部31与存储特征计算部32一样,根据目的影像的时间系列数据,例如将目的影像的1帧图像横向3等分、纵向3等分,共计分割成9个区域,对各个分割(区域)内的RGB各色象素,算出平均值。抽取如此得到的9个区域中的RGB各自的平均象素值构成的共计27维矢量,作为特征矢量,并设为目的特征(步骤U6)。

另外,在存储特征的抽取方法中,有使用作为数字动态图像压缩技术的MPEG编码方式(由活动补偿、DCT与可变长编码构成)或傅立叶变换的振幅分量的方法。

然后,目的特征规格化部33从目的特征计算部31读入目的特征,对该目的特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。

即,目的特征规格化部33与存储特征规格化部34一样,将利用式(31)-(33)得到的多维矢量的时间系列的排列(由k表示的顺序)设为目的规格化特征(步骤U7)。

接着,目的特征面积选择部35从目的特征计算部31读入目的特征并进行输入,或从目的特征规格化部33读入目的规格化特征并进行输入,与存储特征面积选择部36一样,对每个要素乘以根据目的特征的一定区段求出的标准偏差σi,k,将乘法结果设为统计量。同样,也可通过将目的规格化特征与标准偏差从目的特征规格化部33读入并输入目的特征面积选择部35中来实现。

然后,目的特征面积选择部35对每个要素的排列,根据上述统计量,按数值从大到小的顺序,选择上位2个要素,输出从目的规格化特征中对每个要素选择的要素的矢量构成的多维矢量,作为目的面积选择特征(步骤U8)。

然后,特征对照部37分别读入由目的特征面积选择部35和存储特征面积选择部36得到的目的面积选择特征和存储面积选择特征。

另外,特征对照部37在同时输入目的影像信号和存储影像信号、实时判定类似的情况以外,从存储面积选择特征数据库38中依次读出进行比较的存储面积选择特征,与目的面积选择特征进行比较。

此时,特征对照部37对于存储面积选择特征,将长度与由目的特征面积选择部35提供的目的面积选择特征相同的特征矢量的排列设定为对照区间。

即,特征对照部37将由多个上述一定区段构成的目的面积选择特征设为对照区间,对于存储面积选择特征,使与目的面积选择特征相同的一定区段数构成的排列长度对应,作为相对目的面积选择特征的对照区间,依次利用类似度来比较两个对照区间。

然后,特征对照部37用下式(39)来计算目的面积选择特征与存储面积选择特征中与对照区间的比较部位的类似度判断数。特征对照部37中使用的对照区间(时间窗或帧数)与存储面积选择部36或目的面积选择部35中使用的时间区间(时间窗)和存储或目的特征规格化部33中使用的时间区间(时间窗)独立确定,即未必使用一致的时间区间。

特征对照部37计算目的面积选择特征和存储面积选择特征的对照区间中的各个规格化局部区域原色特征yq-i,k与ys-i,k的一致部位的欧几里德距离、以及向非一致部位的数量乘以规定常数a的值的和,输出该和,作为类似度判断数S(步骤U9)。

另外,就生成存储面积选择特征与目的面积选择特征时的各个选择屏蔽而言,将具有相同i,k的要素(相同位置的要素)为“0”的要素称为“一致”,将此外的要素称为“不一致”。

(公式39)

>>S>=>>Σ>>k>=>q>∩>s> >>>(>>y>>q>_>i>,>k>>>->>y>>s>_>i>+>r>.>k>>>)>>2>>+>a>>(>max>>(>|>q>|>,>|>s>|>)>>->|>q>∩>s>|>)>>->->->>(>39>)>>>s>

x∩y:x与y一致的要素

其中,q、s分别表示目的特征的面积选择部位、存储特征的面积选择部位,r是整数,是表示目的特征与存储特征中的帧序号也可不相等的变量。a被认为是例如yi,k的欧几里德距离的差分值取得值的最大值,即yi,k的量化等级数的平方。x是面积选择部位x的要素数量,max(x,y)由下式定义。

(公式40)

这里,例如特征对照部37在设目的面积选择特征为15秒长度时,以0.1秒为间隔抽取共计150部位的作为排列要素的特征矢量。对各采样,分割帧图像,求出RGB各自的平均象素值,所以根据由这些矢量构成的(150×27)的4050维,使用各区域中的各RGB色强度的上位2个(目的特征面积选择部35抽取),将54个要素构成的多维矢量设为用于对照的目的矢量。

另外,与上述目的矢量一样,特征对照部37从存储面积选择特征的数据开头起,以15秒长度为单位,依次设定为对照区间,从特征矢量的排列中,以0.1秒为间隔抽取共计150部位的特征矢量,对各采样,分割帧图像,求出RGB各自的平均象素值,所以根据由这些矢量构成的(150×27)的4050维,使用各区域中的各RGB色强度的上位2个(存储特征面积选择部36抽取),将54个要素构成的多维矢量设为用于对照的存储矢量。

接着,特征对照部37执行目的面积选择特征与存储面积选择特征的对照。

即,使用式(39),计算上述目的矢量与存储矢量的类似度判断数S,与事先设定的搜索阈值进行比较处理(步骤U10)。对照的结果是:在由式(39)求出的类似度判断数S比事先设定的搜索阈值大(类似度小)的情况下,移位时间窗,进行反馈(步骤U11)。

在步骤U11中,边从存储面积选择特征的开头依次偏移对照区间(例如边使其各移位1帧),边计算上述目的矢量与存储矢量的类似度判断数S,与事先设定的搜索阈值进行比较处理,对照处理目的面积选择特征与存储面积选择特征直到存储面积选择特征的最后,然后,若检索到每个对照区间的类似度判断数S比事先设定的搜索阈值低的存储面积选择特征的对照区间的区域,则输出该对照区间,作为搜索结果(步骤U12)。

另外,对照时的目的影像信号的帧数与存储影像信号的帧数未必相等。

如上所述,在本发明的实施方式中,从存储影像信号和目的影像信号中,仅选择统计上有特征的要素来进行对照。

另外,特征对照部37也可输出比较的结果中、类似度判断数明显低的存储面积选择特征的对照区间的区域,作为搜索结果。

另外,特征对照部37也可在多个对照区间的类似度低于搜索阈值的情况下,输出类似度的上位(从低的数值起)第N个以前的对照区间。

并且,特征对照部37也可在没有低于搜索阈值的对照区间的情况等下,通知表示没有对应部位的信息,从存储面积选择特征数据库38中读出新的存储影像信号的存储面积选择特征,继续步骤U9以后的搜索处理,直到搜索具有上述搜索阈值以下的对照区间的存储面积选择特征。

另外,也可将图5中的目的特征计算部31、目的特征规格化部33和目的特征面积选择部35安装在各用户终端(例如电脑)中,将具有存储特征计算部32、存储特征规格化部34、存储特征面积选择部36、特征对照部37和存储面积选择特征数据库38的影像信号搜索服务器设置在执行影像配送的服务提供者中。

由此,构成为将用户利用带摄影机的便携电话等接收到的影像信号作为目的影像信号,生成至目的面积选择特征,经因特网等向上述影像信号搜索服务器发送该目的面积选择特征,请求搜索类似于该目的面积选择特征的存储影像信号。此时,使计算存储面积选择特征和目的面积选择特征时的一定区段的特征矢量的排列长度等规定在影像信号搜索服务器与终端中事先一致。

下面,示出应用上述影像信号搜索系统的实施方式。本发明的影像信号搜索系统可用于使用在实际环境中收录的有反射或间歇的片断影像信号,搜索一致的影像并进行信息检索。例如,用户利用带摄影机的便携电话拍摄在街头的大型屏幕中播出的CM,发送给影像信号搜索服务等。影像信号搜索服务提供者从数据库中检索与该影像信号一致或类似的影像,收费或免费地将内容或关于该影像的信息(例如商品信息、制品特征、服务、拍摄地、出演者、主页等)提供给用户。

这里,就检索的影像的输入方法而言,期望使带摄影机的终端的取景器或屏幕与想拍摄的影像(目的影像信号)的帧一致后进行拍摄,或利用菜单操作或笔输入等手动跟踪(manual trace)来范围指定拍摄的影像中的动态图像帧。

另外,由于可利用本发明来容易地搜索以前难以正确搜索的、由家庭用视频反复配音复制的影像、或位速率低的影像,所以还可广泛应用于因特网上的动态图像的著作权管理系统、或CM信息检索服务等。

另外,还可用于使用用户利用摄影机拍摄的动态图像影像,从配送的电影或电视程序中切取接近该图像的剪辑后进行编辑。

<第4实施方式>

下面,参照附图来说明本发明的第4实施方式。图11是本发明的一实施方式,是表示将影像信号设为对象的对反射或间歇稳固的影像信号搜索系统的构成框图。

图11所示的影像信号搜索系统实现将影像信号设为对象的对反射或间歇稳固的信号检测,包括:目的特征计算部41、存储特征计算部42、目的特征规格化部43、存储特征规格化部44、目的特征量化部45、存储特征量化部46、特征对照部47、以及存储量化特征数据库48,输入存储影像信号即检索的影像信号、以及目的影像信号即想检索的影像信号,输出与目的时间系列信号类似的存储时间系列信号中的部位。

目的特征计算部41将目的影像信号设为输入,多维矢量化从按规定间隔以时间系列采样该目的影像信号得到的、作为离散数据的存储时间系列信号中抽取的特征量,得到特征矢量,算出由该特征矢量构成的目的特征。

存储特征计算部42与目的特征计算部41一样,从按规定间隔以时间系列采样存储影像信号得到的、作为离散值的存储时间系列信号中,例如以采样单位从存储影像信号中抽取每个频率的功率谱值等,设为特征量,多维矢量化该抽取出的特征量,得到特征矢量,算出由该特征矢量构成的存储特征。

目的特征规格化部43根据上述目的特征,使用从包含邻接该目的特征的目的特征的周边多个目的特征导出的统计量(也称为目的统计量),对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的特征矢量的目的规格化特征。

存储特征规格化部44根据上述存储特征,使用从包含邻接该存储特征的存储特征的周边多个存储特征导出的统计量(也称为存储统计量),对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的特征矢量的存储规格化特征。

这里,所谓在“‘邻接’于存储特征的存储特征”的表现中使用的“邻接”对应于例如对于就时刻采样影像信号时得到的离散时刻的帧、表现其前后的离散时刻的帧时的“前后离散时刻的”。

另外,所谓“周边的多个的”在使用所述实例时,对应于“某个离散时刻间的”。

目的特征量化部45对上述目的规格化特征的各要素,利用相同或单独的阈值来执行标量量化,导出目的量化特征,作为将该量化后的值设为矢量的要素的多维矢量。

存储特征量化部46对上述存储规格化特征的各要素,利用相同或单独的阈值来执行标量量化,导出作为将该量化后的值设为矢量的要素的多维矢量的存储量化特征,。

另外,影像信号中的对存储特征简并的矢量和对目的特征简并的矢量通过与上述一样的计算得到。

在二进制化目的和存储规格化特征的情况下,进行量化的上述规定阈值使用最小化各代码的代表数值与原要素数值的均方差的值。作为代表数值,例如两个代码中一个使用比阈值大1的值,另一个使用比阈值小1的值。

特征对照部47对上述存储量化特征设定规定范围,作为对照区间,对目的量化特征设定长度与该对照区间相同的被对照区间,对上述对照区间与被对照区间的类似度进行运算,与事先设定的搜索阈值进行比较,判定是否类似。

另外,特征对照部47当上述对照区间的对照处理结束时,由于设定新的对照区间,所以执行将对照区间移向排列邻接的相同时间宽度范围的处理。

存储量化特征数据库48利用存储特征计算部42、存储特征规格化部44和存储特征量化部46,事先计算并存储存储量化特征。若使用将多个CM(Commercial Message)影像设为存储影像信号的实例,则存储量化特征数据库48对应于各CM提供者名,存储事先计算的存储量化特征。

另外,在本例中,在存储量化特征数据库48中,计算存储事先计算的存储量化特征,但也可设置存储存储影像信号(新的影像信号)的数据库。

下面,参照附图来说明本实施方式的影像信号搜索系统的动作。

图12是表示图11的影像信号搜索系统的动作例的流程图。

另外,以下的说明中,示出使用将1帧分割成多个的各区域的R(红)、G(绿)、B(蓝)各色的平均值信息的实施例。

图12中,存储特征计算部42读入提供的存储影像信号并进行输出(步骤V1),对输入的存储影像信号执行特征抽取。

此时,存储特征计算部42根据存储影像的时间系列数据,将存储影像的1帧图像分割成n个区域(例如横向3等分、纵向3等分,共计9个区域),对各个分割区域内的RGB各色象素,算出平均值。

即,如图13所示,当设定相当于从帧(-M)至帧(M-1)的2M帧的时间窗时,就位于其间的帧0(0表示时间窗内的帧中的相对序号,表示第0个帧)而言,如图14所示,将1个帧分割成n个子画面。平均帧0的第1子画面的RGB各色的象素,取得平均值(xi,1,xi,2,xi,3),平均第2子画面的RGB各色的象素,取得平均值(xi,4,xi,5,xi,6),平均第3子画面的RGB各色的象素,取得平均值(xi,7,xi,8,xi,9),以下一样,平均第n子画面的RGB各色的象素,取得平均值(xi,(3n-2),xi,(3n-1),xi,3n)。其中,第1个下标表示赋予全部帧的通用序号,第2个下标表示该帧内的要素的序号。另外,第1个下标由赋予全部帧的通用序号i、与表示相对于第i个帧的相对位置的j的和(i+j)来表示。

由此,例如当设n=9时,各帧得到(3×9=27)维的值,抽取如此得到的27维的多维矢量,作为特征矢量,设为存储特征(步骤V2)。将所述多维矢量称为局部区域原色特征。此时,所述Xi,1等为局部区域原色特征的要素。

另外,在存储特征的抽取方法中,有使用作为数字动态图像压缩技术的MPEG(Moving Picture Coding Experts Group)编码方式(由活动补偿、DCT(Discrete Cosine Transform)与可变长编码构成)或傅立叶变换的振幅分量的方法。

然后,存储特征规格化部44从存储特征计算部42读入存储特征,对该存储特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。

例如,存储特征规格化部44对各区域中每个RGB色,根据某个时间区间的值,求出平均值与标准偏差,使用求出的平均值与标准偏差,进行规格化。

此时,当将存储特征规格化部44规格化后的局部区域原色特征称为规格化局部原色特征时,其第k个要素yi,k如下式(41)所示。

(公式41)

>>>y>>i>,>k>>>=>>1>>σ>>i>,>k>>>>>(>>x>>i>,>k>>>->>m>>i>,>k>>>)>>->->->>(>41>)>>>s>

(公式42)

>>>m>>i>,>k>>>=>>1>>2>M>>>>Σ>>j>=>->M>>>M>->1>>>>x>>>(>i>+>j>)>>,>k>>>->->->>(>42>)>>>s>

(公式43)

>>>>σ>2>>>i>,>k>>>=>>1>>2>M>>>>Σ>>j>=>->M>>>M>->1>>>>>(>>x>>>(>i>+>j>)>>,>k>>>->>m>>i>,>k>>>)>>2>>->->->>(>43>)>>>s>

其中,式(42)中的x(i+j),k表示向全部帧附加通用序号时的第(i+j)个帧的局部区域特征的第k个要素。j是对设定的时间区间内的帧中的中心帧的相对序号,在设定的时间区间内包含2M个帧的情况下,为-M≤j≤M-1,j为整数。i为设定的时间区间的帧中、中心帧的通用序号(i≥M),相当于j=0时的通用序号。另外,mi,k是对-M≤j≤M-1的x(i+j),k的平均值。式(43)中的σi,k为对-M≤j≤M-1的x(i+j),k的标准偏差。

以某个帧为中心帧,使用该中心帧的前后帧的局部区域原色特征,执行统计处理(规格化),对该中心帧,得到规格化局部区域原色特征。通过边错开1帧边设定中心帧,可对全部帧得到规格化局部区域原色特征。该步骤是将局部区域原色特征映射到规格化局部区域特征的步骤。将存储特征的所述影像称为规格化存储特征Y(步骤V3)。

(公式44)

        Y=(yi,1,yi,2,yi,3,…,yi,N)     …(44)

其中,N是对每个帧得到的特征矢量的要素数量。当将1帧分割成n个时,N由3×n来表示。

然后,存储特征量化部46从存储特征规格化部44读入存储特征并进行输入,利用1以上的阈值,对存储规格化特征的多维矢量的每个要素进行量化。

例如,将阈值设为t1、t2、…、tR,量化上述式(44)所示的矢量Y时,如下所述,在使用R个阈值的情况下,(R+1)维编码yi,k

(公式45)

>>>z>>i>,>k>>>=> >>>0>>>>y>>i>,>k>>>≤>>t>1>>>>>>1>>>>t>i>><>>y>>i>,>k>>>≤>>t>2>>>>>>·>>>·>>>>>·>>>·>>>>>·>>>·>>>>>R>->1>>>>t>>R>->1>>><>>y>>i>,>k>>>≤>>t>R>>>>>>R>>>>t>R>>><>>y>>i>,>k>>>>>>>>->->->>(>45>)>>>s>

下面,为了简化,说明由阈值t来2维编码(二进制)的情况。基于阈值t的2维编码如下。

(公式46)

>>>z>>i>,>k>>>=> >>>0>>>>y>>i>,>k>>>≤>t>>>>>1>>>>y>>i>,>k>>>>>t>>>>>->->->>(>46>)>>>s>

当将利用阈值t来2维编码式(44)所示的矩阵后的量设为量化特征Z时,量化特征Z如下所示。

(公式47)

         Z=(zi,1,zi,2,zi,3,…,zi,N)      …(47)

存储特征量化部46输出将该多维矢量Z、或多维矢量的时间系列(即多个帧大小的Z)设为1个新的多维矢量的量,作为存储量化特征(步骤V4)。

此时,存储特征量化部46进行将通过运算得到的存储量化特征直接发送到特征对照部47、或暂时登录到存储量化数据库48之一的处理。

在特征对照部47实时比较存储量化特征与目的量化特征的情况下,存储特征量化部46向特征对照部47输出输入的存储影像信号的存储量化特征。另外,在向存储量化特征数据库48登录存储影像信号的数据的情况下,存储特征量化部46不向特征对照部47发送存储量化特征,而与例如影像广告提供者名或节目名和电影的题目对应地向存储量化特征数据库48登录存储量化特征。

目的特征计算部41读入提供的目的影像信号并进行输入(步骤V5),对输入的目的影像信号执行特征抽取。

此时,目的特征计算部41与存储特征计算部42一样,根据目的影像的时间系列数据,例如将目的影像的1帧图像分割成n个区域(例如横向3等分、纵向3等分,共计9个区域),对各个分割区域内的RGB各色象素,算出平均值。抽取如此得到的各区域中的RGB各自的平均象素值构成的例如27维矢量(n=9的情况),作为特征矢量,设为目的特征(步骤V6)。

另外,在目的特征的抽取方法中,有使用作为数字动态图像压缩技术的MPEG编码方式(由活动补偿、DCT与可变长编码构成)或傅立叶变换的振幅分量的方法。

然后,目的特征规格化部43从目的特征计算部41读入目的特征,对该目的特征的特征矢量的每个要素,运算求出规定的一定区段的平均值与标准偏差。

即,目的特征规格化部43与存储特征规格化部44一样,将利用式(41)-(43)得到的多维矢量的时间系列的排列(由k表示的顺序)设为目的规格化特征(步骤V7)。

然后,目的特征量化部45从目的特征规格化部43读入目的规格化特征并进行输入,生成式(44)所示的矩阵,以对该矩阵的每个要素事先提供的阈值为界,与存储特征量化部46一样,使用式(46),例如量化成二进制,如式(47)所示,得到量化特征。然后,输出该量化特征,作为目的量化特征(步骤V8)。

然后,特征对照部47分别读入由目的特征量化部45和存储特征量化部46得到的目的量化特征和存储量化特征。

另外,特征对照部47在同时输入目的影像信号和存储影像信号、实时判定类似的情况以外,从存储量化特征数据库48中依次读出进行比较的存储量化特征,与目的量化特征进行比较。

此时,特征对照部47对于存储量化特征,将长度与由目的特征量化部45提供的目的量化特征相同的特征矢量的排列设定为对照区间。

然后,特征对照部47运算目的量化特征与存储量化特征在上述对照区间中的类似度。运算双方特征矢量间的加重平均距离,作为类似度(步骤V9)。

特征对照部47从目的量化特征的特征矢量排列中,抽取多个部位的要素,设为作为排列的要素的特征矢量。

例如在设目的量化特征为15秒长度时,以0.1秒为间隔抽取共计150部位的作为排列要素的特征矢量。对各采样,分割帧图像,求出RGB各自的平均象素值,所以将由这些矢量构成的(150×27)4050维的矢量设为特征对照部47用于对照的目的矢量。

另外,与上述目的矢量一样,特征对照部47从存储量化特征的数据开头起,以15秒长度为单位,依次设定为对照区间,从特征矢量的排列中,以0.1秒间隔抽取共计150部位的特征矢量,对各采样,分割帧图像,求出RGB各自的平均象素值,所以将由这些矢量构成的(150×27)4050维的矢量设为用于对照的存储矢量。

此时,若特征对照部47从目的量化特征的特征矢量的排列中,抽取多个部位的要素并设为目的矢量,则目的特征量化部45事先从目的规格化特征中抽取作为排列要素的特征矢量,即每0.1秒间隔抽取共计150部位,进行标量量化,作为目的矢量,输出到特征对照部47。

特征对照部47边从存储量化特征的开头依次依次偏移对照区间,边运算与目的量化特征即上述目的矢量与存储矢量的加重平均距离,由此进行比较处理(步骤V10)。

然后,特征对照部47对照存储量化特征直到最后,然后,参照每个对照区间的加重平均距离,输出加重平均距离最小的对照区间的区域,作为搜索结果(步骤V11)。

另外,特征对照部47也可在事先提供加重平均距离的搜索阈值的情况下,判定该搜索阈值与选择的对照区间的加重平均距离,作为搜索结果(步骤V10),仅输出低于该搜索阈值的区域(步骤V11)。

但是,如(R+1)维编码的情况那样,在非二维的情况下,也可代替加重平均距离,应用如下定义的李(リ-)距离。其中,在下式(48)中,‖zq_i,k-zs_r,k‖是指(zq_i,k-zs_r,k)mod(R+1)与(zq_i,k-zs_r,k)mod(R+1)中小的一方。r是帧序号,是为了表示q与s未必一致而导入的记号。

(公式48)

>>>d>L>>=>>Σ>>(>i>,>r>)> >>Σ>>k>=>1>>N>>|>|>>z>>q>_>i>,>k>>>->>z>>s>_>r>,>k>>>|>|>->->->>(>48>)>>>s>

如上所述,在本发明的实施方式中,从存储影像信号和目的影像信号中,抽取作为由多维矢量构成的存储特征和目的特征,量化该多维矢量,算出量化特征,并使用加重平均距离等来对照该存储量化特征与目的量化特征。

另外,特征对照部47在多个对照区间的加重平均距离低于搜索阈值的情况下,也可输出加重平均距离的上位(从低数值的开始)第P个(P为规定的正整数)前的对照区间。

并且,特征对照部47也可在没有低于搜索阈值的对照区间的情况等下,通知表示没有对应部位的信息,从存储量化特征数据库48中读出新的存储影像信号的存储量化特征,继续步骤V9以后的搜索处理,直到搜索具有上述搜索阈值以下的对照区间的存储量化特征。

另外,也可将图11中的目的特征计算部41、目的特征规格化部43和目的特征量化部45安装在各用户终端(例如电脑)中,将具有存储特征计算部42、存储特征规格化部44、存储特征量化部46、特征对照部47和存储量化特征数据库48的影像信号搜索服务器设置在执行影像配送的服务提供器中。

由此,构成为将用户利用带摄影机的便携电话等接收到的影像信号作为目的影像信号,生成至目的量化特征,经因特网等向上述影像信号搜索服务器发送该目的量化特征,请求搜索类似于该目的量化特征的存储影像信号。此时,使计算存储量化特征和目的量化特征时的一定区段的特征矢量的排列长度等规定在影像信号搜索服务器与终端中事先一致。

下面,示出应用上述影像信号搜索系统的实施方式。本发明的影像信号搜索系统可用于使用在实际环境中收录的有反射或间歇的片断影像信号,搜索一致的影像并进行信息检索。例如,用户利用带摄影机的便携电话拍摄在街头的大型屏幕中播出的CM,发送给影像信号搜索服务等。影像信号搜索服务提供者从数据库中检索与该影像信号一致或类似的影像,收费或免费地将内容或关于该影像的信息(例如商品信息、制品特征、服务、拍摄地、出演者、主页等)提供给用户。

这里,就检索的影像的输入方法而言,期望使带摄影机的终端的取景器或屏幕与想拍摄的影像(目的影像信号)的帧一致后进行拍摄,或利用菜单动作或笔输入等手动跟踪(manua1 trace)来范围指定拍摄的影像中的动态图像帧。

另外,由于可利用本发明来容易地搜索以前难以正确搜索的、由家庭用视频反复配音复制的影像、或位速率低的影像,所以还可广泛应用于因特网上的动态图像的著作权管理系统、或CM信息检索服务等。

另外,还可用于使用用户利用摄影机拍摄的动态图像影像,从配送的电影或电视程序中切取接近该影像的剪辑后进行编辑。

<第5实施方式>

图15表示本发明的第5实施方式,是表示对噪音或失真稳固的高精度信号搜索系统的构成框图。这里,所谓信号是时间系列数据,是指若有规定的再生装置则可再生的所有信息。例如,就音乐而言,表示作为音乐本身的模拟数据、记录在CD(Compact Disc)中的数据、WAV文件的数据、MP3(MPEG-1 Audio Layer3)文件的数据等。

另外,就影像而言,表示作为影像本身的模拟数据、以MPEG-2(Moving Picture Coding Experts Group 2)为代表的数字数据等。这里,将信号检测的对象作为影像信号和音响信号来进行说明。

图15所示的信号检测系统实现将时间系列信号设为对象的对噪音或失真稳固的高精度信号检测,包括:目的特征计算部51、存储特征计算部52、目的特征规格化部53、存储特征规格化部54、目的特征面积选择部55、存储特征面积选择部56、目的特征非线性量化部57、存储特征非线性量化部58、特征对照部59、以及存储非线性量化特征数据库510,输入存储时间系列信号(存储信号)即想检索的信号、以及目的时间系列信号(目的信号)即检索的信号,输出与目的时间系列信号类似的存储时间系列信号中的部位。另外,根据目的信号,在从存储信号中执行检索之后,目的信号比存储信号短。

目的特征计算部51从按规定间隔以时间系列采样目的信号得到的、作为离散值的目的时间系列信号中,例如在音响信号的情况下,以采样单位抽取每个频率的功率谱值,多维矢量化该抽取出的特征量,得到特征矢量,导出由该特征矢量构成的目的特征。另外,在影像信号的情况下,分割帧,抽取分割区域内的象素的平均值,多维矢量化该抽取出的特征量,得到特征矢量,导出由该特征矢量构成的目的特征。

存储特征计算部52与目的特征计算部51一样,从按规定间隔以时间系列采样存储信号得到的、作为离散值的存储时间系列信号中,例如在音响信号的情况下,以采样单位抽取每个频率的功率谱值,多维矢量化该抽取出的特征量,得到特征矢量,导出由该特征矢量构成的存储特征。另外,在影像信号的情况下,分割帧,抽取分割区域内的象素的平均值,多维矢量化该抽取出的特征量,得到特征矢量,导出由该特征矢量构成的存储特征。

目的特征规格化部53根据上述目的特征,使用从包含邻接该目的特征的目的特征的周边多个目的特征导出的统计量,对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的多维矢量的目的规格化特征。

存储特征规格化部54根据上述存储特征,使用从包含邻接该存储特征的存储特征的周边多个存储特征导出的统计量,对特征矢量的每个要素独立规格化,导出具有由规格化后的值构成的多维矢量的存储规格化特征。

目的特征面积选择部55根据上述目的规格化特征,计算规定的统计量,从目的规格化特征中,选择其统计量超过规定阈值的要素,导出由被选择的要素的多维矢量构成的目的面积选择特征。

存储特征面积选择部56根据上述存储规格化特征,计算规定的统计量,从存储规格化特征中,选择其统计量超过规定阈值的要素,导出由被选择的要素的多维矢量构成的存储面积选择特征。

这里,参照图16和图17来说明目的特征面积选择部55和存储特征面积选择部56的阈值设定。

例如,考虑在选择规格化特征矢量的各要素的值、与通过统计处理求出的构成基准的值(这里为“0”)的差分绝对值大的要素的情况下,将规格化特征矢量的各要素的值与“0”的差分绝对值最大的值的例如8/10的数值设为阈值,选择各要素中、差分的绝对值超过阈值的要素。

图16中,将规格化特征矢量的各要素d1-d6的值与“0”的差分的绝对值设为D1-D6。这里,选择差分的绝对值D1-D6中最大的绝对值,将该值的例如8/10设为阈值。

如图16所示,差分的绝对值最大的是要素d2的差分绝对值D2。由此,将与D2的差分的绝对值的8/10设定为阈值|θ|。

|θ|=0.8×D2

然后,分别将与各要素d1-d6的值的差分绝对值D1-D6与阈值|θ|相比较,抽取超过阈值的要素。另外,对被选择的要素附加圆标记。

图16中,由于要素d2的差分的绝对值D2、要素d4的差分的绝对值D4、要素d5的差分的绝对值D5、要素d6的差分的绝对值D6超过阈值|θ|,所以选择这些要素,作为选择特征的图案。

这里,将差分的绝对值最大的绝对值的8/10的值设为阈值,但这是一例,不限于8/10。

另外,也可设置每个要素的下限值,进行控制使阈值缓慢降低,直到选择得到该下限值(1或多个)的要素为止。例如,在图17的实例中,示出选择上位2个要素的情况,通过缓慢降低阈值,选择差分的绝对值最大的要素d2的值与“0”的差分的绝对值D2、以及要素d5的值与“0”的差分的绝对值D5,作为选择特征的图案。

另外,目的特征面积选择部55也可求出上述目的特征中、排列的规定范围的特征矢量的各要素的平均值,从目的规格化特征中,选择各要素除以该平均值后的结果的绝对值超过规定阈值的要素,并导出由该被选择的要素的多维矢量构成的目的面积选择特征。

同样,存储特征面积选择部56也可求出上述存储特征中、排列的规定范围的特征矢量的各要素的平均值,从存储规格化特征中,选择各要素除以该平均值后的结果的绝对值超过规定阈值的要素,并导出由被选择的要素的多维矢量构成的存储面积选择特征。

另外,所谓上述“排列”是按时间系列采样的顺序、依次排列各采样中的特征矢量的排列,所谓“规定范围的特征矢量”是指该排列中的规定时间区间(下面为一定区段)的特征矢量。

上述阈值例如也可在选择规格化特征矢量的各要素的值与平均值的差分的绝对值大的要素的情况下,将规格化特征矢量的各要素的值与平均值的差分的绝对值最大的值的例如8/10的数值设为阈值,选择各要素中、与平均值的差分的绝对值超过阈值的要素。

此时,也可设置要素的下限值,进行控制使阈值缓慢降低,直到选择超过该下限值的要素为止。

并且,目的特征面积选择部55也可输入上述目的特征和目的规格化特征,求出该目的特征排列中的规定范围(一定区段)的特征矢量的每个要素的标准偏差,然后,对目的规格化特征的对应排列位置的特征矢量的每个要素,乘以上述标准偏差,计算乘法结果的绝对值,作为统计量,从目的规格化特征中,选择该统计量中最上位或从最上位起的多个(例如2个)统计量,导出作为特征图案的、被选择的要素的多维矢量所构成的目的面积选择特征。

同样,存储特征面积选择部56也可输入上述存储特征和存储规格化特征,求出该存储特征排列中的规定范围(一定区段)的特征矢量的每个要素的标准偏差,然后,对存储规格化特征的对应排列位置的特征矢量的每个要素,乘以上述标准偏差,计算乘法结果的绝对值,作为统计量,从目的规格化特征中,选择该统计量中最上位或从最上位起的多个(例如2个)统计量,导出作为特征图案的、被选择的要素的多维矢量所构成的目的面积选择特征。

目的特征非线性量化部57对上述目的面积选择特征执行后述的芙诺以分割,根据距接近特征矢量所属的芙诺以区域的1个或多个芙诺以边界面的距离,量化特征矢量。该量化利用S形(sigmoid)函数或分段直线函数,非线性量化与各个芙诺以边界面的距离,导出得到的量化的值组,作为目的非线性量化特征。

或者,利用S形函数或分段直线函数,标量非线性量化上述目的面积选择特征的矢量的各个要素,导出作为要素得到非线性量化为多个灰度的值的多维矢量构成的目的非线性量化特征。

存储特征非线性量化部58也与目的特征非线性量化部57一样,对上述存储面积选择特征执行后述的芙诺以分割,根据距接近特征矢量所属的芙诺以区域的1个或多个芙诺以边界面的距离,量化特征矢量。

该量化利用S形函数或分段直线函数,非线性量化与各个芙诺以边界面的距离,导出得到的量化值的组,作为存储非线性量化特征。

或者,利用S形函数或分段直线函数,标量非线性量化上述存储面积选择特征的矢量的各个要素,导出作为要素得到非线性量化为多个灰度的值的多维矢量构成的存储非线性量化特征。

该目的非线性量化特征和存储非线性量化特征分别按时间系列采样的顺序,依次排列各采样中的特征矢量。

特征对照部59对于按时间系列排列上述存储非线性量化特征的特征矢量,将该排列的规定范围设定为对照区间,将长度与该对照区间相同的被对照区间设定为目的非线性量化特征,计算上述对照区间与被对照区间的类似度,与事先设定的搜索阈值进行比较,判定是否类似。

另外,特征对照部59在上述对照区间的对照处理结束时,由于设定新的对照区间,所以移向排列邻接的相同时间宽度范围。

存储非线性量化特征数据库510对多个、例如很好配送的音乐或CM,利用存储特征计算部52、存储特征规格化部54、存储特征面积选择部56、存储特征非线性量化部58,事先计算存储非线性量化特征,对应于各歌曲名或CM提供者名来存储存储非线性量化特征。

另外,本例中,在存储非线性量化特征数据库510中,计算存储事先计算的非线性量化特征,但也可设置存储存储信号(新信号)的数据库。

下面,参照附图来说明本实施方式的信号检测系统的动作。图18是表示图15的信号检测系统的动作例的流程图。

存储特征计算部52读入提供的存储信号并进行输出(步骤W1),对输入的存储信号执行特征抽取。

就存储特征计算部52中的特征抽取而言,下面示出输入的信号是音响信号的情况、以及是影像信号的情况等两种实例。存储特征计算部52在检测的对象是音响信号的情况下,使用傅立叶变换的振幅分量,傅立叶变换例如以频率8000Hz标本化的音响信号的1秒区间,等间隔地将0-4000Hz分割成32个频带区间,将各区间中的振幅分量的平均功率构成的32维多维矢量作为特征矢量,每0.1秒抽取,设为存储特征(步骤W2)。

在影像信号是检测对象的情况下,根据存储的时间系列数据,例如将存储的1帧图像横向3等分、纵向3等分,共计分割成9个区域,对各个分割(区域)内的RGB各色象素,算出平均值。抽取如此得到的9个区域中的RGB各自的平均象素值构成的共计27维的矢量,作为特征矢量,设为存储特征(步骤W2)。此时,对每个帧得到所述特征矢量。

即,如图19所示,当设定相当于从帧(i-M)至帧(i+M-1)的2M帧的时间窗时(i为开头帧的帧序号),就位于其间的帧(i+0)(下面有时也记作帧i)而言,如图20所示,将1个帧分割成n个子画面。平均帧i的第1子画面的RGB各色的象素,取得平均值(xi,1,xi,2,xi,3),平均第2子画面的RGB各色的象素,取得平均值(xi,4,xi,5,xi,6),平均第3子画面的RGB各色的象素,取得平均值(xi,7,xi,8,xi,9),以下一样,平均第n子画面的RGB各色的象素,取得平均值(xi,(3n-2),xi,(3n-1),xi,3n)。其中,第1个下标表示帧的通用序号,第2个下标表示该帧内的要素的序号。

另外,上述说明中,各象素具有R值、G值、B值,但各象素也可具有R值、G值、B值之一。

由此,例如若设n=9,则各帧得到(3×9=27)个值,抽取如此得到的27维多维矢量,作为特征矢量,并设为存储特征(步骤W2)。将所述多维矢量称为局部区域原色特征。此时,所述的xi,1等变为局部区域原色特征的要素。

另外,在存储特征的抽取方法中,有使用作为数字动态图像压缩技术的MPEG(Moving Picture Coding Experts Group)编码方式(由活动补偿、DCT(Discrete Cosine Transform)与可变长编码构成)或傅立叶变换的振幅分量的方法。

然后,图15中,存储特征规格化部54从存储特征计算部52读入存储特征,对该存储特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。

例如,在影像信号的情况下,存储特征规格化部54对各局部区域中RGB各色,根据某个时间区间的值,求出平均值与标准偏差,使用求出的平均值与标准偏差,进行规格化。此时,当将存储特征规格化部54规格化后的局部区域原色特征称为规格化局部原色特征时,其第k个要素yi,k如下式(51)所示。

(公式51)

>>>y>>i>,>k>>>=>>1>>σ>>i>,>k>>>>>(>>x>>i>,>k>>>->>m>>i>,>k>>>)>>->->->>(>51>)>>>s>

(公式52)

>>>m>>i>,>k>>>=>>1>>2>M>>>>Σ>>j>=>->M>>>M>->1>>>>x>>>(>i>+>j>)>>,>k>>>->->->>(>52>)>>>s>

(公式53)

>>>>σ>2>>>i>,>k>>>=>>1>>2>M>>>>Σ>>j>=>->M>>>M>->1>>>>>(>>x>>>(>i>+>j>)>>,>k>>>->>m>>i>,>k>>>)>>2>>->->->>(>53>)>>>s>

其中,式(52)中的x(i+j),k表示向全部帧附加通用序号时的第(i+j)个帧的局部区域特征的第k个要素。j是对设定的时间区间内的帧中的中心帧的相对序号,在设定的时间区间内包含2M个帧的情况下,为-M≤j≤M-1,j为整数。i为设定的时间区间的帧中、中心帧的通用序号(i≥M),相当于j=0时的通用序号。另外,mi,k是对-M≤j≤M-1的x(i+j),k的平均值。式(53)中的σi,k为对-M≤j≤M-1的x(i+j),k的标准偏差。

然后,使用由式(51)-(53)得到的多维矢量的时间系列的排列即1以上的帧,将通过按帧序号的上升顺序排列由按k的上升顺序排列各帧的要素的要素所构成的多维矢量所生成的多维矢量设为存储规格化特征(步骤W3)。

接着,存储特征面积选择部56从存储特征计算部52读入存储特征并进行输入,或从存储特征规格化部54读入存储规格化特征并进行输入,就关于各要素的一定区段,使用上述式(52)和式(53),求出存储特征的多维矢量的每个要素的标准偏差σi,k。同样,也可通过从存储特征规格化部54将存储规格化特征与标准偏差读入并输入存储特征面积选择部56来实现。这是因为由存储特征规格化部54算出的标准偏差、与根据从存储特征计算部52得到的存储特征算出的标准偏差为相同值。

然后,存储特征面积选择部56如下式(54)所示,对每个要素yik乘以上述标准偏差σi,k,取其绝对值。

(公式54)

        zi,k=|yi,k·σi,k|               …(54)

这里,存储特征面积选择部56从得到的各要素与标准偏差的乘法结果的统计量zik中,按一定区段单位,对每个要素选择从最上位开始的多个矢量、例如上位两个矢量(步骤W4)。

存储特征非线性量化部58对存储面积选择特征的多维矢量的各要素执行上述芙诺以分割,根据基于特征矢量与芙诺以边界面所得到的距离,进行非线性量化计算(步骤W5)。

这里,参照图21来说明上述芙诺以分割。图21表示非线性量化2维特征矢量中的芙诺以边界与其距离的情况。图21中,Q1、Q2、Q3为芙诺以区域的原点(母点)。这些原点Q1、Q2、Q 3事先提供学习信号、使用公知的矢量量化法来确定。原点Q1、Q2、Q3各自被芙诺以多边形包围,设定芙诺以区域R1、R2、R3。

然后,确定该特征矢量属于芙诺以区域R1、R2、R3的哪个区域。接着,选择接近该区域的芙诺以边界(用实线表示)中、最近的芙诺以边界。使用关于距选择的芙诺以边界的距离x的非线性函数f(x),对与对f(x)的规定定义值对应的每个x值,分配1个代码,进行量化。另外,图21中,虚线表示非线性的分割线,点划线是二等分两个芙诺以边界间的区域的超平面。作为非线性函数,例如使用下示的S形函数。

(公式55)

>>f>>(>x>)>>=>>1>>1>+>exp>>(>->x>)>>>>->->->>(>55>)>>>s>

例如图21所示,非线性分割与芙诺以边界的距离,分配各代码A-U。此时,对于全部芙诺以分割区域中的细化的区域,设定代码长度,以不分配相同的代码。

另外,作为非线性函数,也可使用下示的分段直线函数。

(公式56)

>>f>>(>x>)>>=> >>>>x>0.2>>>>>(>0>≤>x><>0.2>)>>>>>>>>x>->0.2>>0.3>>+>1.0>>>>(>0.2>≤>x><>0.5>)>>>>>>>>x>->0.5>>0.5>>+>2.0>>>>(>0.5>≤>x><>1.0>)>>>>>>x>+>2.0>>>>(>1.0>≤>x>)>>>>>>->->->>(>56>)>>>s>

另外,在量化特征矢量的情况下,也可标量量化各个要素。另外,也可使用将几个要素一起设为矢量的量化法。

然后,存储特征非线性量化部58执行将由上述非线性量化计算得出的存储非线性量化特征直接发送给特征对照部59、或暂时登录到存储非线性量化特征数据库510之一的处理。

在特征对照部59实时比较存储非线性量化特征与目的非线性量化特征的情况下,存储特征非线性量化部58向特征对照部59输出输入的存储信号的存储非线性量化特征。另外,在向存储非线性量化特征数据库510登录存储信号的数据的情况下,存储特征非线性量化部58不向特征对照部59发送存储非线性量化特征,而与例如广告提供者名或节目名和电影的题目对应地向存储非线性量化特征数据库510登录存储面积选择特征。

目的特征计算部51读入提供的目的信号并进行输入(步骤W6),对输入的目的信号执行特征抽取。

目的特征计算部51在检测的对象是音响信号的情况下,使用傅立叶变换的振幅分量,傅立叶变换例如以频率8000Hz标本化的音响信号的1秒区间,将0-4000Hz等间隔分割为32个频带的区间,以每0.1秒抽取各区间内的振幅分量的平均功率构成的32维多维矢量,作为特征矢量,设为目的特征(步骤W7)。

在影像信号是检测对象的情况下,根据目的的时间系列数据,例如将目的的1帧图像横向3等分、纵向3等分,共计分割成9个区域,对各个分割(区域)内的RGB各色象素,算出平均值。抽取如此得到的9个区域中的RGB各自的平均象素值构成的共计27维的矢量,作为特征矢量,设为目的特征(步骤W7)。此时,对每个帧得到所述特征矢量。

然后,目的特征规格化部53从目的特征计算部51读入目的特征,对该目的特征的特征矢量的每个要素,计算求出规定的一定区段的平均值与标准偏差。

即,目的特征规格化部53与存储特征规格化部54一样,将由式(51)-(53)得到的多维矢量的时间系列的排列(由k表示的顺序)设为目的规格化特征(步骤W8)。

接着,目的特征面积选择部55从目的特征计算部51读入目的特征并进行输入,或从目的特征规格化部53读入目的规格化特征并进行输入,与存储特征面积选择部56一样,对每个要素乘以根据目的特征的一定区段求出的标准偏差σi,k,将乘法结果设为统计量。同样,也可通过从目的特征规格化部53将目的规格化特征与标准偏差读入并输入目的特征面积选择部55来实现。这是因为由目的特征规格化部53算出的标准偏差、与根据由目的特征计算部51得到的目的特征算出的标准偏差为相同值。

这里,目的特征面积选择部55从得到的各要素与标准偏差的乘法结果的统计量zi,k中,按一定区段单位,对每个要素,选择从最上位起的多个矢量、例如上位2个矢量(步骤W9)。

目的特征非线性量化部57对目的面积选择特征的多维矢量的各要素执行上述芙诺以分割,根据基于特征矢量与芙诺以边界面所得到的距离,进行非线性量化计算。然后,将通过所述非线性量化计算得到的目的非线性量化特征输出到特征对照部59(步骤W10)。

特征对照部59分别读入由目的特征非线性量化部57和存储特征非线性量化部58得到的目的非线性量化特征和存储非线性量化特征。

另外,特征对照部59在同时输入目的信号和存储信号、实时判定类似的情况以外,从存储非线性量化特征数据库510中依次读出进行比较的存储非线性量化特征,与目的非线性量化特征进行比较。

此时,特征对照部59对于存储非线性量化特征,将长度与由目的特征非线性量化部57提供的目的非线性量化特征相同的特征矢量的排列设定为对照区间。

然后,特征对照部59运算目的非线性量化特征与上述对照区间的类似度。运算双方特征矢量间的加重平均距离,作为类似度(步骤W11)。

特征对照部59从目的非线性量化特征的特征矢量的排列中,抽取多个部位的要素,并设为作为排列的要素的特征矢量。例如,在设目的非线性量化特征为15秒长度时,从该目的非线性量化特征的特征矢量排列中,以0.1秒为间隔抽取共计150部位的作为排列要素的特征矢量。对各采样,将频带分割成3个,所以将由这些矢量构成的(150×32)的4800维多维矢量设为特征对照部59用于对照的目的矢量。

另外,与上述目的矢量一样,特征对照部59从存储非线性量化特征的数据开头起,以15秒长度为单位,依次设定为对照区间,从特征矢量的排列中,以0.1秒为间隔抽取共计150部位的特征矢量,对各采样,将频带分割成32份,所以将由这些矢量构成的(150×32)的4800维多维矢量设为特征对照部59用于对照的存储矢量。

此时,若特征对照部59从目的非线性量化特征的特征矢量排列中,抽取多个部位的要素并设为目的矢量,则目的特征非线性量化部57也可从面积选择特征中事先抽取作为排列的要素的特征矢量,即以0.1秒为间隔抽取共计150部位,执行非线性量化,作为目的矢量,输出到特征对照部59。

特征对照部59在事先提供加重平均距离的搜索阈值作为搜索结果的情况下,判定该搜索阈值与选择的对照区间的加重平均距离(步骤W12)。

在步骤W12中,边从存储面积选择特征的开头起依次偏移对照区间,边计算上述目的非线性量化特征与存储非线性量化特征的加重平均距离,与事先设定的搜索阈值进行比较处理,在对照处理至最后之后,若检索到每个对照区间的加重平均距离比事先设定的搜索阈值低的存储面积选择特征的对照区间的区域,则输出该对照区间,作为搜索结果(步骤W13)。

如上所述,在本发明的实施方式中,根据存储影像信号和目的影像信号,求出为由多维矢量构成的存储特征和目的特征,规格化该多维矢量,进行要素选择,进行非线性量化,算出非线性存储量化特征和非线性目的量化特征,使用加重平均距离等,对照该非线性存储量化特征和非线性目的量化特征。

另外,在上述实例中,在进行面积选择之后,进行非线性量化,但也可如图22中的流程图所示,在进行非线性量化之后(步骤W5和步骤W10),进行面积选择(步骤W4和步骤W9)。

特征对照部59所用的对照区间(时间窗或帧数)或与存储特征面积选择部56或目的特征面积选择部55所用的时间区间、以及存储特征规格化部54或目的特征规格化部53所用的时间区间独立确定,即,未必使用一致的时间区间。

另外,特征对照部59也可在事先提供加重平均距离的搜索阈值作为搜索结果的情况下,判定该搜索阈值与选择的对照区间的加重平均距离,仅输出低于该搜索阈值的区域。

另外,特征对照部59也可在多个对照区间的加重平均距离低于搜索阈值的情况下,输出加重平均距离的上位(从低的数值起)第L个以前的对照区间。

并且,特征对照部59也可在没有低于搜索阈值的对照区间的情况等下,通知表示没有对应部位的信息,从存储非线性量化特征数据库510中读出新的存储信号的存储非线性量化特征,继续步骤W10以后的搜索处理,直到搜索具有上述搜索阈值以下的对照区间的存储非线性量化特征。

另外,也可将图15中的目的特征计算部51、目的特征规格化部53、目的特征面积选择部55和目的特征非线性量化部57安装在各用户终端(例如电脑)中,将具有存储特征计算部52、存储特征规格化部54、存储特征面积选择部56、存储特征非线性量化部58、特征对照部59和存储非线性量化特征数据库510的信号检索服务器设置在执行配送的服务提供器中。

由此,构成为将用户利用便携电话等接收到的信号作为目的信号,生成至目的非线性量化特征,经因特网等向上述信号搜索服务器发送该目的非线性量化特征,请求搜索类似于该目的非线性量化特征的存储信号。此时,使计算存储非线性量化特征和目的非线性量化特征时的一定区段的特征矢量的排列长度等规定在信号检测服务器与终端中事先一致。

下面,示出应用上述信号检测系统时的实施方式。本发明的搜索系统可用于使用在实际环境中收录的有噪音或失真的片断信号,搜索一致或类似的信号或进行信息检索。例如,用户利用便携电话等便携终端,接收在饮茶店作为BGM(Back Ground Music)播放的音乐、或在街头的大型屏幕中播出的CM的音乐或影像,发送给信号检索服务。信号检索服务提供者从数据库中检索与该信号一致或类似的信息,收费或免费地将内容或关联信息(例如曲名、演奏者名、节目、商品、音乐会信息、或主页等)提供给用户。

这里,在检索影像信号的情况下,期望当输入影像信号时,由带有录音功能的终端装置使带摄影机的终端的取景器或屏幕与想拍摄的(目的信号的)帧一致后进行拍摄,或利用菜单动作或笔输入等手动跟踪来范围指定拍摄中的动态图像帧。

当实际上构造上述各实施方式中的检索系统时,也可通过将实现各系统功能用的程序记录在计算机可读取的记录介质中,使记录在该记录介质中的程序读入计算机系统中,通过执行,进行信号检测处理和对数据库的存储信号的存储处理。设这里所谓的“计算机系统”包含OS(Operating System)或外围设备等硬件。另外,设“计算机系统”还包含具备主页提供环境(或显示环境)的WWW(World Wide Web)系统,另外,所谓“计算机可读取的记录介质”是指软盘、磁光盘、ROM(ReadOnly Memory)、CD-ROM(Compact Disc Read On1y Memory)等可移动介质、内置于计算机中的硬盘等存储装置。另外,所谓“计算机可读取的记录介质”还包含在经因特网等网络或电话线路等通信线路发送程序时的、构成服务器或客户机的计算机内部的易失性存储器(RAM)等、在一定时间保持程序的存储器。

另外,上述程序也可从将该程序存储在存储装置等中的计算机系统,经传输介质,或由传输介质中的载波传输到其它计算机。这里,传输程序的“传输介质”是指因特网等网络(通信网)或电话线路等通信线路(通信线)等、具有传输信息的功能的介质。另外,上述程序也可用于实现所述功能的一部分。并且,也可以利用与已记录在计算机系统中的程序的组合来实现所述功能的所谓差分文件(差分程序)。

另外,在上述各实施方式中,作为用户取入音乐所用的捕获器件,例如也可使用附带于便携电话或IC录音机等便携终端上的麦克风、连接于电脑上的麦克风、或来自电视或视频等的线输入。

另外,在例如上述第1实施方式中对用户提供服务的方法中,有具备如下处理步骤的方法。

首先,利用便携电话的声音通话来发送接受用户的指示的该便携电话捕获的声音。然后,接收侧执行关于从该便携电话接收到的声音数据的特征抽取,再根据该抽取结果执行搜索。然后,接收侧生成搜索结果的一览信息,将该一览信息发送给该便携电话。

然后,该便携电话接收该一览信息,输出到自身的显示部进行显示。用户确认该便携电话的显示部,指示该便携电话下载期望的音乐数据等。以后的处理也可与现有的音乐数据的下载等中的处理一样。

另外,上述提供服务的方法中,用户也可使用电脑来代替便携电话。此时,也可在电脑上对声音进行特征抽取,并且,也可经因特网发送特征的抽取结果,由接收侧进行搜索。

另外,在上述提供服务的方法中,也可在便携终端上特征抽取声音,并且,也可由i模式(注册商标)等数据包通信、拨号连接或无线LAN(Local Area Network)等手段发送特征的抽取结果,由接收侧进行搜索。

另外,就上述提供服务的方法而言,既可文件化声音,还可利用HTTP(Hyper Text Transfer Protocol)或SMTP(Simple Mail TransferProtocol)等经因特网发送,在接收侧执行特征抽取和搜索。

另外,在上述各实施方式中,作为用户为了取入影像而使用的捕获器件,例如也可使用附属在便携终端上的照相机、数码相机、连接于电脑上的网络相机(web camera)、或来自电视或视频等的影像输入。

另外,在例如上述第3实施方式中对用户提供服务的方法中,有具备如下处理步骤的方法。

首先,接受到用户指示的便携电话发送由自身的电视电话功能得到的影像。然后,接收侧执行关于从该便携电话接收到的影像数据的特征抽取,再根据该抽取结果执行搜索。然后,接收侧生成搜索结果的一览信息,将该一览信息发送给该便携电话。

然后,该便携电话接收该一览信息,输出到自身的显示部进行显示。用户确认该便携电话的显示部,指示该便携电话下载期望的影像数据等。以后的处理也可与现有的影像数据的下载等中的处理一样。

另外,上述提供服务的方法中,用户也可使用电脑来代替便携电话。此时,也可在电脑上对影像进行特征抽取,并且,也可经因特网发送特征的抽取结果,由接收侧进行搜索。

另外,在上述提供服务的方法中,也可在便携终端上特征抽取影像,并且,也可由i模式(注册商标)等数据包通信、拨号连接或无线LAN等手段发送特征的抽取结果,由接收侧进行搜索。

另外,就上述提供服务的方法而言,既可文件化影像,还可利用HTTP或SMTP等经因特网发送,在接收侧执行特征抽取和搜索。

另外,在上述服务的提供方法中,便携电话既可在声音通话中利用声音通知搜索结果,还可告知附带信息。此时,利用HTTP或SMTP将从接收侧发送的搜索结果发送给便携电话,便携电话利用文本来显示搜索结果,告知用户。并且,该附带信息也可包含音乐或影像的艺术家名、标题、关联的URL等。另外,上述附带信息在检索结果是CM的情况下,还包含该CM的商品信息等。另外,该便携电话在检索结果中存在关于由MPEG7等记述的作为检索结果的内容的摘要信息或关联信息的情况下,还显示这些摘要信息或关联信息。

本发明可在便携终端接收在实际环境中播放的影像或CM,使用该接收到的影像信号(目的影像信号:想搜索的影像),从庞大的影像CM数据库中检索相同的影像或CM。

另外,本发明可在便携终端接收在实际环境中播放的CM等影像信号或音乐等音响信号,使用该接收到的影像信号或音响信号(目的信号:想搜索的影像信号或音响信号),从存储庞大的影像或音乐的信号信息的数据库中,检索相同的影像或音乐。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号