首页> 中国专利> 图象特征编码方法以及图象检索方法

图象特征编码方法以及图象检索方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

特征编码部5提取和编码视频信号102的特征量,生成特征数据流103。特征鉴别部11对特征数据流103解码的解码特征量109和来自用户的检索标题108进行匹配,检索用户要求的视频内容111。

著录项

公开/公告号CN1333976A

专利类型发明专利
公开/公告日2002-01-30

原文格式PDF
申请/专利权人三菱电机株式会社;
展开▼

申请/专利号CN99815675.2
发明设计人关口俊一;山田悦久;J·周;浅井光太郎;
展开▼

申请日1999-01-29
分类号H04N7/24;H04N5/93;
代理机构72001 中国专利代理(香港)有限公司;
代理人栾本生;叶恺东
地址日本东京都
入库时间 2023-12-17 14:10:59

法律信息

法律状态公告日

法律状态信息

法律状态
2018-02-27

未缴年费专利权终止 IPC(主分类):H04N7/24 授权公告日:20051130 终止日期:20170129 申请日:19990129

专利权的终止
2005-11-30

授权

授权
2002-01-30

实质审查的生效

实质审查的生效
2002-01-30

公开

公开

说明书

技术领域

本发明涉及对用模拟或数字记录的影象、静止画等图象数据的特征量进行提取、编码，并利用编码的特征量进行图象数据的检索的图象特征编码方法以及图象检索方法。

背景技术

第1图是说明记载在电子情报通信学会论文志D-II，1996年4月号(Vol.79-D-II，No.4，PP.476-483)上的已有图象检索处理系统的方框图。图中，91是将静止图象201区域分割为各区段，对分割的各区段赋予关键字，并输出概念关键字203和场面记述关键字204的前处理部，92是输入用户97预先准备的关键字205，将概念关键字203与场面记述关键字204进行对照，检索静止图象201的检索工具。

这里，概念关键字203是表示各区段的颜色信息和特征量的关键字，场面记述关键字204是使用关于「位置」、「颜色」、「形状」、「大小」、「方向」等的术语表现各区段的图象特征量的关键字。

在第1图的前处理部91中，93是将静止图象201区域分害为各区段的区域分割部，94是利用对颜色信息预先分配的概念关键字，根据由区域分割部93分割的各区段的颜色和特征量，提取概念关键字203的概念关键字提取部，95是对于由区域分割部93分割的各区段的图象特征量，通过从用户96预先定义的术语选择输入记述的术语记述202，记述场面记述关键字204的场面记述关键字记述部。

在第1图的检索工具92中，98是根据用户97选择的关键字205和来自前处理部91的概念关键字203、场面记述关键字204进行特征量鉴别的特征鉴别部。

下面说明其动作。

当静止图象201被输入到前处理部91时，区域分割部93将静止图象201区域分割为各区段。概念关键字提取部94，利用对于颜色信息预先分配的概念关键字，从被分割的各区段的颜色和特征量，提取概念关键字203。

场面记述关键字记述部95，对于被分割的各区段的图象特征量，根据来自用户96的术语记述202，记述场面记述关键字204。

当用户97检索静止图象201时，将从预先准备的概念关键字203和场面记述关键字204中选择的关键字205输入到检索工具92。特征鉴别部98，根据用户97的关键字205和来自前处理部91的概念关键字203、场面记述关键字204，进行特征量的鉴别，检索用户97要求的静止图象201。

上述图象检索处理系统，由于仅以静止图象201为对象，因此存在检索动图象困难的课题。

并且，由于未考虑各关键字的记述方法、存储方法等，则图象服务器(server)和委托人(检索工具92)必须1对1地对应，当通过网络很多用户使用各种各样的检索工具时，存在不可能构建进行图象检索的图象检索处理系统的课题。

本发明是为解决上述课题而为的，其目的在于获得一种许多用户可以利用各种各样的检索工具检索图象的图象特征编码方法和图象检索方法。

发明概述

本发明的图象特征编码方法是：从图象帧提取作为规定图象区域的区段，对每个提取的上述区段赋予识别上述区段的区段号码，向上述区段分配代表颜色，算出上述区段的相对于上述图象帧的面积率，按照每个上述区段，将上述代表颜色和上述面积率作为上述区段的特征量，与上述区段号码一起进行编码并生成特征数据流。

这样即可生成将在图象检索中使用的代表颜色和面积率作为区段的特征量的特征数据流。

本发明的图象特征编码方法是：在从图象帧提取区段时，根据基于颜色信息的区域分类提取上述区段，在向上述区段分配代表颜色时，将在上述区段的提取中使用的上述颜色信息作为上述代表颜色进行分配。

这样即可生成将在图象检索中使用的代表颜色和面积率作为区段的特征量的特征数据流。

本发明的图象特征编码方法是：在从图象帧提取区段时，在邻接的图象帧间进行上述区段的鉴别，对于判定为同样区段的区段，赋予同样的区段号码。

这样，即可生成能提高检索效率的特征数据流。

本发明的图象特征编码方法是：在从图象帧提取区段时，在邻接的图象帧间进行区段的追踪，对于判定为同样区段的区段求出移动信息，在每个上述区段，将上述移动信息作为上述区段的特征量进行编码，生成特征数据流。

这样，根据移动信息即可生成能检索图象帧的特征数据流。

本发明的图象特征编码方法是：从视频信号的帧群中提取作为检索线索的适当的图象帧作为主画面，从提取的主画面中提取区段。

这样，即可生成作为图象检索线索的主画面的特征数据流。

本发明的图象特征编码方法是：求出每个主画面规定区域的象素值平均值，生成上述主画面的缩小图象，在每个上述主画面，将上述缩小图象作为上述主画面的特征量进行编码，生成特征数据流。

这样，即可生成可进行粗略浏览的缩小图象。

本发明的图象检索方法是：具有存储图象帧的第1存储部，以及对上述第1存储部存储的图象帧的特征量进行编码并作为特征数据流存储的第2存储部，在进行图象检索时，根据用户的检索指示，对上述第2存储部存储的上述特征量进行解码，并进行来自用户的检索条件和上述解码的特征量的鉴别，检索上述第1存储部存储的图象帧。

这样，用户使用各种各样的检索工具，即可检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含在图象帧的规定图象区域的区段的代表颜色，作为用户的检索条件，包含上述代表颜色。

这样，用户根据区段的代表颜色，即可检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含在图象帧的规定图象区域的区段的相对于上述图象帧的面积率，作为用户的检索条件，包含上述面积率。

这样，用户根据区段的面积率，即可检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含邻接的图象帧的移动信息，作为用户的检索条件，包含上述移动信息。

这样，用户根据移动信息，即可检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含图象帧的缩小图象，进行来自用户的检索条件和上述解码的特征量的鉴别，将上述缩小图象提示给上述用户。

这样，用户根据缩小图象，即可高效率地检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含指定的被摄物是否存在于图象帧的信息。

这样，用户可提高图象数据的检索效率。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含指定的被摄物是否存在于以后的图象帧的信息。

这样，用户可提高图象数据的检索效率。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含指定的被摄物是否存在于以前的图象帧的信息。

这样，用户可提高图象数据的检索效率。

本发明的图象检索方法是：在进行来自用户的检索条件和已解码的特征量的鉴别时，向用户提示优先度。

这样，用户可迅速检索适合要求的图象数据。

本发明的图象检索方法是：在进行来自用户的检索条件和已解码的特征量的鉴别时，进行来自用户的多个检索条件和已解码的多个特征量的鉴别，综合判断，检索第1存储部存储的图象帧。

这样，用户可提高图象数据的检索效率。

图面的简单说明

第1图是表示已有的图象检索处理系统的方框图。

第2图是表示利用本发明的典型系统构成的方框图。

第3图是说明视频内容与特征数据流对应的图形。

第4图是表示本发明实施例1的特征编码部5内部构成的方框图。

第5图是表示本发明实施例1的特征编码部5动作的流程图。

第6图是表示第4图的主画面决定部21内部构成的方框图。

第7图是表示第4图的主画面决定部21的其他内部构成的方框图。

第8图是说明区段的图形。

第9图是说明视频序列中的区段的位置的图形。

第10图是表示第4图的区段提取部23内部构成的方框图。

第11图是说明MPEG-4的视频目标平面(VOP)的图形。

第12图是表示使用第10图的区段提取部23时的特征编码部5的特征数据流103构成的图形。

第13图是表示彩色映象变换表128的具体实例图。

第14图是表示本发明实施例2的区段提取部23内部构成的方框图。

第15图是表示使用第14图的区段提取部23时的特征编码部5的特征数据流103构成的图形。

第16图是表示本发明实施例3的区段提取部23内部构成的方框图。

第17图是表示使用第16图的区段提取部23时的特征编码部5的特征数据流103构成的图形。

第18图是表示本发明实施例4的特征鉴别部11内部构成的方框图。

第19图是表示本发明实施例5的附加优先度的检索候补提示的实例图。

实施本发明的最佳形态

以下为了更详细说明本发明，参照附图说明实施本发明的最佳形态。

实施例1

本实施例1中，着眼于视频序列中包含的被摄物，将包围各帧包含的被摄物区域的矩形区域定义为区段，对从视频信号的各帧中提取区段、并求出其特征量进行生成特征数据流处理的装置予以说明。

首先，作为前提对使用该装置的系统进行说明。第2图是表示利用本发明的典型系统构成的方框图。图中，1是委托人；2是服务器；3是存储视频内容111的视频内容存储部；4是从视频内容存储部3存储的视频内容111中，对数字压缩的位流101进行解码，输出视频信号102的解码处理部。

第2图中，5是输入由解码处理部4解码的视频信号102，生成特征数据流103的特征编码部；6是根据用户指示、设定104，控制特征编码部5的用户I/F；7是存储由特征编码部5生成的特征数据流103的特征数据流存储部。视频内容存储部3和特征数据流存储部7分别设置在服务器2内，但也可以在同一存储部内存储。

在委托人1中，8是根据用户指示、设定105，用于委托人1的控制，输出检索控制信号106的用户I/F；9是输入检索控制信号106，输出检索指示107和检索标题108的检索处理部。

在第2图中，10是根据来自检索处理部9的检索指示107，对特征数据流存储部7存储的特征数据流103进行解码，输出解码特征量109的特征解码部；11是输入来自检索处理部9的检索标题108和来自特征解码部10的解码特征量109并进行匹配处理，输出表示特征数据流号码的指示字110的特征鉴别部。111是根据特征鉴别部11输出的指示字110，从视频内容存储部3输出的视频内容。

下面说明其动作。

第2图所示系统是根据与视频内容存储部3保持的各个视频内容111对应的特征数据流103，检索、浏览(挑着读)用户要求的视频内容111的系统。这里，为了方便，采用服务器、委托人模型，将检索系统看作委托人3、将内容存储、送出系统看作服务器4，予以说明。

委托人3和服务器4，可以通过网络动作，也可以在同一装置内动作。第2图中，未图示经由网络的动作，但以下将适当说明在网络处理中的必要动作。

(1)特征数据流的意义

第3图是说明视频内容111与特征数据流103的对应的图形。图中，VC表示视频内容(Video Content)111，FS表示特征数据流(Feature Stream)103。VC和FS分别附加对应的号码，FSn是记述视频内容VCn特征量的特征数据流。VCn和FSn通过各指示字110加以对应。

如第3图所示，若在VC1的第k帧包含「兰色天空」，FS1则在VC1的第k帧中记述存在「代表颜色是兰色，而且占据帧画面中80％的区域」。这样，以下将具有以特征量作为属性的区域称为区段。因此，由第2图的委托人1进行「代表颜色是兰色，而且占据帧画面中80％的区段」的指定，从特征数据流103寻找出对应的特征量，则可提取出包含对应的帧画面的视频内容111。

作为特征量，可以定义代表颜色、尺寸、画面内位置、形状、位置的变化(移动)、亮度和颜色的变化、对比度等各种属性。当然，特征量的指定方法是任意的，通过在委托人1的检索处理部9设置适当的解析功能，用户即可进行更直观的指定。

这样，通过将视频内容(VCn)111中的特征量记述在特征数据流(FSn)103中，用户即可从大量的视频内容111的数据中，用直观的检索标题108，容易地寻找出所要求的内容111。这种检索方法，可从包含极大数量的视频内容111的视频程序库和数据库、录象磁带等，高效率进行寻找所要求的内容111的处理。

(2)特征数据流的生成

特征数据流103的生成处理相当于生成与视频内容(VCn)111对应的特征数据流(FSn)103并将其存储在特征数据流存储部7的处理。进行该处理的是解码处理部4、特征编码部5、用户I/F6。解码处理部4仅在视频内容(VCn)111以数字压缩的位流101的形式存储是才是必要的，输出视频信号102。当视频内容(VCn)111是可直接表示的图象数据时，不须要解码处理部4。

特征编码部5根据视频信号102生成特征数据流(FSn)103，并存储在特征数据流存储部7。特征数据流103的生成处理详细情况将在后面讲述。

(3)检索处理

检索处理由委托人1进行。委托人1是用户从视频内容存储部3存储的视频内容111中，检索所要求的内容111的处理部。用户根据用户指示、设定105，通过委托人1的用户I/F8，为了求出与作为特征数据流103被编码的特征量对应的值，将检索控制信号106供给检索处理部9。

以第3图为例，简单说明从全部视频内容(VCn)111中检索包含「兰色天空」的视频内容(VC1)111的例子。该检索处理是对全部特征数据流(FSn)103，检索表示「兰色天空」的特征量，对与包含该特征量的特征数据流(FSn)103对应的视频内容(VCn)111进行确定的处理。检索处理部9从检索控制信号106求出应检索的特征量的值，在作为检索标题108送出的同时，使检索指示107为有效。

若委托人1和服务器2由网络连接时，检索指示107和检索标题108，通过网络被传送到服务器2和进行特征量鉴别处理的装置(特征解码部10和特征鉴别部11)。

当检索指示107为有效时，特征解码部10从特征数据流存储部7依次取出特征数据流(FSn)103，从特征数据流103解码特征量的值。其结果，得到的解码特征量109，在特征鉴别部11，与检索标题108进行匹配处理。当发现与检索标题108一致的解码特征量109时，则从包含对应的特征量的特征数据流103的指示字110，确定视频内容(VCn)111。在第3图的例子中，由于包含「兰色天空」的仅是VC1，则在FS1的第k帧的区段中，发现了与检索标题108一致的解码特征量109，VC1的第k帧作为检索结果输出。

进行特征量鉴别处理的装置(特征解码部10和特征鉴别部11)，可以包含在委托人1中，也可以包含在服务器2中，也可以包含在网络中存在的其他装置中。当然，委托人1和服务器2为同一装置时，包含在同一装置内。

作为检索结果输出的视频内容111被送到委托人1，用户通过用户I/F8，可浏览该图象的内容。并且，通过表示「兰色天空」的特征量，即使发现作为检索结果的多个视频内容111时，通过在用户I/F8的显示，也可以浏览多个视频内容111。利用这种系统，用户不必全部直接浏览视频内容111的内容，而仅是集中地确认包含所要求区段的视频内容111中的内容，因而检索效率提高了。

(4)交互功能

该系统中，当特征编码部5从视频信号102生成特征数据流103时，根据用户指示和设定104，通过用户I/F6，用于定义视频内容(VCn)111包含的区段的各种条件设定、区段的追加和削除，或定义区段的帧位置设定等，用户可以任意控制特征数据流103的生成处理。

(5)特征数据流的传送和分配

只要特征数据流(FSn)103具有向对应的视频内容(VCn)111的指示字112，不必与视频内容111一起存储在服务器2中，存在地何处都可以。例如，当有仅包含特征数据流103的CD-ROM时，在委托人1，通过阅读该CD-ROM，即可确定与特征数据流103对应的视频内容111的场所。这时，只要特征数据流103保持视频内容的URL(Uniform Resource Locator)即可。

一般情况下，由于特征数据流103小于视频内容111的数据量，因而可存储在更小的存储媒体中，供给笔记本型PC(Personal Computer)和PDA(PersonalDigital Assistants)等携带终端使用。

特征数据流103可附加在视频内容111中，通过网络进行传送和分配。利用上述(4)所述交互功能，在接收特征数据流103侧，再次对特征数据流103的内容进行加工和编辑，可以再利用和再分配，并不失去在所有媒体间检索的自由度，可使视频内容111自由流通。

下面详细说明特征数据流103的生成处理。

特征数据流103的生成处理，如上所述，主要是在特征编码部5进行的。第4图是表示实施例1的特征编码部5内部构成的方框图。图中，21是输入视频信号102并根据主画面设定指示121决定主画面，输出主画面号码122和主画面图象123的主画面决定部；22是监视来自主画面决定部21的视频信号102的监视部。

第4图中，23是区段提取部，从主画面决定部21决定的主画面图象123中提取区段，输出区段的代表颜色125、区段号码126，同时根据视频内容111解码时输出的主画面尺寸124，输出区段的尺寸信息127。

第4图中，24是区段编码部，使用彩色映象变换表128，对来自区段提取部23的区段的代表颜色125进行编码，输出已编码的区段代表颜色129，同时，对区段号码126、区段的尺寸信息127进行编码，输出已编码的区段号码130、已编码的区段尺寸信息131。

第4图中，25是缩小图象生成部，从主画面图象123生成缩小图象，并输出缩小图象数据132；26是缩小图象编码部，对缩小图象数据132进行编码，并输出已编码的缩小图象数据133。

第4图中，27是使彩色映象变换表128、已编码的区段代表颜色129、已编码的区段号码130、已编码的区段尺寸信息131、已编码的缩小图象数据133多路化的多路化部。

下面说明特征编码部5的动作。

第5图是表示实施例1的特征编码部5的动作的流程图。

(A)主画面的决定

首先，在主画面决定部21，决定作为视频内容111中主要帧图象的主画面(步骤ST1)。主画面定义为构成视频内容111中意义内容变化点(场面变更)的帧，或用户特别希望作为检索时的特征点的帧。

第6图是表示第4图的主画面决定部21内部构成的方框图。第6图中，31是对视频信号102的帧号码进行计数的帧计数器；32是根据主画面设定指示121输出主画面号码122的开关；33是根据主画面设定指示121输出主画面图象123的开关。第6图中，用户通过监视部22监视视频信号102，同时将期望的帧指定为主画面。

视频信号102，按每1帧输入到主画面决定部21，由帧计数器对帧号码进行计数。帧计数器31在视频信号102的最初输入时刻被复位到0。

并且，视频信号102被同时送到监视部22，用户一面观看在监视部22显示的视频信号102，一面选择应作为主画面的帧。选择指示通过使主画面设定指示121有效而进行。当主画面设定指示121有效时，开关32将选择的主画面的帧号码作为主画面号码122输出，开关33输出选择的主画面的主画面图象123。

第7图是表示第4图的主画面决定部21的其他内部构成的方框图。第7图中，41是从视频信号102检出场面转换，并输出主画面图象123和主画面设定指示141的场面转换检出部；42是根据主画面设定指示141输出主画面号码122的开关。帧计数器31是与第6图的帧计数器31同样的。这里，主画面为位于场面转换点的帧，主画面决定部21具有场面转换检出部41。

视频信号102，与第6图所示的主画面决定部21同样，输入到帧计数器31，对帧号码进行计数，同时，也输入到场面转换输出部41，实施场面转换检出。关于场面转换检出的方法，已有长坂、宫武、上田的「カツトの时系列コ-テイングに基づく映像シ-ンの实时间识别法」《根据剪辑的时间系列编码识别图像场面实际时间的方法》(电子情报通信学会论文志，D-II，Vol.J79-D-II，No.4，PP531-537)等的在先技术，本发明中，将具体算法作为对象之外。

当检出场面转换时，主画面设定指示141成为有效，开关42据此将在该时刻的帧计数值作为主画面号码122输出。并且，场面转换检出部41，将检出的场面转换帧作为主画面图象123输出。

另外，可将未图示的以一定间隔出现的内部编码帧设定为主画面。例如，在MPEG(Moving Picture Exprets Group)-1和MPEG-2、MPEG-4中具有不使用帧间予测对全部帧进行编码的内部编码帧模式，特别是内部编码帧，通过将其周期地插入视频内容111的编码中，而被大多用作随机存取的位置(point)。因此，可认为满足了作为主画面的要件。

(B)区段的提取

当选择主画面图象123时，第4图的区段提取部23提取在主画面图象中包含的区段。这里，所谓区段定义为「主画面上的指定区域，或者与在视频内容111中出现的被摄物等物体(＝目标)对应的主画面中的区域」。

第8图是说明区段的图形。第8图中，当红色车出现在视频内容111的多个帧时，红色车相当于目标，区段是在主画面图象123上出现的目标区域(表现为车的外接四角形)。这里，区段具有该区域的代表颜色和尺寸信息(相对于全部帧的区段区域的面积率)2个特征量。

当区段的代表颜色记述在特征数据流103中时，用户以包含「红色区段」、「兰色区段」的视频内容111的形式，通过取得特征数据流103中的值与希望检索的值的匹配，可在一定程度上自动找到符合要求的主画面。

对于尺寸信息，由于可记述区段在主画面中占据多少面积，则可表现主画面中区段重要度的一个侧面。例如，按照「在全部画面尺寸中，具有肤色代表颜色的区段」等的指定方法，则检索包含在整个画面中映照的脸图象的主画面，大致可自动进行。尺寸信息可以包含作为尺寸计测起点的矩形左上角顶点和矩形重心位置等的位置信息。

第9图是说明在视频序列中区段位置的图形。第9图中，表示按照作为目标的「红色车」的经过时间，从画面左边渐渐推镜头向画面右方向移动的场面，表示在每个主画面区段特征量变化的情况。第9图中，除了第8图所示的各主画面特征量以外，对于目标的移动，将在区段左上角顶点(区段位置)的移动量作为时间方向的特征量予以表示。这样，即可实现「从画面左边向右边移动的目标」的检索方法。

例如，可将按照MPEG-4视频编码方式(ISO/IEC，JTC1/SC29/WG11，N2202)规定的视频目标，视为本定义的目标。这时，区段对应于MPEG-4视频的视频目标投影(VOP)。这种情况下，严密的定义不同，VOP的水平和垂直尺寸，概念上对应于区段的矩形的水平和垂直尺寸。与此相反，MPEG-1和MPEG-2中，由于本来没有目标概念，所以通过从主画面进行提取决定初始区段。

区段提取处理是从主画面图象123中提取出上述区段，决定并获得该特征量的处理，由第4图的区段提取部23进行。第10图是表示第4图的区段提取部23内部构成的方框图。第10图中，51是区段提取处理部，输入主画面图象123，并输出区段号码126、区段内图象取样值151、以矩形表示的区段水平和垂直尺寸152(象素数X行数)；52是根据区段内图象取样值151，分配代表颜色125的代表颜色分配部；53是根据区段的水平和垂直尺寸152和主画面尺寸124，算出用面积率表示的尺寸127的尺寸算出部。

第10图的区段提取部23，首先在区段提取处理部51，从主画面图象123，用原有的区域分割处理等方法提取区段(第5图的步骤ST2)。本例中，未将区段与目标的关系严密结合。也就是，本例中，区段仅是主画面中的特定图象区域，不具有在主画面间作为目标加以关联的机构，在各个主画面中定义独立的区段。

作为区段提取方法，例如有在颜色成分空间进行集中类似颜色的聚集成组的方法，这里，将其具体实现方法作为对象之外，而是通过区段提取处理部51，以围成外接四角形的形式得到具有特定意义内容的图象领域(区段)。

区段提取处理部51在每个提取出的图象区域(区段)附加顺序号码并予计数，将计数值作为区段号码126输出(步骤ST3)。

区段提取处理部51将区段内图象取样值151输出到代表颜色分配部52，代表颜色分配部52求出代表颜色125(步骤ST4)。例如，在区段内图象取样值151为各8位的RGB表现时，取得区段中R、G、B各空间的平均值，将得到的RGB的平均值的集合(set)作为代表颜色进行分配的处理。或者，可采用预先确定区段中的本质区域包含的象素，取得其内部平均的方法。

将MPEG-4的VOP作为区段时，由表示VOP形状的阿尔法(α)投影得到区段中的本质区域。第11图是说明MPEG-4的视频目标投影(VOP)的图形，表示VOP的象素数据与阿尔法(α)投影的关系。如图所示，所谓阿尔法(α)投影，是在包围VOP的外接四角形中，在目标内象素位置时分配255，而在其它时分配O的2值投影。0和255的变化点表示VOP的形状。也就是，阿尔法投影可以进行仅利用如255那样的位置的象素求得代表颜色的处理。

此外，作为代表颜色的求得方法，还有一种方法是在区段提取处理部51根据颜色信息进行提取，并使用作为聚集成组的结果被分配到区段上的颜色信息。

第10图中，区段提取处理部51将以矩形表示的区段的水平和垂直尺寸152(象素数×行数)输出到尺寸算出部53。尺寸算出部53使用从其他途径输入的主画面的水平和垂直尺寸124，计算区段在该主画面上占据的面积率，作为尺寸127输出(步骤ST5)。例如，当区段的水平和垂直尺寸152是(176象素×144行)，主画面的尺寸124是(352象素×288行)时，由尺寸算出部53算出的面积率(尺寸127)为25％。

(C)区段的编码

第4图中，由区段提取部23得到的特征量(代表颜色125、区段号码126、尺寸127)被输入到区段编码部24，由多路化部27编码为特征数据流103的形式(步骤ST6)。

第12图是表示由使用第10图的区段提取部23时的特征编码部5产生的特征数据流103的构成图。这里，特征数据流103具有视频内容111、主画面、区段的阶层构造。在视频内容111的阶层中，包含将帧号码位长和彩色映象变换表128等的视频内容本身固有信息作为标题而保持并与其相接续的k张主画面阶层的数据。这里，由于在各主画面的标题中使各主画面的时间位置(主画面号码122)多路化，为了规定其位长将最大帧计数值可能表现的位长，包含在视频内容111的标题中。为了各区段的代表颜色的编码，通过视频内容111将使用的颜色灰度包含在规定的彩色映象变换表128中。

将第k个主画面表记为KF(k)，KF(k)包含视频内容111中的时间位置(主画面号码122)，以及将其画面上存在的区段数(M)作为标题而保持并与其相接续的M个区段阶层的数据。并且，具有用于浏览的后述缩小图象的数据。将第m个区段表记为SG(m)，SG(m)由对应的代表颜色125和尺寸127构成。作为代表颜色125，将彩色映象变换表128的标引(index)值进行编码。

第13图表示彩色映象变换表128的具体实例。这是以X-Windows系统使用的彩色映象变换表128为例，也考虑了其他各种各样的表现方法，然而，具体的彩色映象变换表128的数据形式的定义为对象外。

一组R，G，B值对应一个标引，增加标引数(n)，可增加深淡程度。

尺寸127是面积率，由于最多是1～100(％)范围的值，可用7位表现。

第4图中，通过区段编码部24，最后得到的各特征量编码数据，送到多路化部27，并追加到第12图所示的特征数据流103中。区段提取部23的区段特征量算出，以及区段编码部24的编码，仅按在主画面内提取的区段数重复(第5图的步骤ST7)。

(D)缩小图象的生成

第4图中，缩小图象生成部25、缩小图象编码部26，将主画面的概要图象(以下称为轮廓或轮廓图象)作为主画面的特征量添加到特征数据流103中。当在主画面中准备了图形文字的轮廓图象时，用户不必对数字压缩的内容进行直接解码和再生，则可提高浏览效率。

这里，作为轮廓图象，通过求出主画面图象123的N×N象素的平均值(DC值)，生成缩小图象(第5图的步骤ST8)，并以适当的编码方式对该值进行编码(步骤ST9)。

第4图中，缩小图象生成部25进行求出DC值的缩小图象数据132的处理，缩小图象编码部26对得到的DC值的缩小图象数据132进行压缩编码，输出编码的缩小图象数据133。

由于主画面图象123大多是来自已经非可逆压缩编码的位流的解码图象，因此，缩小图象编码部26的压缩编码采用DPCM(Differential Pulse CodeModulation)等简易的压缩率低的编码是适当的。求得每个N×N象素的DC值，至少取样数可削减到1/N²，即使追加到特征数据流103中，也不会形成大的代码量负荷。

编码的缩小图象133被送到多路化部27，以第12图的形式在特征数据流103中多路化。

如上所述，本实施例1中，通过采用上述特征编码部5的构成，用户可以生成记述了视频内容111特征的特征数据流103。并且，可从视频内容111手操作或自动地设定主画面，在各主画面中的特定图象区域(区段)，可将代表颜色125和其尺寸127等作为特征量予以设定。将这些特征量作为检索标题，则可在一定程度上使视频内容的检索处理自动化，通过自动检索，可按轮廓图象浏览插入的候补，能够提高视频内容的检索效率。

本实施例1的区段定义，由于可将帧图象看作静止画，所以可在从庞大的静止图象文库中检索所要求图象时使用。在静止画情况下，第12图的主画面阶层为最上位阶层。

实施例2

第14图是表示本发明实施例2的区段提取部23内部构成的方框图。图中，61是从主画面图象123提取区段数据161的区段提取处理部；62是对与参照图象存储器63存储的过去的主画面图象123进行匹配处理并进行区段鉴别的区段鉴别处理部。

本例中，区段在帧间取得匹配，与视频内容111内的目标对应。也就是，区段在主画面中不闭合，作为表示视频内容111的被摄物的某个瞬间的图象区域被提取出来。

通过区段提取处理部61，从主画面图象123提取多个区段数据161时，在区段鉴别处理部62，对各区段，与参照图象存储器63的过去的主画面图象123之间进行匹配处理，进行区段的鉴别。这时，对于被鉴别的区段，与过去的区段附与同样号码，并作为区段号码126输出。当与过去的区段不一致时，作为新区段赋予新的区段号码126并予输出。

区段鉴别处理部62输出区段内图象取样值151、区段的水平和垂直尺寸152，代表颜色分配部52、尺寸算出部53与第10图一样，各自进行代表颜色125、尺寸127的算出。

第15图是表示由使用第14图的区段提取部23时的特征编码部5产生的特征数据流103的构成的说明图。这里，区段对应于视频内容111内的目标，区段数(M)被设置在视频内容111的阶层的标题中。

区段SG(m)追加Flag(1)并保持。Flag(1)表示SG(m)是否存在于KF(k)上。各主画面通常编码为M个区段，当SG(m)实际上不存在于KF(k)上时，则Flag(1)为OFF，不对代表颜色125、尺寸127进行编码。该Flag(1)由第4图的多路化部27附加。

当SG(m)存在于KF(k)上而不存在于KF(k－1)上时，即在帧K登场，这时用特定的登场标记表示；当SG(m)存在于KF(k)上而不存在于KF(k＋1)上时，即帧K最后退场，这时用特定的退场标记表示，这些都可以通过标记的追加而成为可能。

最后得到的各特征量编码数据，送到多路化部27，以第15图的特征数据流103的形式输出。

如上所述，本实施例2中，采用第14图的区段提取部23的构成，使视频内容111内的目标与多个主画面的区段相关联，由于区段数与目标的个数对应输出，则用户可高效率地检索要求的视频内容111。

实施例3

第16图是表示实施例3的区段提取部23内部构成的方框图。图中，71是区段追踪处理部，输入主画面图象123，参照参照图象存储器63，输出区段号码126、区段内图象取样值151、区段的水平和垂直尺寸152，并同时输出移动信息171。代表颜色分配部52、尺寸算出部53与第14图是一样的。

本例中，区段通过视频内容111，追踪目标的结果，得到在各主画面上表现的图象区域。目标追踪在区段追踪处理部71进行。

关于目标追踪的方法，提出了各种各样的方法，其方法本身为对象外。假定通过采用适当的算法，使对目标的追踪可以达到在途中从画面或消失或再出现的程度。

对于作为结果得到的各主画面图象上的区段，与第10图和第14图所示的区段提取部23一样，除了算出代表颜色125、尺寸127之外，只要是相同的目标，就输出同样的区段号码126。这里，作为追踪的结果，得到了区段的移动量，将其作为移动信息171输出。

在第4图的构成中，未从区段提取部23输出移动信息171，当使用第16图的区段提取部23时，输出移动信息171，并由区段编码部24编码。

第17图是表示由使用第16图的区段提取部23时的特征编码部5产生的特征数据流103的构成的说明图。与第15图不同的仅是区段的构造，这时设置了表示是否是最初出现的区段的标记Flag(2)，当Flag(2)有效时，形成将移动信息171集中多路化的构成。

采用这种构成，由于在视频内容111中目标新产生的地方包含全部此后的移动履历，则可以极快地对应例如「从左到右移动」等的检索标题。第17图中未图示，但移动信息171当然可以附加在各主画面内的各区段。

第4图中，由区段编码部24最后得到的各特征量编码数据被送到多路化部27，以第17图的特征数据流103的形式输出。

如上所述，本实施例3中，通过设定移动信息171，可以在各主画面间检索移动目标。

实施例4

本实施例中，说明由第2图的委托人1进行的视频内容111的检索处理。用户使用委托人1的用户I/F8，按照用户指示和设定105，进行希望检索的视频内容111的概略的参数输入操作。输入的方法可以如下实现，即：委托人1从预先准备的多个参数(关键字)中进行选择，再用用户I/F8进行概要的输入。

委托人1准备的参数，例如：「兰」、「红」等颜色信息，亮度信息，区段的面积比率、「园形」、「四角」等区段的形状信息，画面的「上」、「右下」等位置信息。

用这些参数的组合，例如指定「兰」和「80％」，则输入上述的「代表颜色是兰色，而且占据帧画面中80％的区段」的记述。同样，当指定「红」色的「四角」形状的区段在画面「下」方占据「20％」时，则输入上述的「红色车」的记述。另外，如包含「红色车」和「兰色天空」的视频内容111等那样，可以组合多个区段的特征量进行检索。当选择委托人1准备的参数时，其选择结果照原样成为检索标题108，从检索处理部9输出。

第2图中，特征解码部10根据来自检索处理部9的检索指示107，从特征数据流存储部7读出特征数据流103并进行解码，输出解码特征量109。特征数据流103，如第12图、第15图、第17图等所示，代表颜色125、尺寸127、区段数、主画面号码122、缩小图象等多个特征量，由于为了压缩信息量被编码，所以获得用于鉴别的特征量值，对于解码处理是必要的。

从特征解码部10输出的解码特征量109在特征鉴别部11进行与检索标题108的匹配处理。第18图是表示实施例4的特征鉴别部11内部构成的方框图。图中，81a～81e是进行检索标题108和解码特征量109匹配处理的匹配处理部；82是综合判定各匹配处理部81a～81e的鉴别结果，并输出匹配程度高的视频内容111的指示字110的匹配判定部。

这里，准备了多个匹配处理部81(81a～81e等)，分别对于对应的特征量进行匹配处理。例如，匹配处理部81a对被解码的解码特征量109中的「兰色」特征量、另一个匹配处理部81b对「80％」特征量进行匹配。这时，对于「浅兰色」和「深兰色」等近于「兰色」的特征时，以及「70％」和「90％」的特征量，也具有接近用户要求的映象的可能性，特征鉴别部11在进行与检索标题108的匹配时，不仅对完全一致的，而且对一致程度较高的都作为候补。

各匹配处理部81a～81e的鉴别结果被送到匹配判定部82，在这里综合判定各特征量的一致程度，来自匹配判定部82的最后结果，变为解码特征量109与作为检索条件的检索标题108的一致度。规定一致程度的阈值，不仅可以由作为系统标准规格的省略补充值来设定，而且也可以由用户设定(未图示)。

特征鉴别部11，对服务器2输出匹配程度高的视频内容111的指示字110，服务器2根据该指示字110，对委托人1输出视频内容111。

委托人1在用户I/F8上表示视频内容111，如果是用户所希望的视频内容111，则结束检索处理。在不一样的情况下，再生成另外的检索标题108，用户再次进行参数选择。

作为视频内容111，送到委托人1的图象数据，不必是视频内容存储部3存储的视频内容111的实况，也可以是上述特征数据流103的缩小图象(轮廓图象)。利用轮廓图象时，可以削减从服务器2送到委托人1的视频内容111的数据量，并且由于限定了可在用户I/F8显示的画面尺寸，所以若是轮廓图象时，可同时显示多个候补图象，提高了检索处理的操作性。

当视频内容存储部3存储的图象被预先限定时，用户I/F8可将特征数据流存储部7存储的特征数据流103的轮廓图象作为参数显示。

如上所述，本实施例4中，通过进行上述检索处理的委托人1、特征解码部10、特征鉴别部11，用户大体上可自动且迅速地检索作为所希望的视频内容111的候补的视频内容111。特征数据流103的数据量一般来说少于对应的视频内容111，因此特征解码部10的处理与对视频信号102进行伸长解码的处理相比较，是极简单的处理。

当特征数据流103中包含轮廓图象时，可同时表示多个候补的视频内容111的内容，而且可以实现浏览，因此检索效率显著提高。

本实施例4中，对实施将第2图的系统作为前提的检索处理的委托人1进行了说明，以与本实施例的委托人1相同的动作，可以实现从静止图象文库检索所希望的图象数据的处理。这时，特征数据流103不是按每个视频内容111，而是按每个静止图象制成。

特征数据流103可以通过网络远距离传送，在接收侧不仅有检索处理部9，若还具有如特征编码部5的特征数据流103的生成功能，则改写已有的特征数据流103的记述，即生成新的特征数据流103，这样，也可以进行变更视频内容111的显示规则的内容操作。当然，也可以构成同时具有委托人1和服务器2的功能的装置。

实施例5

第2图中，委托人1将在上述特征鉴别部11评价的匹配程度信息输入到检索处理部9(未图示)，对于显示的候补图象，通过在图象序号和显示的大小上进行加权，可提高操作性。第19图是表示附加优先度的检索候补提示的实例图，表示对应于特征鉴别部11的匹配程度，向用户提示附加优先度的检索候补内容的情况。

如上所述，本实施例5中，通过提示附加优先度的检索候补，用户可以迅速找到结合自己的检索要求的相关内容。

实施例6

本实施例中，说明借助用户I/F8的其他检索条件输入方法。使用用户I/F8，进行概要输入的方法，可以采用鼠标器等指示装置，写入直接形状，涂上颜色，描绘概略草图的方法。

例如，如第19图的第2候补区段所示，在画面的下方描绘大的「红」色，如第3候补区段所示，在画面的左方描绘小的「红色车」，如第4候补区段所示，在画面的右方描绘大的「兰」色。在第2图中，根据用户指示和设定105进行用户的直观概要输入时，提取检索标题108的处理，在检索处理部9进行。

在检索处理部9，根据概要输入，用颜色信息等分割为各个区段，算出其颜色描绘的面积，并求出画面内的位置。通过这样的处理，提取出「兰」、「红」等颜色信息以及各颜色信息的面积比率、各颜色的形状和位置等，作为检索标题108输出。

如上所述，在本实施例6中，通过进行用户的直观概要输入，可以高效率地检索视频内容111。

实施例7

当提取实施例3所述的区段移动信息171时，作为检索标题108，可以使用移动信息171。作为可选择的参数，用户I/F8提供了「从左向右」、「从上向下」、「移近目标」等移动信息171。当提取映象信号的时间变化时，提供了颜色变化和亮度变化的参数，用户可以选择。

在用户进行映象内容的概要输入时，不是仅进行1个输入，例如，可进行2次输入，可以输入该2个图象间的时间，检索处理部9从2个输入图象及其时间间隔，提取出目标的移动量和映象信号的时间变化信息，即可生成检索标题108。

如上所述，本实施例7中，利用移动信息171，用户可以检索要求的视频内容111。

产业上的可利用性

如上所述，本发明的图象特征编码方法和图象检索方法，置用于很多用户使用各种各样的检索工具来检索图象。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 图象特征编码方法以及图象检索方法 [P] . 中国专利： CN1333976A . 2002-01-30
2. 图象特征编码方法 [P] . 中国专利： CN1229996C . 2005.11.30
3. TIME INFORMATION CODING METHOD, CODING VALUE RETRIEVAL METHOD, AND DECODING METHOD AND DEVICE [P] . 世界知识产权组织专利： WO2018000709A1 . 2018-01-04

机译：时间信息编码方法，编码值检索方法以及编码方法和装置
4. Encoding program, index generation program, retrieval program, encoding apparatus, index generating apparatus, retrieving device, encoding method, index generation method and retrieval method [P] . JP6931442B2 . 2021-09-08

机译：编码程序，索引生成程序，检索程序，编码设备，索引生成设备，检索设备，编码方法，索引生成方法和检索方法
5. Encoding program, retrieval program, encoding device, retrieval device, encoding method, and retrieval method [P] . 日本专利： JP6737025B2 . 2020-08-05

机译：编码程序，检索程序，编码装置，检索装置，编码方法和检索方法