首页> 中国专利> 用于识别媒体内容中的对象的方法和装置

用于识别媒体内容中的对象的方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提供一种用于识别媒体内容中的对象的方法。捕获管理器确定在装置处检测内容流中的一个或多个对象。下面，捕获管理器确定捕获所述内容流中的一个或多个对象的一个或多个表征。接着，捕获管理器将所述一个或多个表征与所述内容流的一个或多个实例关联。

著录项

公开/公告号CN103080951A

专利类型发明专利
公开/公告日2013-05-01

原文格式PDF
申请/专利权人诺基亚公司;
展开▼

申请/专利号CN201180040741.7
发明设计人 I·T·萨尔米南;M·A·尼尔米;
展开▼

申请日2011-08-02
分类号G06K9/00;G10L15/30;H04L29/08;
代理机构北京市金杜律师事务所;
代理人酆迅
地址芬兰埃斯波
入库时间 2024-02-19 19:15:47

法律信息

法律状态公告日

法律状态信息

法律状态
2016-12-07

授权

授权
2016-03-02

专利申请权的转移 IPC(主分类):G06K9/00 登记生效日:20160203 变更前: 变更后: 申请日:20110802

专利申请权、专利权的转移
2013-06-05

实质审查的生效 IPC(主分类):G06K9/00 申请日:20110802

实质审查的生效
2013-05-01

公开

公开

说明书

背景技术

服务提供商和设备制造者（例如无线、蜂窝等）不断面临着挑战以例如通过提供有竞争力的网络服务向消费者提供价值和便利。开发的一个领域是使用用于自动化识别媒体内容中的脸部、人物和其他对象或特征（例如，识别表情，例如面部表情、体态、移动、话音、声音等），所述媒体内容例如图像、视频流以及音频流。例如，许多现代化通信设备（例如，智能电话、手机等）通常配置有照相机和其他传感器（例如，麦克风），使得设备在捕获的内容上执行此类的识别（例如，面部、话音、表情识别等）。然而，这些设备通常使用用于面部和/或对象识别的常规方法，这些常规方法传统上致力于在某些条件下（例如，噪声、变化的表情、坏的角度、差的照明、低分辨率图像或声音等）准确地执行。相应地，服务提供商和设备制造商面临改进面部和/或对象识别的准确性的显著技术挑战。

一些示例实施例

因此，需要一种方式来有效地和高效地识别媒体内容中的面部、对象和其他特征。

根据一个实施例，一种方法包括：确定在装置处检测内容流中的一个或多个对象。该方法还包括确定捕获所述内容流中的一个或多个对象的一个或多个表征。该方法进一步包括将所述一个或多个表征与所述内容流的一个或多个实例关联。

根据另一实施例，一种设备包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，该至少一个存储器和该计算机程序代码配置成使用该至少一个处理器，至少部分地促使该设备确定在装置处检测内容流中的一个或多个对象。还促使该设备确定捕获所述内容流中的一个或多个对象的一个或多个表征。进一步促使该设备将所述一个或多个表征与所述内容流的一个或多个实例关联。

根据另一实施例，一种计算机可读存储介质，其承载一个或多个指令的一个或多个序列，当由一个或多个处理器执行时，该一个或多个指令至少部分地促使设备确定在装置处检测内容流中的一个或多个对象。该设备还被促使确定捕获所述内容流中的一个或多个对象的一个或多个表征。该设备进一步被促使将所述一个或多个表征与所述内容流的一个或多个实例关联。

根据另一实施例，一种设备包括：用于确定在装置处检测内容流中的一个或多个对象的装置。该设备还包括用于确定捕获所述内容流中的一个或多个对象的一个或多个表征的装置。该设备进一步包括用于将所述一个或多个表征与所述内容流的一个或多个实例关联的装置。

简单地通过说明包括针对实施本发明所设想的最佳方式的很多特定实施例和实现，从下面的详细描述将容易显见本发明的其他方面、特征和优点。本发明还能够具有其他或不同实施例，且其若干细节可以在各个明显方面进行修改，所有这些都不偏离本发明的精神和范围。因此，附图和说明本质上是说明性而非限制性的。

附图说明

通过示例而非限制性方式说明本发明的实施例，在附图的各图中：

图1是根据一个实施例的能够识别媒体内容中的对象的系统的视图；

图2是根据一个实施例的捕获管理器的组件的视图；

图3是根据一个实施例的用于识别媒体内容中的对象的过程的流程图；

图4是根据一个实施例的用于将识别信息与内容流的多个实例关联的过程的流程图；

图5是根据一个实施例的用于将最佳面部表征与内容流的图像实例关联的过程的流程图；

图6是根据一个实施例的用于将识别信息与图像实例/面部表征对关联的过程的流程图；

图7是根据一个实施例的用于将识别信息与数据库中的图像实例/面部表征对关联的过程的流程图；

图8A-8B是根据各种实施例的在图3的过程中捕获的内容流的实例中的对象的表征的视图；

图9A-9B是根据各种实施例的在图3的过程中从不同角度捕获的内容流的实例中的对象的表征的视图；

图10是根据一个实施例的用于使用图4、6和7的过程的用户接口的视图；

图11是可以用于实施本发明的一个实施例的硬件的视图；

图12是可以用于实施本发明的一个实施例的芯片组的视图；以及

图13是可以用于实施本发明的一个实施例的移动终端（例如手机）的视图。

具体实施方式

公开了用于识别媒体内容中的对象的方法、设备和计算机程序的示例。在下面的描述中，出于解释目的，提出了各种特定细节以提供对本发明的实施例的彻底理解。然而，对于本领域技术人员而言，很明显的是可以不使用这些特定细节或可以使用等同布置来实现本发明的实施例。在其他实例中，以框图形式示出已知结构和装置，以避免不必要地混淆本发明的实施例。

图1是根据一个实施例的能够识别媒体内容中的对象的系统的视图。如前所提到的，例如面部或话音识别的识别方法已经开发了数年。作为该开发的结果，识别方法已经变得更为复杂和准确。例如，通过分析例如眼睛、鼻子和嘴的脸部显著特征，以及到关键面部特征的相对距离，面部识别方法已经被扩展到识别面部表情。附加地，话音和语音识别方法已经从识别语音扩展到识别有声表达，例如笑声和哭声，以及通常的周围或背景噪声（例如、交通、来自聚会的声音等）。然而，如前所指出，识别方法仍努力于在某些条件下（例如，噪声、变化的表情、坏的角度、差的照明、低分辨率图像或声音等）执行，这使得识别不会最优或者有时不准确。此外，传统的识别方法通常操作在捕获内容的特定实例上（例如，场景的单次捕获的照片），由此通常依赖于特定实例的识别条件上。作为结果，在与捕获实例中的识别主体（例如，对象或脸部，也统称为对象）关联的条件对于识别不够理想的情况下，传统的识别方法可能无法准确地识别对象。例如，当脸部远离、方位不直接对着捕获装置（例如，照相机、摄像机等），受阴影遮蔽等，当图像被捕获时，面部识别可以产生不准确的结果。

为解决该问题，图1的系统100引入了存储对象的最佳表征或将对象的最佳表征与对象的相应捕获实例（例如，照片、音频记录、视频记录等）关联的能力。在一个实施例中，这些最佳表征（例如，在更适合于例如当脸正直视照相机时执行对象识别的条件下捕获的表征）可以作为元数据附接到捕获的实例。在另一个实施例中，当应用或其他服务试图在捕获的实例上执行对象识别时，对象的附接或关联的最佳表征可以识别为替换捕获实例中的实际对象。例如，在其中当捕获的实例是包含一个或多个脸部的相片时，脸部的一个或多个最佳表征可以附接到每个相片。通过这种方式，脸部可以被自动地识别，即使脸部例如从照相机转开或否则不清楚。

更具体地，系统100在内容流的实例（例如，相片、音频记录、视频记录等）被捕获之前、之后和/或同时检测内容流中的对象。例如，内容流表征连续地或基本上连续地在捕获设备处接收到的内容，例如在照相机的取景器处接收到的图像或在打开的麦克风处接收到的音频。一旦在内容流中检测到对象，系统100可以随关于对象改变的情形（例如，人员走来走去，脸部转离照相机、照明改变等）来持续跟踪对象。并发地，系统100捕获内容流中的对象的表征（例如，连续地或周期性地）。在一个实施例中，系统100可以在内容流的实例被捕获之前、之后和/或同时来捕获对象的表征。在另一个实施例中，当用户发起对包括对象的内容流的特定实例的捕获时（例如，当激励照相机上的快门以拍摄相片时），跟踪的对象信息，以及对象的最佳表征的相应一个或多个可以与捕获的实例关联或标记到捕获的实例。在一些实施例中，跟踪信息包括标识至少在捕获实例内的对象的相对位置的信息，由此使得系统100能够将对象的最佳表征与捕获的实例内的对象的位置关联。如上所指出，对于作为实例的一部分捕获的任意对象，系统100并不需要依赖于实例中存在的对象的特定表征用于识别目的。相反，系统100可以使用在实例被捕获之前、之后和/或同时捕获的对象的任意表征来表示内容流的实例中的对象。

在另一个实施例中，系统100可以基于一个或多个准则（例如，位置、角度、照明、清晰度、模糊强度、噪声、分辨率等）来选择表征。例如，如果表征中的对象是脸部，则可以基于一个或多个优选的面部表情来选择表征。在这种情形下，如果相应的脸部正在微笑或大笑，则可以选择表征。在一些情形中，当脸部具有最为中性的表情时（例如，没有表情），则可以选择最佳表征。在另一个实施例中，可以持续地、周期性地、在预定的调度处捕获表征，直到表征的质量（例如，适于对象识别）满足预定的质量阈值。尽管表征可以被持续地捕获（例如，只要捕获装置加电），预定质量阈值条件允许捕获至少满足预定质量阈值的表征，并且通过避免不必要捕获额外的表征来允许例如移动装置保护电池寿命。此后，系统100 可以将例如对象的最佳表征与内容流的实例关联。根据另一实施例，系统100可以通知用户是否满足质量阈值，并且要求用户将照相机指向质量阈值没有被满足的脸部或对象。通过这种方式，用户可以尝试除了捕获场景的实际实例或相片以外，直接捕获最佳表征。

如图1中所示，系统100包括用户设备（UE）101或具有经由通信网络105到服务平台103的连接性的多个UE101a-101n。尽管服务平台103已经示为通信网络105的独立组件，可以预期服务平台103可以并入进包括以下讨论的任意组件的系统100的任意其他组件。在一个实施例中，UE101可以包括捕获管理器107或连接到捕获管理器107。UE101也可以包括或被连接到捕获存储器109。捕获管理器107可以与捕获存储器109通信以访问或存储媒体数据或任意其他形式的数据。捕获管理器107可以与UE中或与UE连接的媒体捕获装置（例如，数字照相机、摄像机、声音记录器等）通信以检测内容流中的对象，并且捕获内容流的对象表征和实例。捕获管理器107可以进一步执行将表征与内容流的实例关联的功能。此外，捕获管理器107可以执行确定内容流中的对象的识别信息并且将识别信息与内容流的实例关联的功能。捕获管理器107也可以提供视觉化（例如，图形用户接口）以允许用户添加或修改识别信息，以辅助捕获管理器107确定并且将识别信息与内容流的实例关联。

进一步，捕获管理器107能够使用在UE101处可获得的任意形式的通信来操控各种通信操作。例如，捕获管理器107可以经由UE 101来管理传入或传出的通信，并且在此类通信被接收和处理时显示它们。在某些实施例中，捕获管理器107也可以提供视觉化（例如，图形用户接口）来允许用户通过使用任意可获得形式的通信的通信网络105来控制通信或共享媒体。例如，捕获管理器107可以包括选项来选择与UE101a-101n通信，以便共享媒体数据或其他形式的数据。进一步，捕获管理器107可以包括允许用户与任意基于因特网的网站通信或经由服务平台103来使用电子邮件服务的接口。此外，捕获管理器107也包括用于与社交网络服务交互，并且支持从 UE101上传或共享媒体到所述社交网络服务的接口。

服务平台103可以执行与如这里所描述的在媒体内容中检测、跟踪和识别对象关联的各种计算。此外或可替换地，可以针对UE101 来执行至少一些或所有的计算。例如，UE101可以向服务平台103 发送对象表征，以便执行一个或多个表征和一个或多个其他表征之间的比较计算，以便从两组中确定最好的对象表征。在计算结果后，服务平台103可以向UE101发送计算的结果。

在另一个例子中，通过向服务平台103发送图像实例（例如，作为元数据附接到或标记到捕获的图像文件的对象的最佳图像）内的对象的表征，UE101可以请求最近捕获的图像实例（例如，在UE 101处捕获的相片）的识别信息。响应于此，服务平台103可以将发送的表征与数据库中的其他表征进行比较，该其他表征与具有识别信息的类似图像实例（例如，相同对象的先前捕获和识别的相片）关联。另外或可选地，服务平台103可以使用一个或多个识别算法来从发送的表征和/或捕获的图像实例生成识别信息。例如，服务平台103可以通过构建表征的视觉签名并且接着将构建的签名与已知签名（例如，先前获取的签名、来自数据库的已知签名、通过因特网搜索获得的已知签名等）进行比较来执行视觉对象识别。在一个例子中，视觉签名基于在表征中的标识特征、特征之间的相对距离、特征的尺寸或特性等，以便唯一地标识表征和/或捕获的图像中的相应对象。

如果找到匹配或者否则生成识别信息，服务平台103可以向UE 101发送发现的识别信息。否则，服务平台103可以发送声明在数据库中没有找到识别信息的消息。服务平台103也能够执行涉及到UE 101a-101n的通信的各种服务，使得UE101a-101n可以通过通信网络105彼此通信。由服务平台103提供的服务可以包括蜂窝电话服务、因特网服务、数据传输服务等。服务平台103也可以提供例如音乐、视频、电视服务等的内容。服务平台103可以进一步包括或连接到服务存储器111，以存储或访问媒体数据或任意其他形式的数据。

如这里所使用的，术语数据库表示捕获存储器109中的数据库、服务存储器111、通信网络105的另一存储组件或者其组合。另外如这里所使用的，术语“媒体”表示各种形式的媒体，包括音频、视频、静态图像、图片等。进一步，如这里所使用的，术语“图像” 表示由照相机（例如，静态照相机、数字照相机、视频照相机、照相机电话等）或任意其他成像设备所拍摄的一个或一系列的图像。例如，单个图像可以代表相片而多个图像可以按顺序组合以构成视频剪辑。

举例而言，系统100的通信网络105包括诸如数据网络（未示出）、无线网络（未示出）、电话网络（未示出）或其任意组合的一个或多个网络。可以预期的是，数据网络可以是任意局域网（LAN）、城域网（MAN）、广域网（WAN）、公共数据网络（例如因特网）、短距离无线网络、或诸如商用私有分组交换网络（例如，私有电缆或光纤网络）等任意其他合适的分组交换网络或其任意组合。另外，无线网络例如可以是蜂窝网络且可以采用各种技术，包括全球演进的增强型数据速率（EDGE）、通用分组无线业务（GPRS）、全球移动通信系统（GSM）、因特网协议多媒体子系统（IMS）、通用移动电信系统（UMTS）等以及任意其他合适的无线介质，例如，全球微波互联接入（WiMAX）、长期演进（LTE）网络、码分多址（CDMA）、宽带码分多址（WCDMA）、无线保真（WiFi）、无线LAN（WLAN）、因特网协议（IP）数据广播、卫星、移动ad-hoc网络（MANET）等或其任意组合。

UE101是任意类型的移动终端、固定终端或便携式终端，包括移动手机、移动站、移动单元、移动装置、多媒体计算机、多媒体平板电脑、因特网节点、通信器、台式计算机、膝上型计算机、笔记本电脑、上网本计算机、平板电脑、可佩戴装置、个人通信系统（PCS）装置、个人导航装置、个人数字助理（PDA）、音频/视频播放器、数字照相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任意组合，包括这些装置的附件和外围设备及其组合。还可以预期，UE101可以支持到用户的任意类型的接口（诸如“可穿戴”电路系统等）。

在一个实施例中，通过基于表征来确定识别信息，可以识别出对象。例如，通过与图像关联的脸部表征，可以识别图像中的人物。可以根据脸部表征来确定识别信息（例如，人的姓名），因为脸部表征可能已经具有与其关联的识别信息，例如，该人先前已经在存在于数据库中的另一个图像中被标记或识别。在对象被识别后，识别信息可以与包含对象的实例关联。如图10中所示，标记是将识别信息与实例关联的一种方式。

在另一个实施例中，识别信息的确定进一步基于装置、另一个装置、服务器、网络组件或者其组合处可获得的资源。为了有效地使用资源，可以在执行识别信息确定功能的组件的资源未充分利用或否则可用时确定识别信息。

在另一实施例中，表征可以作为元数据存储在实例中，作为元数据存储在链接到实例的存储器中、或二者的组合。在进一步的实施例中，识别信息也可以作为元数据存储在实例中、作为元数据存储在链接到实例的存储器中、或二者的组合。通常，文件（例如文档、图像、视频等）包含元数据并且包含在这些文件中的元数据可以被轻易地发现。该情形特别是在当旨在共享文件和关于文件的信息时不是问题。例如，用户可能想共享与特定的图像关联的表征和识别信息。用户可以将图像上传到公共服务器或社交网络的网站，以与用户的朋友共享。因为图像包含作为元数据的表征和识别信息，用户的朋友可以下载该图像并且使用该图像、利用新的元数据信息来更新他们自己的图像。然而，用户可能也想与用户的朋友共享图像并且保持表征和识别信息私密。这样，可能更为理想的是将表征和识别信息作为元数据存储在链接到实例的安全存储器中。通过这种方式，表征和识别信息可以用于由用户用于识别目的，但即使在图像本身被共享的情况下，也不会由其他用户用于识别目的。

在另一实施例中，表征也可以与各自的时间戳关联。进一步，表征可以基于时间戳而与实例关联。例如，一个人的多个脸部表征可以被存储，每个表征具有基于何时表征被捕获的时间戳。当图像被捕获或添加到数据库时，具有最接近于特定的图像被捕获的时间的时间戳的面部表征将被选择以表示图像中的人物。

在另一实施例中，可以存在一个或多个内容流。例如，UE101 可以接受多个内容流（例如，多个麦克风、多个照相机等）、同时地或在不同的时间，包含相同的或不同类型的实例。

另外，UE101可以接受来自于其他的UE101a-101n、服务平台 103、通信网络105的其他组件或者其组合的一个或多个的经由例如通信网络105的内容流。在另一实施例中，可以从其他设备（例如，其他UE101a-101n、服务平台103、通信网络105的其他组件或其组合）、其他内容流或者其组合来接收表征。这样，来自一个内容流的表征可以被选择用于表示另一内容流的实例中的对象。例如，从更早的内容流捕获的、存在于数据库中的最佳表征可以稍后被更新或如果新的表征被确定为具有更好的质量，以从另一个内容流捕获的新的表征来替代。此外，如关于图9A-9B所描述的，用户可以例如经由通信网络105自动地或手动地彼此共享对象表征。

在另一实施例中，表征对应于对象的特性（例如，面部特性、表情、体态、移动、话音、声音等）。可以捕获关于对象的不同类型情况的多个表征，以呈现不同类型的情况。例如，可以针对每个面部表情、包括微笑的脸部、痛哭的脸部、平静的脸部等来捕获表征。

在另一实施例中，内容流可以是直播的视频流并且实例可以是图像、视频、音频记录或其组合。例如，诸如照相机、摄像机等的捕获设备可以包括显示直播的视频流的取景器，其中实例是图像、视频、音频记录或其组合。

举例而言，UE101和服务平台103使用已知的、新的或仍发展的协议彼此通信以及与通信网络105的其他组件通信。在该情况下，协议包括限定通信网络105中的网络节点如何基于通过通信链路发送的信息而彼此交互的一组规则。在每个节点内的不同操作层，从产生和接收各种类型的物理信号，到选择用于传送这些信号的链路，到这些信号指示的信息的格式，再到识别在计算机系统上执行哪个软件应用发送或接收信息，该协议均有效。在开放系统互连（OSI）参考模型中描述了用于在网络上交换信息的概念性不同协议层。

网络节点之间的通信典型地通过交换离散数据分组实现。每个分组典型地包括（1）与特定协议相关的报头信息；以及（2）跟在报头信息之后且包括可以独立于特定协议被处理的信息的净荷信息。在一些协议中，分组包括（3）跟在净荷之后且指示净荷信息的结束的尾部信息。报头包括诸如分组的来源、其目的地、净荷的长度以及协议使用的其他属性之类的信息。通常，用于特定协议的净荷中的数据包括用于与OSI参考模型的不同较高层相关的不同协议的报头和净荷。用于特定协议的报头典型地指示在其净荷中包括的下一协议的类型。较高层协议据说被封装在较低层协议中。包括在跨越多个异构网络（诸如因特网）的分组中的报头典型地包括物理（层1）报头、数据链路（层2）报头、网络（层3）报头和传输（层 4）报头以及各种应用报头（层5、层6和层7），如OSI参考模型限定的。

图2是根据一个实施例的捕获管理器的组件的图。举例而言，捕获管理器107包括用于识别媒体内容中的对象的一个或多个组件。可以预期这些组件的功能可以组合在一个或多个组件中或由等同功能性的其他组件来执行。在该实施例中，捕获管理器107包括控制器201、捕获模块203、识别模块205、通信模块207、计算模块209 以及呈现模块211。

控制器201监视任务，这些任务包括由捕获模块203、识别模块 205、通信模块207、计算模块209以及呈现模块211执行的任务。例如，尽管其他模块可以执行实际的任务，控制器201可以确定这些任务何时以及如何被执行或否则引导其他的模块来执行任务。

捕获模块203管理和控制内容流中的对象的检测以及内容流的对象表征和实例的捕获。捕获模块203也可以操控将对象表征与内容流的实例关联。例如，捕获模块203可以确定将捕获的表征临时地存储在缓冲器或数据库中，直到对象的最佳表征与内容流的相应捕获实例关联。在另一个例子中，捕获模块203也可以控制表征被捕获的频率（例如，连续地、周期性地或在预定的调度处）或何时停止捕获新的表征（例如，当表征满足质量阈值）。

识别模块205管理和控制内容流中的对象的识别信息的确定以及将识别信息与内容流的实例的关联。实际的确定和关联功能可以由识别模块205、服务平台103、通信网络105的另一组件或者其组合来执行。例如，特定捕获管理器107的识别模块205可以连同指令向服务平台103发送新的识别信息，该识别信息例如与特定图像中的人物关联的人物姓名，而该指令用于利用发送的识别信息来更新数据库中的其他图像。响应于此，服务平台103可以执行例如一个或多个面部表征之间的比较，以在数据库中找到与发送的识别信息关联的面部表征匹配的具有面部表征的图像。在将识别信息与数据库中的匹配图像关联后，服务平台103可以此后向识别模块205 发送更新的关联的结果。这样，通过自动化处理，识别模块205可以缓解用户手动地输入识别信息（例如，逐一地标记每个图像）的时间量和资源。

通信模块207管理和控制任何的传入和传出的通信，例如数据共享、从其他UE101或服务平台103接收各种请求、以及电话呼叫、文本消息收发、即时消息收发和因特网通信。例如，如上所讨论的，为了用新的识别信息来更新数据库中的其他图像，识别模块205可以经由通信模块207与服务平台103共享新的识别信息。UE101也可以连接到例如捕获存储器109a-109n的存储介质，使得捕获管理器 107可以访问或存储通信历史数据。举例而言，如果捕获存储器 109a-109n不是本地的，则它们可以经由通信网络105来访问。UE101 也可以经由通信网络105来连接到服务存储器111，使得捕获管理器 107可以能够管理或访问服务存储器111中的数据。

计算模块209执行各种计算，包括基于一个或多个准则（例如，位置、角度、照明、清晰度、模糊强度、噪声、分辨率等）来确定和比较捕获表征的质量，并且在数据库中匹配表征。计算任务可以响应于来自其他模块，例如控制器201、捕获模块203、识别模块205、通信模块207或呈现模块211的请求而执行各种计算。

呈现模块211控制例如图像用户接口的用户接口的显示，以经由接口传达信息并且允许用户与UE101进行交互。例如，通过将姓名标记到图像中的人物，呈现模块211可以允许用户向特定的图像添加识别信息。此后，如早些所讨论的，可以向识别模块205发送识别信息，以更新数据库中的其他图像。进一步，呈现模块211与控制器201、捕获模块203、识别模块205、以及通信模块207交互，以显示在它们的操作期间所产生的任意信息。

图3是根据一个实施例的用于识别媒体内容中的对象的过程的流程图。在一个实施例中，捕获管理器107执行过程300并且其实现在例如芯片组中，该芯片组包括如图12中所示出的处理器和存储器。在步骤301中，捕获管理器107确定在装置处检测内容流中的一个或多个对象。该检测可以在内容流的实例被捕获之前、之后和/ 或同时执行。通过这种方式，如果在内容流的实例被捕获的时刻不能轻易地检测到对象，则对象也可以在实例被捕获之前或之后来检测。捕获管理器107可以在关于对象的情况改变（例如，人员四周移动、脸部背离照相机、照明改变等）时持续跟踪对象。

在步骤303中，捕获管理器107确定捕获内容流中的一个或多个对象的一个或多个表征。如先前所讨论的，捕获管理器107也可以在内容流的实例被捕获之前、之后和/或同时，如在步骤305中那样，也捕获内容流中的一个或多个对象的一个或多个其他表征。例如，UE101可以令照相机模块配置成无论何时照相机模块起作用时，自动地检测、识别和捕获在其取景器图像内可见的对象以及脸部的表征（例如，将用于识别的最佳图像）。UE101可以接着持续地处理在取景器处捕获（例如，持续地或周期性地）的一系列图像（例如，内容流）。在一个实施例中，即使用户没有指示UE101来捕获图像，该内容流也被捕获。通过这种方式，随着用户正在构建用于捕获的图像，UE101可以识别和捕获在取景器场景中存在的对象或脸部的最佳图像（例如，当脸部或对象正在直视照相机时，不模糊、具有最佳照明等）、跟踪识别的对象或脸部，并且将最佳图像或表征与内容流的捕获实例（例如，捕获的相片）关联。关联的表征接着可以用于捕获的实例中的相应对象或脸部的识别。

例如，用户可以激活UE101的照相机模块（例如，通过执行照相机应用或打开照相机模块）以开始捕获取景器或照相机视野内的图像的内容流。捕获管理器107接着可以发起图像上的对象和/或面部检测。捕获管理器107保持每个检测的对象和/或脸部的记录并且开始跟踪每个检测的脸部。在一个实施例中，跟踪包括识别和记录捕获的内容流内的每个对象/脸部的相对位置。在该过程期间，捕获管理器107不需要识别或确定对象或脸部的特定标识。相反，捕获管理器107仅需要检测和跟踪各个对象/脸部，从而它们各个不同于其他的对象或脸部。换句话说，捕获管理器107检测内容流中的特定对象或脸部，存储对象或脸部，跟踪对象或脸部，并且持续地跟随内容流中的捕获对象或脸部的移动。相应地，当用户拍摄一幅图像时，图像中的跟踪对象和/或脸部的任意最佳表征可以与图像链接或否则关联（例如，如元数据信息与图像关联）。

在一个样本用例中，用户可以设置照相机、使用照相机的定时器功能（例如，十秒钟定时器）来对用户以及用户的朋友拍摄照片。随着他们对于相片做好准备，在相片被实际拍摄之前，对于照相机的取景器所检测的每个人，照相机的捕获管理器107可以捕获若干个面部表征。在相片被捕获后，捕获管理器107可以持续地捕获相片中的人的脸部表征以识别出最佳的图像。如果在捕获后找到最佳的表征，则捕获管理器107可以倒行地将表征与捕获的实例关联。这样，捕获管理器107并不需要依赖于捕获的相片中的特定脸部表征，但是可以选择捕获的任意脸部表征来代表相片中的人。举例而言，图8A-8B演示了这样的一种情形，其中在特定的图像实例之前捕获的对象表征可以代表在稍后时间捕获的其他图像实例中的对象。类似地，在图像实例捕获之间或在所有的图像实例已经被捕获之后的对象表征可以代表多个图像实例中的对象。

在另一实施例中，捕获管理器107可以接着如在步骤S307中选择一个或多个表征或一个或多个其他表征，以便至少部分地基于一个或多个准则（例如，位置、角度、照明、清晰度、模糊强度、噪声、分辨率等）来与一个或多个实例关联。在进一步的实施例中，捕获管理器107可以如步骤309中持续地、周期性地，或在预定的调度处捕获一个或多个表征或一个或多个其他表征，直到一个或多个表征满足预定的质量阈值。尽管表征可以被持续地捕获，预定的质量阈值条件允许捕获至少满足预定质量阈值的表征，并且允许例如UE101通过避免不必要地捕获多余的表征来保持电池寿命。此后，如步骤311中，捕获管理器107将选择（例如，一个或多个表征，一个或多个其他表征等）与内容流的一个或多个实例关联。如先前所讨论的，选择的表征可以作为元数据附接到捕获的实例，这是捕获管理器107可以将表征与内容流的实例关联的一种方式。此外，如图8A-8B中所示出的，捕获管理器107可以将单个的表征与多个实例关联。

图4是根据一个实施例的用于将识别信息与内容流的实例关联的过程的流程图。在一个实施例中，捕获管理器107执行过程400 并且实现在例如包括如图12中所示的处理器和存储器的芯片组中。在步骤401中，捕获管理器107至少部分地基于一个或多个表征来确定一个或多个表征的识别信息。例如，图像中的人物可以通过与图像关联的脸部表征来识别。可以从脸部表征来确定识别信息（例如，个人的姓名），因为如果例如个人已经先前在存在于数据库中的另一图像中被标识或识别，则脸部表征可能已经具有与其关联的识别信息。在步骤403中，捕获管理器107将识别信息与一个或多个实例关联。如图10中所示，加标记可以是将识别信息与一个或多个实例关联的一种方式。

图5是根据一个实施例的用于将最佳脸部表征与内容流的图像实例关联的过程的流程图。在一个实施例中，捕获管理器107执行过程500并且实现在例如包括如图12中所示的处理器和存储器的芯片组中。在图5中，当例如照相机被打开时，过程500也演示可以由捕获管理器107所执行的步骤。照相机可以经由捕获管理器107 的呈现模块211来在照相机的显示器上向用户显示内容流，例如直播视频流。同时，捕获管理器107可以开始运行代表过程500的算法。这样，在步骤501中，捕获管理器107通过确定脸部是否已经被检测而开始。注意到在该步骤中，捕获管理器107仅尝试检测脸部；其并不尝试识别其是谁的脸部。在已经检测到脸部后，在步骤 503中，捕获管理器107捕获脸部的表征。进一步注意到在过程500 期间，在照相机的取景器上示出的人可能四周移动，从而他们的脸部可能不再位于朝着照相机（例如，头部的后部朝着取景器）。即使在此类的情形下，捕获管理器107可以仍将捕获脸部表征，因为捕获管理器107可以记录脸部（或个人），使得捕获管理器107知道他们在哪，即使他们不可以被直接检测到。

进一步，在步骤505中，捕获管理器107确定表征是否是新的脸部或表征是否是已存在于数据库中的脸部的更好质量表征。如果脸部表征是易于稍后用于基于一个或多个准则（例如，位置、角度、照明、清晰度、模糊强度、噪声、分辨率等）来识别的目的，则该脸部表征是更好的质量表征。如果表征是新的脸部或表征是现存的脸部的更好的质量表征，则捕获管理器107经由步骤507存储表征以及与表征关联的质量值。捕获管理器107可以例如临时地在缓冲器或数据库中存储数据。否则，捕获管理器107在步骤509中确定是否已经捕获图像实例。如果已经捕获图像实例，则在步骤511中，捕获管理器107存储具有链接为数据库中的元数据的脸部的最佳表征的图像实例。

注意到当图像实例被捕获时，可能出现其中当图像实例被捕获的时刻脸部方位对于面部识别不是足够好的情形。然而，因为先前捕获的脸部表征可以用于识别脸部，该类情形并不是问题。如果还没有捕获图像实例，则捕获管理器107可以继续检测和捕获其他脸部表征。

图6是根据一个实施例的用于将识别信息与图像实例/脸部表征对关联的过程的流程图。在一个实施例中，捕获管理器107执行过程600并且实现在例如包括如图12中所示的处理器和存储器的芯片组中。在步骤601中，捕获管理器107将图像实例/脸部表征对的表征与数据库中的识别的脸部表征进行比较。在步骤603中，捕获管理器107基于比较确定表征是否被识别或已知。例如，如果表征匹配具有与其关联的识别信息（例如个人的姓名）的另一个对的表征，则捕获管理器107可以确定一个图像实例/脸部表征对的表征被识别或已知。如果表征被识别，则在步骤605中，捕获管理器107将匹配对的识别信息（例如，个人的姓名）与图像实例/脸部表征对关联。否则，捕获管理器107将留下图像实例/脸部表征对的表征不识别。

图7是根据一个实施例的用于将识别信息与数据库中的图像实例/脸部表征对关联的过程的流程图。在一个实施例中，捕获管理器 107执行过程700并且实现在例如包括在如图12中所示的处理器和存储器的芯片组中。在步骤701中，与图像实例/脸部表征对关联的新的识别信息（例如新的个人姓名）被添加到数据库（例如自动地或由用户手动地）。类似地，也可以修改已经与数据库中的图像实例/脸部表征对关联的现存识别信息。在步骤703中，图像实例/脸部表征对的表征与数据库中的另一图像实例/脸部表征对的表征比较。在步骤705中，捕获管理器确定是否找到任何的匹配。如果存在一个或多个匹配，则在步骤707中，捕获管理器107将新的识别信息（例如，个人的姓名）与包含匹配表征的图像实例/脸部表征对关联。

图8A-8B是根据各种实施例的在图3的过程中捕获的内容流的实例中的对象的表征的视图。如先前所述的，捕获管理器107可以捕获一个或多个表征，并且也捕获一个或多个其他的表征。此后，捕获管理器107可以基于一个或多个准则（例如，位置、角度、照明、清晰度、模糊强度、噪声、分辨率等）来选择与一个或多个实例关联的一个或多个表征或一个或多个其他的表征。

图8A-8B示出内容流的两个时间实例：在时间A处实例801，具有最佳的表征803、805、807、809和811；以及在时间B处实例 851，具有最佳的表征853、855、857、859和861。在图8A中，检测的对象是弗兰克、杰里、苏和哈里森。迄今为止，在时间A处捕获弗兰克、杰里、苏和哈里森的表征是最佳表征。相应地，示出对于在时间A处的实例的迄今为目在时间A处的最佳表征（例如，最佳表征803、805、807、809和811）。

在图8B中，检测到的对象仍是弗兰克、玛丽、杰里、苏和哈里森。在该例子中，然而，在时间B处捕获的弗兰克、玛丽、杰里、苏和哈里森的表征并不必然是迄今的最佳表征。例如，捕获管理器 107确定（例如，基于位置和角度）在时间B处的弗兰克的表征比在时间A处的弗兰克的表征更优，因为在时间B处的弗兰克的表征示出弗兰克的整个脸部，而在时间A处的表征仅示出弗兰克脸部的侧面。因此，在图8B中，捕获管理器107选择在时间B处的弗兰克的表征作为由最佳表征853所示出的迄今的最佳表征。

在另一例子中，在图8B中，捕获管理器107确定在时间A处的玛丽的表征比在时间B处的玛丽的表征更佳，因为在时间A处的玛丽的表征示出了玛丽脸部的大部分而在时间B处的玛丽的表征仅示出玛丽脸部的侧面。因此，在图8B中，捕获管理器107选择在时间 A处的玛丽的表征作为由最佳表征855所示出的迄今的最佳表征。类似地，在图8B中，捕获管理器107也对如由最佳表征857、859 和861所示出的杰里、苏和哈里森执行确定和选择功能。

图9A-9B是根据各种实施例的从图3的过程中的不同角度捕获的内容流的实例中的对象的表征的图。如先前所述，捕获管理器107 可以捕获一个或多个表征以及也捕获一个或多个其他表征。此后，捕获管理器107可以基于一个或多个准则（例如，位置、角度、照明、清晰度、模糊强度、噪声、分辨率等）来选择一个或多个表征或一个或多个其他表征来与一个或多个实例关联。此外，如图9A-9B 中所示，可以从一个或多个内容流捕获一个或多个表征或一个或多个其他表征。

图9A-9B示出两个实例：在时间X处从角度A捕获的内容流的实例901，具有最佳表征903、905和907；以及在时间X处从角度 B捕获的另一内容流的实例951，具有最佳表征953、955和957。在该例子中，一个设备（例如UE101）可以包括两个捕获装置（例如，多个照相机、多个摄像机等），-每个捕获装置分别进行内容中的流处理（streaming）。然而，在该例子中，也可能两个装置（例如，UE101a-101n）每个分别地在内容中进行流处理-一个装置从角度A在内容中进行流处理而另一个装置从角度B在内容中进行流处理。在图9A中，捕获管理器107检测对象，玛丽、杰里和苏，并且从角度A捕获他们的表征。类似地，在图9B中，捕获管理器107 检测对象，玛丽、杰里和苏，并且从角度B捕获他们的表征。如先前所提到的，装置可以从一个或多个其他装置接收一个或多个表征。例如，如果一个装置在角度A而一个装置在角度B，则两个装置可以从它们各自的角度无线地共享它们捕获的表征。相应地，每个装置的捕获管理器107基于一个或多个准则来在从角度A捕获的表征或在从角度B捕获的表征之间做出选择，以便与实例关联。如图A 中所示，选择与实例901关联的表征是最佳表征903、905和907。同样地，在图B中，选择与实例951关联的表征是最佳表征953、 955和957。最佳表征901和951是从角度B捕获的玛丽的表征，而最佳表征903和953是从角度A捕获的杰里的表征，而最佳表征905 和955是从角度A捕获的苏的表征。

图10是根据一个实施例的使用图4、6和7的过程的用户接口的图。UE101可以并入用户接口1001以允许用户与系统100交互。在图10中，捕获管理器107实现若干个人在图片中并且以矩形突出显示他们中的每个。因为用户可能已经在另一个图像中标记了弗兰克和苏，捕获管理器107能够在图10中示出的图像被捕获之前、之后和/或同时确定他们的识别信息（例如，他们的姓名）。当图像被捕获时，捕获管理器107可以通过例如标记图像来将识别信息与图像关联。如所示出的，基于包括最佳表征1005的一个或多个表征来确定弗兰克的识别信息1003。类似地，基于包括最佳表征1009的一个或多个表征来确定苏的识别信息1007。然而，如所示出的，图像中的其他人还未被标记。这样，捕获管理器107并不能够基于它们的表征（例如，最佳表征1011和1013）来确定它们的识别信息，因为它们的表征还未与任何的识别信息关联。因此，对于由最佳表征 1011和1013所代表的两个人，没有显示识别信息或标签。

此外，用户接口1001显示若干个与用户选项关联的图标，以执行特定的接口功能（例如，从左到右的选项：观看主视图菜单，观看图片库中的图像列表，共享图像、作为收藏保存、编辑图像实例、删除图像实例以及返回到先前的屏幕）。例如，用户接口1001可以允许用户来编辑图像实例，包括对象、表征、以及与图像实例关联的识别信息。使用编辑选项，用户可以通过例如点击绕对象的矩形内的任意位置并且键入识别信息来添加新的识别信息（例如，新的人的姓名）。用户接口1001接着可以将新的识别信息与对象表征关联。随后，可以自动地或手动地使得图7的过程运行，由此更新数据库中的其他图像实例。类似地，编辑选项也可以用于修改已经与图像实例关联的识别信息。

此处描述的用于识别媒体内容中的对象的过程可以有利地经由软件、硬件、固件或软件和/或固件和/或硬件的组合来实施。例如，此处描述的过程可以有利地经由（多个）处理器、数字信号处理器（DSP）芯片、专用集成电路（ASIC）、现场可编程门阵列（FPGA）等实施。下面详细描述用于执行所述功能的这种示例性硬件。

图11图示了本发明实施例可以在其上实现的计算机系统1100。尽管针对特定设备或装置描述了计算机系统1100，可以预期图11 内的其他设备或装置（例如，网元、服务器等）可以部署系统1100 的示出硬件和部件。计算机系统1100被编程（例如，经由计算机程序代码或指令）以如此处所述的识别媒体内容中的对象，并且包括诸如用于在计算机系统1100的其他内部组件和外部组件之间传递信息的总线1110的通信机制。信息（也称为数据）表示为可测量现象（典型为电压）的物理表示，但在其他实施例中，这种现象包括磁的、电磁的、压力的、化学的、生物的、分子的、原子的、亚原子和量子交互的现象。例如，北磁场和南磁场，或零电压和非零电压，表示二进制数位（比特）的两种状态（0，1）。其他现象可以表示更高基数的数位。多个同时量子态在测量前的叠加表示量子比特（qubit）。一个或更多数位的序列构成用于表示字符的编号或代码的数字数据。在一些实施例中，称为模拟数据的信息由特定范围内近连续的可测量值来表示。计算机系统1100或其部分构成用于执行识别媒体内容中的对象的一个或多个步骤的装置。

总线1110包括一个或更多并联的信息导线，从而信息在耦合到总线1110的设备之间快速传输。一个或更多处理信息的处理器1102 与总线1110耦合。

处理器（或多个处理器）1102对信息执行与识别媒体内容中的对象有关的计算机程序代码所指定的操作集。计算机程序代码是指令或语句的集合，其为处理器和/或计算机系统的操作提供指令以执行指定功能。例如，可以用编译为处理器本机指令集的计算机编程语言来编写代码。还可以直接用本机指令集（例如，机器语言）编写代码。操作集包括从总线1110导入信息和置入信息到总线1110 上。操作集典型地还包括比较两个或更多的信息单元、移动信息单元的位置和组合两个或更多的信息单元，诸如通过加法或乘法或诸如或（OR）、异或（XOR）和与（AND）的逻辑操作。操作集中每个可由处理器执行的操作通过称为指令的信息（诸如一或多位的操作代码）表现给处理器。将由处理器1102执行的操作序列（诸如操作代码序列）构成处理器指令，也称为计算机系统指令或简单称为计算机指令。除了别的之外，处理器可以单独或者结合地实施为机械的、电的、磁的、光学的、化学的或量子的组件。

计算机系统1100还包括耦合到总线1110的存储器1104。存储器1104，诸如随机访问存储器（RAM）或其他动态存储设备，存有包括用于识别媒体内容中的对象的处理器指令的信息。动态存储器允许计算机系统1100改变存储于其中的信息。RAM允许存储在称为存储器地址的位置处的信息单元独立于临近地址处的信息而被储存和检索。存储器1104还被处理器1102使用，以存储执行处理器指令过程中的临时值。计算机系统1100还包括耦合到总线1110的只读存储器（ROM）1106或任意其他静态存储设备，用于存储静态包括指令的信息，其不被计算机系统1100所改变。一些存储器由掉电时会失去存储于其上的信息的易失性存储组成。非易失性（永久）存储设备1108也耦合到总线1110，诸如磁盘、光盘或快闪卡，用于存储包括指令的信息，该信息即使当计算机系统1100关闭或以其他方式断电时也存留。

包括用于识别媒体内容中的对象的指令的信息从诸如传感器或包含由人类用户操作的字母数字键的键盘之类的外部输入设备1112 提供到总线1110，以供处理器使用。传感器检测其附近的状况，而且将这些检测转化为与用于表示计算机系统1100中的信息的可测量现象相兼容的物理表示。耦合到总线1110的其他外部设备主要用于与人交互，包括诸如阴极射线管（CRT）、液晶显示器（LCD）、发光二极管（LED）显示器、有机LED（OLED）显示器、等离子屏的显示设备1114，或用于呈现文本或图像的打印机，以及诸如鼠标、轨迹球或光标导向键的指点设备1116，用于控制呈现在显示器1114 上的小光标图像位置和发布与呈现在显示器1114上图形元件相关联的命令的运动传感器。在一些实施例中，例如，在计算机系统1100 无需人工输入而自动执行所有功能的实施例中，外部输入设备1112、显示设备1114和指点设备1116中的一个或更多被省略。

在示出的实施例中，专用硬件，诸如专用集成电路（ASIC）1120 耦合到总线1110。专用硬件配置用于执行处理器1102针对特定目的不能足够快地执行的操作。ASIC的示例包括用于为显示器1114生成图像的图形加速卡、加密和解密通过网络发送的消息的密码板、语音识别和到诸如机器臂和医疗扫描装备等特殊外部设备的接口，这些特殊外部设备重复执行由硬件实施的更为有效的一些复杂操作序列。

计算机系统1100还包括耦合到总线1110的通信接口1170的一个或更多实例。通信接口1170提供耦合到利用自身处理器操作的多样外部设备的单向或双向通信，这些外部设备诸如是打印机、扫描仪和外部磁盘。一般地，该耦合是利用连接到本地网络1180的网络链路1178，其中多种利用自身处理器的外部设备连接到本地网络 1180。例如，通信接口1170可以是个人计算机上的并口、串口或通用串行总线（USB）端口。在一些实施例中，通信接口1170是提供到相应类型电话线的信息通信连接的综合业务数字网（ISDN）卡、数字用户线路（DSL）卡或电话调制解调器。在一些实施例中，通信接口1170是电缆调制解调器，其将总线1110上的信号转化为用于同轴电缆上通信连接的信号，或转化为用于在光缆上通信连接的光学信号。作为另外示例，通信接口1170可以是提供到诸如以太网的兼容LAN的数据通信连接的局域网（LAN）卡。还可以实施无线链路。对于无线链路，通信接口1170发送或接收或者既发送又接收承载诸如数字数据等信息流的电的、声学的或者电磁的信号，包括红外和光学信号。例如，在无线手持设备中，诸如比如蜂窝电话的移动电话，通信接口1170包括称为无线收发信机的无线电频段电磁发射器和接收器。在某些实施例中，通信接口1170支持到通信网络 105的连接，以用于在到UE101的媒体内容中识别对象。

这里使用术语“计算机可读介质”是指参与向处理器1102提供信息的任意介质，包括用于执行的指令。这样的介质可以采取许多形式，包括但是不局限于：计算机可读存储介质（例如，非易失性介质、易失性介质）和传输介质。非瞬态介质（诸如，非易失性介质）例如包括光盘或磁盘，诸如存储设备1108。易失性介质包括例如动态存储器1104。传输介质例如包括双绞线电缆、同轴电缆、铜线、光缆和无需线和缆在空间穿行的载波，诸如声波和电磁波，包括无线电波、光波和红外波。信号包括幅度、频率、相位、极化的人为瞬时变化或通过传输介质传播的其他物理属性。计算机可读介质的通常形式例如包括软盘、柔性盘、硬盘、磁带、任意其他磁介质、CD-ROM、CDRW、DVD、任意其他光介质、打孔卡、纸带、光符板、具有孔样式或其他光学可识别标记的任意其他物理介质、 RAM、PROM、EPROM、FLASH-EPROM、EEPROM、闪存存储器、任意其他的存储器芯片或盒式磁盘、载波或计算机可读的任意其他介质。这里使用术语计算机可读存储介质是指除了传输介质之外的任意计算机可读介质。

编码在一个或更多有形介质中的逻辑包括计算机可读存储介质和专用硬件（诸如，ASIC1120）中之一或二者上的处理器指令。

网络链路1178典型地使用通过一个或更多网络的传输介质向使用或处理信息的其他设备提供信息通信。例如，网络链路1178可以通过本地网络1180提供去往由因特网服务提供者（ISP）操作的设备1184或主机计算机1182的连接。ISP设备1184转而通过现在称为因特网1190的、网络的公共全球分组交换通信网络来提供数据通信服务。

连接至因特网的、称为服务器主机1192的计算机主控响应于通过因特网接收的信息而提供服务的过程。例如，服务器主机1192主控提供代表呈现在显示器1114上的视频数据的信息的过程。预期系统1100的部件可以以各种配置部署在其他计算机系统中，例如，主机1182和服务器1192。

本发明的至少某些实施例涉及使用计算机系统1100来实现此处描述的某些或全部技术。根据本发明的一个实施例，这些技术响应于处理器1102执行存储器1104中包含的一个或更多处理器指令的一个或更多序列而由计算机系统1100执行。这种指令（也称为计算机指令、软件和程序代码）可以从诸如存储设备1108或网络链路 1178的另一计算机可读介质读取至存储器1104中。包含在存储器 1104中的指令序列的执行引起处理器1102执行此处描述的一个或更多方法步骤。在备选实施例中，诸如ASIC1120的硬件可以替代或结合软件使用，以实现本发明。由此，本发明的实施例不限于任何特定的硬件和软件组合，除非以其他方式在此明确表明。

在网络链路1178和其他网络上通过通信接口1170传输的信号携带去往和来自计算机系统1100的信息。除了其他之外，计算机系统1100可以通过网络1180、1190，经由网络链路1178和通信接口 1170发送和接收信息，包括程序代码。在使用因特网1190的示例中，服务器主机1192通过因特网1190、ISP设备1184、本地网络1180 和通信接口1170传输从计算机1100发送的消息所请求的特定应用的程序代码。所接收的代码可以在接收时由处理器1102执行，或者可以存储在存储器1104或存储设备1108或其他非易失性存储中以供后续执行，或者二者皆可实现。以此方式，计算机系统1100可以获取载波上信号形式的应用程序代码。

各种形式的计算机可读介质可以用于将指令或数据或二者的一个或更多序列携带至处理器1102以供执行。例如，指令和数据最初可以承载在远程计算机（诸如，主机1182）的磁盘上。远程计算机将指令和数据加载至其动态存储器，并使用调制解调器通过电话线来发送指令和数据。计算机系统1100本地的调制解调器在电话线上接收指令和数据，并且使用红外发射器来将这些指令和数据转换为用作网络链路1178的红外载波上的信号。用作通信接口1170的红外检测器接收在红外信号中携带的指令和数据，并将代表指令和数据的信息放置在总线1110上。总线1110将这些信息携带至存储器 1104，处理器1102从存储器1104处获取指令并使用与指令一起发送的某些数据来执行指令。在存储器1104中接收的指令和数据可以可选地存储在存储设备1108上，或者在由处理器1102执行之前，或者在其执行之后。

图12示出本发明实施例可以在其上实施的芯片组或芯片1200。芯片组1200被编程以如这里描述的识别媒体内容中的对象，而且例如包括参照图12描述的、结合到一个或更多物理封装（例如，芯片）中的处理器和存储器部件。通过示例方式，物理封装包括一个或更多物质、部件、和/或电线在结构组件（例如，基板）上的布置，以提供诸如物理强度、保存尺寸和/或电交互局限的一个或更多特征。可以预期在某些实施例中，芯片组1200可以实施为单芯片。还可以预期，在某些实施例中，芯片组或者芯片1200可以实施为单个“片上系统”。还可以预期，在某些实施例中，例如不使用分离的ASIC，且如此处讨论的所有相关功能将通过一个处理器或多个处理器执行。芯片组或芯片1200或其一部分构成了用于执行提供与服务可用性相关的用户接口导航信息的一个或更多步骤的方式。芯片组或芯片1200或其部分构成用于执行识别媒体内容中的对象的一个或更多步骤的装置。

在一个实施例中，芯片组或芯片1200包括诸如用于在芯片组 1200的部件之间传送信息的总线1201之类的通信机制。处理器1203 具有到总线1201的连通性，以执行指令和处理存储在例如存储器 1205中的信息。处理器1203可以包括一个或更多处理核，每个核配置为独立操作。多核处理器支持单个物理封装中的多处理。多核处理器的示例包括两个、四个、八个或更多数目的处理核。可替换地或附加地，处理器1203可以包括一个或更多经由总线1201串联的微处理器，以支持独立执行指令、流水线和多线程。处理器1203还可以与诸如一个或更多数字信号处理器（DSP）1207，或者一个或更多专用集成电路（ASIC）1209之类的一个或更多专用部件相互协同，以执行某些处理功能和任务。DSP1207典型地配置为独立于处理器 1203实时处理现实世界信号（例如，声音）。类似地，ASIC1209 可以配置为执行更加通用处理器难以执行的专用功能。其他有助于执行这里描述的本发明功能的专用部件可以包括一个或更多现场可编程门阵列（FPGA）（未示出），一个或更多控制器（未示出）或一个或更多其他专用计算机芯片。

在一个实施例中，芯片组或芯片1200仅包括一个或更多处理器以及支持和/或涉及和/或用于该一个或更多处理器的一些软件和/或固件。

处理器1203和协同部件具有经由总线1201到存储器1205的连通性。存储器1205包括用于存储可执行指令的动态存储器（例如， RAM、磁盘、可写光盘等）和静态存储器（例如，ROM、CD-ROM 等），当指令被运行时执行这里描述的发明步骤以识别媒体内容中的对象。存储器1205还存储与执行本发明步骤相关联的数据或执行本发明步骤所产生的数据。

图13是根据一个实施例、能够在图1系统中操作的用于通信的移动终端（例如，手机）的示例性部件图示。在某些实施例中，移动终端1301或其部分构成用于识别媒体内容中的对象的一个或更多步骤的装置。通常，依据前端和后端特征来定义无线电接收器。接收器的前端涵盖所有射频（RF）电路，而后端涵盖所有基带处理电路。如此申请中使用的，术语“电路”涉及以下二者：（1）仅硬件实现（诸如以模拟和/或数字电路实现），和（2）电路和软件（和/ 或固件）的组合（诸如，如果适用于特定上下文，则涉及处理器（多个）（包括数字信号处理器（多个））、软件和存储器（多个）的组合，这些部件一起工作以引起诸如移动电话或服务器之类的设备执行各种功能）。“电路”的这一定义在此申请中适用于此术语的所有使用，包括在任何权利要求中也是如此。作为另一示例，如在此申请中使用的以及如果适用于特定上下文，术语“电路”也将覆盖仅处理器（或多个处理器）及其随附软件和/或固件的实现。如果适用于特定上下文，术语“电路”也将覆盖例如移动电话中的基带集成电路或应用处理器集成电路，或者蜂窝网络设备或其他网络设备中类似的集成电路。

电话的有关内部部件包括主控单元（MCU）1303、数字信号处理器（DSP）1305和包括麦克风增益控制单元和扬声器增益控制单元的接收器/发射器单元。主显示单元1307向用户提供显示以支持各种应用和移动终端功能，该各种应用和移动终端功能执行或支持在媒体内容中识别对象的步骤。显示器1307包括配置用于显示移动终端（例如，移动电话）用户界面的至少一部分的显示电路。附加地，显示器1307和显示电路配置用于促进用户对移动终端至少某些功能的控制。音频功能电路1309包括麦克风1311和放大从麦克风1311 输出的语音信号的麦克风放大器。放大的语音信号从麦克风1311输出，馈送到编码器/解码器（CODEC）1313。

无线电部分1315放大功率并转化频率以经由天线1317与基站通信，其中基站包含在移动通信系统中。如现有技术已知，功率放大器（PA）1319和发射器/调制电路可操作地响应于MCU1303，从 PA1319的输出耦合到双工器1321或循环器或天线开关。PA1319 还耦合到电池接口和功率控制单元1320。

在使用中，移动终端1301的用户对着麦克风1311讲话，而且他或她的语音连同任何检测到的背景噪音被转换为模拟电压。模拟电压继而通过模拟到数字转换器（ADC）1323转换为数字信号。控制单元1303将数字信号路由到DSP1305以在其中处理，诸如语音编码、信道编码、解密和交织。在一个实施例中，处理后的语音信号由没有单独示出的单元进行编码，其使用蜂窝传输协议，诸如全球演进（EDGE）、通用分组无线服务（GPRS）、全球移动通信系统（GSM）、因特网协议多媒体子系统（IMS）、通用移动通信系统（UMTS）等，以及例如微波接入（WiMAX）、长期演进（LTE）网络、码分多址（CDMA）、宽带码分多址（WCDMA）、无线保真（WiFi）、卫星及类似的其他任意合适的无线介质。

编码信号接着路由到均衡器1325，以补偿在穿过空气而传输的过程中发生的、与频率相关的任意损失，诸如相位和幅度失真。均衡比特流之后，调制器1327将该信号与RF接口1329中产生的RF 信号结合。调制器1327通过频率或相位调制产生正弦波。为了准备传输信号，上变频器1331将调制器1327输出的正弦波与合成器1333 产生的另一正弦波相结合，以达到传输期望频率。接着经过PA1319 发送信号，以将该信号增加到恰当的功率级别。在实际系统中，PA 1319作为可变增益放大器，其增益由DSP1305根据从网络基站接收的信息进行控制。信号接着在双工器1321内滤波，而且可选地发送到天线耦合器1335以匹配阻抗，从而提供最大功率传输。最后，信号经由天线1317发射到本地基站。可以提供自动增益控制（AGC），以控制接收器最后级的增益。信号可以从那里转发至可以是另一蜂窝电话、其他移动电话或连接到公共交换电话网络（PSTN）或其他电话网络的陆上通讯线的远程电话。

发射到移动终端1301的语音信号经由天线1317被接收，而且立刻被低噪放大器（LNA）1337放大。下变频器1339降低载波频率，而解调器1341将RF剥离为只剩下数字比特流。信号接着穿过均衡器1325且被DSP1305处理。数字到模拟转换器（DAC）1343转换该信号，而且得到的输出通过扬声器1345被发送到用户，这都在可以实施为中央处理单元（CPU）（没有示出）的主控单元（MCU） 1303的控制之下。

MCU1303接收包括来自键盘1347的输入信号的各种信号。与其他用户输入部件（例如，麦克风1311）结合的键盘1347和/或MCU 1303包括用于管理用户输入的用户接口电路。MCU1303运行用户接口软件以促进用户控制移动终端1301的至少一些功能，以识别媒体内容中的对象。MCU1303还分别递送显示命令和切换命令到显示器1307以及到语音输出切换控制器。此外，MCU1303与DSP1305 交换信息，而且能够访问可选并入的SIM卡1349和存储器1351。另外，MCU1303执行该终端所需要的各种控制功能。取决于具体实施，DSP1305可以执行关于语音信号的许多传统数字处理功能中的任意。另外地，DSP1305根据麦克风1311检测的信号确定本地环境的背景噪声水平，而且将麦克风1311的增益设置到补偿移动终端 1301用户的自然趋势的选定级别。

CODEC1313包括ADC1323和DAC1343。存储器1351存储包括呼入音数据的各种数据，而且能够存储其他数据，包括经由例如全球因特网接收到的音乐数据。软件模块可以驻留在RAM存储器、闪存、寄存器或其他任意形式的本领域公知的可写存储介质中。存储设备1351可以是，但是不局限于：单存储器、CD、DVD、ROM、 RAM、EEPROM、光存储、磁盘存储器、闪存存储器或任意其他能够存储数字数据的非易失性存储介质。

例如，可选并入的SIM卡1349承载诸如蜂窝电话号码、载波提供服务、订阅细节和安全信息的重要信息。SIM卡1349主要服务于在无线电网络中标识移动终端1301。卡1349还包含用于存储个人电话号码登记簿、文本消息和用户特定移动台设置的存储器。

尽管结合许多实施例和实现对本发明进行了描述，本发明却并不如此局限，而应该覆盖落入所附权利要求范围内的许多明显修改和等同布置。虽然在权利要求中以某种组合表述了本发明的特征，可以预期到能够按照任意组合和顺序布置这些特征。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于识别媒体内容中的对象的方法和装置 [P] . 中国专利： CN103080951B . 2016.12.07
2. 用于从多个对象中识别目标对象的装置、方法和系统 [P] . 中国专利： CN111492329A . 2020-08-04
3. AN APPARATUS FOR DETERMINING A CLASSIFIER FOR IDENTIFYING OBJECTS IN AN IMAGE, AN APPARATUS FOR IDENTIFYING OBJECTS IN AN IMAGE AND CORRESPONDING METHODS [P] . EP3893146A1 . 2021-10-13

机译：一种用于确定用于识别图像中对象的分类器的装置，用于识别图像中对象的装置和相应的方法
4. APPARATUS FOR DETERMINING A CLASSIFIER FOR IDENTIFYING OBJECTS IN AN IMAGE, AN APPARATUS FOR IDENTIFYING OBJECTS IN AN IMAGE AND CORRESPONDING METHODS [P] . US2021319269A1 . 2021-10-14

机译：用于确定用于识别图像中对象的分类器的装置，该装置识别图像中的对象和相应的方法
5. Object recognition device for use in vehicle to recognize e.g. highway sign, has alignment object restriction unit excluding alignment objects that correspond to recognized and stored object from being used in pattern alignment [P] . 德国专利： DE102012201454A1 . 2012-08-02

机译：用于车辆中的物体识别装置以识别例如高速公路标志，具有对准对象限制单元，该对准对象限制单元不将与识别并存储的对象相对应的对准对象用于图案对准