首页> 中国专利> 用于识别媒体内容中的对象的方法和装置

用于识别媒体内容中的对象的方法和装置

摘要

提供一种用于识别媒体内容中的对象的方法。捕获管理器确定在装置处检测内容流中的一个或多个对象。下面,捕获管理器确定捕获所述内容流中的一个或多个对象的一个或多个表征。接着,捕获管理器将所述一个或多个表征与所述内容流的一个或多个实例关联。

著录项

  • 公开/公告号CN103080951A

    专利类型发明专利

  • 公开/公告日2013-05-01

    原文格式PDF

  • 申请/专利权人 诺基亚公司;

    申请/专利号CN201180040741.7

  • 发明设计人 I·T·萨尔米南;M·A·尼尔米;

    申请日2011-08-02

  • 分类号G06K9/00;G10L15/30;H04L29/08;

  • 代理机构北京市金杜律师事务所;

  • 代理人酆迅

  • 地址 芬兰埃斯波

  • 入库时间 2024-02-19 19:15:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-07

    授权

    授权

  • 2016-03-02

    专利申请权的转移 IPC(主分类):G06K9/00 登记生效日:20160203 变更前: 变更后: 申请日:20110802

    专利申请权、专利权的转移

  • 2013-06-05

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20110802

    实质审查的生效

  • 2013-05-01

    公开

    公开

说明书

背景技术

服务提供商和设备制造者(例如无线、蜂窝等)不断面临着挑 战以例如通过提供有竞争力的网络服务向消费者提供价值和便利。 开发的一个领域是使用用于自动化识别媒体内容中的脸部、人物和 其他对象或特征(例如,识别表情,例如面部表情、体态、移动、 话音、声音等),所述媒体内容例如图像、视频流以及音频流。例 如,许多现代化通信设备(例如,智能电话、手机等)通常配置有 照相机和其他传感器(例如,麦克风),使得设备在捕获的内容上 执行此类的识别(例如,面部、话音、表情识别等)。然而,这些 设备通常使用用于面部和/或对象识别的常规方法,这些常规方法传 统上致力于在某些条件下(例如,噪声、变化的表情、坏的角度、 差的照明、低分辨率图像或声音等)准确地执行。相应地,服务提 供商和设备制造商面临改进面部和/或对象识别的准确性的显著技术 挑战。

一些示例实施例

因此,需要一种方式来有效地和高效地识别媒体内容中的面部、 对象和其他特征。

根据一个实施例,一种方法包括:确定在装置处检测内容流中 的一个或多个对象。该方法还包括确定捕获所述内容流中的一个或 多个对象的一个或多个表征。该方法进一步包括将所述一个或多个 表征与所述内容流的一个或多个实例关联。

根据另一实施例,一种设备包括:至少一个处理器;以及包括 计算机程序代码的至少一个存储器,该至少一个存储器和该计算机 程序代码配置成使用该至少一个处理器,至少部分地促使该设备确 定在装置处检测内容流中的一个或多个对象。还促使该设备确定捕 获所述内容流中的一个或多个对象的一个或多个表征。进一步促使 该设备将所述一个或多个表征与所述内容流的一个或多个实例关 联。

根据另一实施例,一种计算机可读存储介质,其承载一个或多 个指令的一个或多个序列,当由一个或多个处理器执行时,该一个 或多个指令至少部分地促使设备确定在装置处检测内容流中的一个 或多个对象。该设备还被促使确定捕获所述内容流中的一个或多个 对象的一个或多个表征。该设备进一步被促使将所述一个或多个表 征与所述内容流的一个或多个实例关联。

根据另一实施例,一种设备包括:用于确定在装置处检测内容 流中的一个或多个对象的装置。该设备还包括用于确定捕获所述内 容流中的一个或多个对象的一个或多个表征的装置。该设备进一步 包括用于将所述一个或多个表征与所述内容流的一个或多个实例关 联的装置。

简单地通过说明包括针对实施本发明所设想的最佳方式的很多 特定实施例和实现,从下面的详细描述将容易显见本发明的其他方 面、特征和优点。本发明还能够具有其他或不同实施例,且其若干 细节可以在各个明显方面进行修改,所有这些都不偏离本发明的精 神和范围。因此,附图和说明本质上是说明性而非限制性的。

附图说明

通过示例而非限制性方式说明本发明的实施例,在附图的各图 中:

图1是根据一个实施例的能够识别媒体内容中的对象的系统的 视图;

图2是根据一个实施例的捕获管理器的组件的视图;

图3是根据一个实施例的用于识别媒体内容中的对象的过程的 流程图;

图4是根据一个实施例的用于将识别信息与内容流的多个实例 关联的过程的流程图;

图5是根据一个实施例的用于将最佳面部表征与内容流的图像 实例关联的过程的流程图;

图6是根据一个实施例的用于将识别信息与图像实例/面部表征 对关联的过程的流程图;

图7是根据一个实施例的用于将识别信息与数据库中的图像实 例/面部表征对关联的过程的流程图;

图8A-8B是根据各种实施例的在图3的过程中捕获的内容流的 实例中的对象的表征的视图;

图9A-9B是根据各种实施例的在图3的过程中从不同角度捕获 的内容流的实例中的对象的表征的视图;

图10是根据一个实施例的用于使用图4、6和7的过程的用户 接口的视图;

图11是可以用于实施本发明的一个实施例的硬件的视图;

图12是可以用于实施本发明的一个实施例的芯片组的视图;以 及

图13是可以用于实施本发明的一个实施例的移动终端(例如手 机)的视图。

具体实施方式

公开了用于识别媒体内容中的对象的方法、设备和计算机程序 的示例。在下面的描述中,出于解释目的,提出了各种特定细节以 提供对本发明的实施例的彻底理解。然而,对于本领域技术人员而 言,很明显的是可以不使用这些特定细节或可以使用等同布置来实 现本发明的实施例。在其他实例中,以框图形式示出已知结构和装 置,以避免不必要地混淆本发明的实施例。

图1是根据一个实施例的能够识别媒体内容中的对象的系统的 视图。如前所提到的,例如面部或话音识别的识别方法已经开发了 数年。作为该开发的结果,识别方法已经变得更为复杂和准确。例 如,通过分析例如眼睛、鼻子和嘴的脸部显著特征,以及到关键面 部特征的相对距离,面部识别方法已经被扩展到识别面部表情。附 加地,话音和语音识别方法已经从识别语音扩展到识别有声表达, 例如笑声和哭声,以及通常的周围或背景噪声(例如、交通、来自 聚会的声音等)。然而,如前所指出,识别方法仍努力于在某些条 件下(例如,噪声、变化的表情、坏的角度、差的照明、低分辨率 图像或声音等)执行,这使得识别不会最优或者有时不准确。此外, 传统的识别方法通常操作在捕获内容的特定实例上(例如,场景的 单次捕获的照片),由此通常依赖于特定实例的识别条件上。作为 结果,在与捕获实例中的识别主体(例如,对象或脸部,也统称为 对象)关联的条件对于识别不够理想的情况下,传统的识别方法可 能无法准确地识别对象。例如,当脸部远离、方位不直接对着捕获 装置(例如,照相机、摄像机等),受阴影遮蔽等,当图像被捕获 时,面部识别可以产生不准确的结果。

为解决该问题,图1的系统100引入了存储对象的最佳表征或 将对象的最佳表征与对象的相应捕获实例(例如,照片、音频记录、 视频记录等)关联的能力。在一个实施例中,这些最佳表征(例如, 在更适合于例如当脸正直视照相机时执行对象识别的条件下捕获的 表征)可以作为元数据附接到捕获的实例。在另一个实施例中,当 应用或其他服务试图在捕获的实例上执行对象识别时,对象的附接 或关联的最佳表征可以识别为替换捕获实例中的实际对象。例如, 在其中当捕获的实例是包含一个或多个脸部的相片时,脸部的一个 或多个最佳表征可以附接到每个相片。通过这种方式,脸部可以被 自动地识别,即使脸部例如从照相机转开或否则不清楚。

更具体地,系统100在内容流的实例(例如,相片、音频记录、 视频记录等)被捕获之前、之后和/或同时检测内容流中的对象。例 如,内容流表征连续地或基本上连续地在捕获设备处接收到的内容, 例如在照相机的取景器处接收到的图像或在打开的麦克风处接收到 的音频。一旦在内容流中检测到对象,系统100可以随关于对象改 变的情形(例如,人员走来走去,脸部转离照相机、照明改变等) 来持续跟踪对象。并发地,系统100捕获内容流中的对象的表征(例 如,连续地或周期性地)。在一个实施例中,系统100可以在内容 流的实例被捕获之前、之后和/或同时来捕获对象的表征。在另一个 实施例中,当用户发起对包括对象的内容流的特定实例的捕获时(例 如,当激励照相机上的快门以拍摄相片时),跟踪的对象信息,以 及对象的最佳表征的相应一个或多个可以与捕获的实例关联或标记 到捕获的实例。在一些实施例中,跟踪信息包括标识至少在捕获实 例内的对象的相对位置的信息,由此使得系统100能够将对象的最 佳表征与捕获的实例内的对象的位置关联。如上所指出,对于作为 实例的一部分捕获的任意对象,系统100并不需要依赖于实例中存 在的对象的特定表征用于识别目的。相反,系统100可以使用在实 例被捕获之前、之后和/或同时捕获的对象的任意表征来表示内容流 的实例中的对象。

在另一个实施例中,系统100可以基于一个或多个准则(例如, 位置、角度、照明、清晰度、模糊强度、噪声、分辨率等)来选择 表征。例如,如果表征中的对象是脸部,则可以基于一个或多个优 选的面部表情来选择表征。在这种情形下,如果相应的脸部正在微 笑或大笑,则可以选择表征。在一些情形中,当脸部具有最为中性 的表情时(例如,没有表情),则可以选择最佳表征。在另一个实 施例中,可以持续地、周期性地、在预定的调度处捕获表征,直到 表征的质量(例如,适于对象识别)满足预定的质量阈值。尽管表 征可以被持续地捕获(例如,只要捕获装置加电),预定质量阈值 条件允许捕获至少满足预定质量阈值的表征,并且通过避免不必要 捕获额外的表征来允许例如移动装置保护电池寿命。此后,系统100 可以将例如对象的最佳表征与内容流的实例关联。根据另一实施例, 系统100可以通知用户是否满足质量阈值,并且要求用户将照相机 指向质量阈值没有被满足的脸部或对象。通过这种方式,用户可以 尝试除了捕获场景的实际实例或相片以外,直接捕获最佳表征。

如图1中所示,系统100包括用户设备(UE)101或具有经由 通信网络105到服务平台103的连接性的多个UE101a-101n。尽管 服务平台103已经示为通信网络105的独立组件,可以预期服务平 台103可以并入进包括以下讨论的任意组件的系统100的任意其他 组件。在一个实施例中,UE101可以包括捕获管理器107或连接到 捕获管理器107。UE101也可以包括或被连接到捕获存储器109。捕 获管理器107可以与捕获存储器109通信以访问或存储媒体数据或 任意其他形式的数据。捕获管理器107可以与UE中或与UE连接的 媒体捕获装置(例如,数字照相机、摄像机、声音记录器等)通信 以检测内容流中的对象,并且捕获内容流的对象表征和实例。捕获 管理器107可以进一步执行将表征与内容流的实例关联的功能。此 外,捕获管理器107可以执行确定内容流中的对象的识别信息并且 将识别信息与内容流的实例关联的功能。捕获管理器107也可以提 供视觉化(例如,图形用户接口)以允许用户添加或修改识别信息, 以辅助捕获管理器107确定并且将识别信息与内容流的实例关联。

进一步,捕获管理器107能够使用在UE101处可获得的任意形 式的通信来操控各种通信操作。例如,捕获管理器107可以经由UE 101来管理传入或传出的通信,并且在此类通信被接收和处理时显示 它们。在某些实施例中,捕获管理器107也可以提供视觉化(例如, 图形用户接口)来允许用户通过使用任意可获得形式的通信的通信 网络105来控制通信或共享媒体。例如,捕获管理器107可以包括 选项来选择与UE101a-101n通信,以便共享媒体数据或其他形式的 数据。进一步,捕获管理器107可以包括允许用户与任意基于因特 网的网站通信或经由服务平台103来使用电子邮件服务的接口。此 外,捕获管理器107也包括用于与社交网络服务交互,并且支持从 UE101上传或共享媒体到所述社交网络服务的接口。

服务平台103可以执行与如这里所描述的在媒体内容中检测、 跟踪和识别对象关联的各种计算。此外或可替换地,可以针对UE101 来执行至少一些或所有的计算。例如,UE101可以向服务平台103 发送对象表征,以便执行一个或多个表征和一个或多个其他表征之 间的比较计算,以便从两组中确定最好的对象表征。在计算结果后, 服务平台103可以向UE101发送计算的结果。

在另一个例子中,通过向服务平台103发送图像实例(例如, 作为元数据附接到或标记到捕获的图像文件的对象的最佳图像)内 的对象的表征,UE101可以请求最近捕获的图像实例(例如,在UE 101处捕获的相片)的识别信息。响应于此,服务平台103可以将发 送的表征与数据库中的其他表征进行比较,该其他表征与具有识别 信息的类似图像实例(例如,相同对象的先前捕获和识别的相片) 关联。另外或可选地,服务平台103可以使用一个或多个识别算法 来从发送的表征和/或捕获的图像实例生成识别信息。例如,服务平 台103可以通过构建表征的视觉签名并且接着将构建的签名与已知 签名(例如,先前获取的签名、来自数据库的已知签名、通过因特 网搜索获得的已知签名等)进行比较来执行视觉对象识别。在一个 例子中,视觉签名基于在表征中的标识特征、特征之间的相对距离、 特征的尺寸或特性等,以便唯一地标识表征和/或捕获的图像中的相 应对象。

如果找到匹配或者否则生成识别信息,服务平台103可以向UE 101发送发现的识别信息。否则,服务平台103可以发送声明在数据 库中没有找到识别信息的消息。服务平台103也能够执行涉及到UE 101a-101n的通信的各种服务,使得UE101a-101n可以通过通信网 络105彼此通信。由服务平台103提供的服务可以包括蜂窝电话服 务、因特网服务、数据传输服务等。服务平台103也可以提供例如 音乐、视频、电视服务等的内容。服务平台103可以进一步包括或 连接到服务存储器111,以存储或访问媒体数据或任意其他形式的数 据。

如这里所使用的,术语数据库表示捕获存储器109中的数据库、 服务存储器111、通信网络105的另一存储组件或者其组合。另外如 这里所使用的,术语“媒体”表示各种形式的媒体,包括音频、视 频、静态图像、图片等。进一步,如这里所使用的,术语“图像” 表示由照相机(例如,静态照相机、数字照相机、视频照相机、照 相机电话等)或任意其他成像设备所拍摄的一个或一系列的图像。 例如,单个图像可以代表相片而多个图像可以按顺序组合以构成视 频剪辑。

举例而言,系统100的通信网络105包括诸如数据网络(未示 出)、无线网络(未示出)、电话网络(未示出)或其任意组合的 一个或多个网络。可以预期的是,数据网络可以是任意局域网 (LAN)、城域网(MAN)、广域网(WAN)、公共数据网络(例 如因特网)、短距离无线网络、或诸如商用私有分组交换网络(例 如,私有电缆或光纤网络)等任意其他合适的分组交换网络或其任 意组合。另外,无线网络例如可以是蜂窝网络且可以采用各种技术, 包括全球演进的增强型数据速率(EDGE)、通用分组无线业务 (GPRS)、全球移动通信系统(GSM)、因特网协议多媒体子系统 (IMS)、通用移动电信系统(UMTS)等以及任意其他合适的无线 介质,例如,全球微波互联接入(WiMAX)、长期演进(LTE)网 络、码分多址(CDMA)、宽带码分多址(WCDMA)、无线保真(WiFi)、 无线LAN(WLAN)、因特网协议(IP)数据广播、卫星、 移动ad-hoc网络(MANET)等或其任意组合。

UE101是任意类型的移动终端、固定终端或便携式终端,包括 移动手机、移动站、移动单元、移动装置、多媒体计算机、多媒体 平板电脑、因特网节点、通信器、台式计算机、膝上型计算机、笔 记本电脑、上网本计算机、平板电脑、可佩戴装置、个人通信系统 (PCS)装置、个人导航装置、个人数字助理(PDA)、音频/视频 播放器、数字照相机/摄像机、定位设备、电视接收器、无线电广播 接收器、电子书设备、游戏设备或其任意组合,包括这些装置的附 件和外围设备及其组合。还可以预期,UE101可以支持到用户的任 意类型的接口(诸如“可穿戴”电路系统等)。

在一个实施例中,通过基于表征来确定识别信息,可以识别出 对象。例如,通过与图像关联的脸部表征,可以识别图像中的人物。 可以根据脸部表征来确定识别信息(例如,人的姓名),因为脸部 表征可能已经具有与其关联的识别信息,例如,该人先前已经在存 在于数据库中的另一个图像中被标记或识别。在对象被识别后,识 别信息可以与包含对象的实例关联。如图10中所示,标记是将识别 信息与实例关联的一种方式。

在另一个实施例中,识别信息的确定进一步基于装置、另一个 装置、服务器、网络组件或者其组合处可获得的资源。为了有效地 使用资源,可以在执行识别信息确定功能的组件的资源未充分利用 或否则可用时确定识别信息。

在另一实施例中,表征可以作为元数据存储在实例中,作为元 数据存储在链接到实例的存储器中、或二者的组合。在进一步的实 施例中,识别信息也可以作为元数据存储在实例中、作为元数据存 储在链接到实例的存储器中、或二者的组合。通常,文件(例如文 档、图像、视频等)包含元数据并且包含在这些文件中的元数据可 以被轻易地发现。该情形特别是在当旨在共享文件和关于文件的信 息时不是问题。例如,用户可能想共享与特定的图像关联的表征和 识别信息。用户可以将图像上传到公共服务器或社交网络的网站, 以与用户的朋友共享。因为图像包含作为元数据的表征和识别信息, 用户的朋友可以下载该图像并且使用该图像、利用新的元数据信息 来更新他们自己的图像。然而,用户可能也想与用户的朋友共享图 像并且保持表征和识别信息私密。这样,可能更为理想的是将表征 和识别信息作为元数据存储在链接到实例的安全存储器中。通过这 种方式,表征和识别信息可以用于由用户用于识别目的,但即使在 图像本身被共享的情况下,也不会由其他用户用于识别目的。

在另一实施例中,表征也可以与各自的时间戳关联。进一步, 表征可以基于时间戳而与实例关联。例如,一个人的多个脸部表征 可以被存储,每个表征具有基于何时表征被捕获的时间戳。当图像 被捕获或添加到数据库时,具有最接近于特定的图像被捕获的时间 的时间戳的面部表征将被选择以表示图像中的人物。

在另一实施例中,可以存在一个或多个内容流。例如,UE101 可以接受多个内容流(例如,多个麦克风、多个照相机等)、同时 地或在不同的时间,包含相同的或不同类型的实例。

另外,UE101可以接受来自于其他的UE101a-101n、服务平台 103、通信网络105的其他组件或者其组合的一个或多个的经由例如 通信网络105的内容流。在另一实施例中,可以从其他设备(例如, 其他UE101a-101n、服务平台103、通信网络105的其他组件或其组 合)、其他内容流或者其组合来接收表征。这样,来自一个内容流 的表征可以被选择用于表示另一内容流的实例中的对象。例如,从 更早的内容流捕获的、存在于数据库中的最佳表征可以稍后被更新 或如果新的表征被确定为具有更好的质量,以从另一个内容流捕获 的新的表征来替代。此外,如关于图9A-9B所描述的,用户可以例 如经由通信网络105自动地或手动地彼此共享对象表征。

在另一实施例中,表征对应于对象的特性(例如,面部特性、 表情、体态、移动、话音、声音等)。可以捕获关于对象的不同类 型情况的多个表征,以呈现不同类型的情况。例如,可以针对每个 面部表情、包括微笑的脸部、痛哭的脸部、平静的脸部等来捕获表 征。

在另一实施例中,内容流可以是直播的视频流并且实例可以是 图像、视频、音频记录或其组合。例如,诸如照相机、摄像机等的 捕获设备可以包括显示直播的视频流的取景器,其中实例是图像、 视频、音频记录或其组合。

举例而言,UE101和服务平台103使用已知的、新的或仍发展 的协议彼此通信以及与通信网络105的其他组件通信。在该情况下, 协议包括限定通信网络105中的网络节点如何基于通过通信链路发 送的信息而彼此交互的一组规则。在每个节点内的不同操作层,从 产生和接收各种类型的物理信号,到选择用于传送这些信号的链路, 到这些信号指示的信息的格式,再到识别在计算机系统上执行哪个 软件应用发送或接收信息,该协议均有效。在开放系统互连(OSI) 参考模型中描述了用于在网络上交换信息的概念性不同协议层。

网络节点之间的通信典型地通过交换离散数据分组实现。每个 分组典型地包括(1)与特定协议相关的报头信息;以及(2)跟在 报头信息之后且包括可以独立于特定协议被处理的信息的净荷信 息。在一些协议中,分组包括(3)跟在净荷之后且指示净荷信息的 结束的尾部信息。报头包括诸如分组的来源、其目的地、净荷的长 度以及协议使用的其他属性之类的信息。通常,用于特定协议的净 荷中的数据包括用于与OSI参考模型的不同较高层相关的不同协议 的报头和净荷。用于特定协议的报头典型地指示在其净荷中包括的 下一协议的类型。较高层协议据说被封装在较低层协议中。包括在 跨越多个异构网络(诸如因特网)的分组中的报头典型地包括物理 (层1)报头、数据链路(层2)报头、网络(层3)报头和传输(层 4)报头以及各种应用报头(层5、层6和层7),如OSI参考模型 限定的。

图2是根据一个实施例的捕获管理器的组件的图。举例而言, 捕获管理器107包括用于识别媒体内容中的对象的一个或多个组件。 可以预期这些组件的功能可以组合在一个或多个组件中或由等同功 能性的其他组件来执行。在该实施例中,捕获管理器107包括控制 器201、捕获模块203、识别模块205、通信模块207、计算模块209 以及呈现模块211。

控制器201监视任务,这些任务包括由捕获模块203、识别模块 205、通信模块207、计算模块209以及呈现模块211执行的任务。 例如,尽管其他模块可以执行实际的任务,控制器201可以确定这 些任务何时以及如何被执行或否则引导其他的模块来执行任务。

捕获模块203管理和控制内容流中的对象的检测以及内容流的 对象表征和实例的捕获。捕获模块203也可以操控将对象表征与内 容流的实例关联。例如,捕获模块203可以确定将捕获的表征临时 地存储在缓冲器或数据库中,直到对象的最佳表征与内容流的相应 捕获实例关联。在另一个例子中,捕获模块203也可以控制表征被 捕获的频率(例如,连续地、周期性地或在预定的调度处)或何时 停止捕获新的表征(例如,当表征满足质量阈值)。

识别模块205管理和控制内容流中的对象的识别信息的确定以 及将识别信息与内容流的实例的关联。实际的确定和关联功能可以 由识别模块205、服务平台103、通信网络105的另一组件或者其组 合来执行。例如,特定捕获管理器107的识别模块205可以连同指 令向服务平台103发送新的识别信息,该识别信息例如与特定图像 中的人物关联的人物姓名,而该指令用于利用发送的识别信息来更 新数据库中的其他图像。响应于此,服务平台103可以执行例如一 个或多个面部表征之间的比较,以在数据库中找到与发送的识别信 息关联的面部表征匹配的具有面部表征的图像。在将识别信息与数 据库中的匹配图像关联后,服务平台103可以此后向识别模块205 发送更新的关联的结果。这样,通过自动化处理,识别模块205可 以缓解用户手动地输入识别信息(例如,逐一地标记每个图像)的 时间量和资源。

通信模块207管理和控制任何的传入和传出的通信,例如数据 共享、从其他UE101或服务平台103接收各种请求、以及电话呼叫、 文本消息收发、即时消息收发和因特网通信。例如,如上所讨论的, 为了用新的识别信息来更新数据库中的其他图像,识别模块205可 以经由通信模块207与服务平台103共享新的识别信息。UE101也 可以连接到例如捕获存储器109a-109n的存储介质,使得捕获管理器 107可以访问或存储通信历史数据。举例而言,如果捕获存储器 109a-109n不是本地的,则它们可以经由通信网络105来访问。UE101 也可以经由通信网络105来连接到服务存储器111,使得捕获管理器 107可以能够管理或访问服务存储器111中的数据。

计算模块209执行各种计算,包括基于一个或多个准则(例如, 位置、角度、照明、清晰度、模糊强度、噪声、分辨率等)来确定 和比较捕获表征的质量,并且在数据库中匹配表征。计算任务可以 响应于来自其他模块,例如控制器201、捕获模块203、识别模块205、 通信模块207或呈现模块211的请求而执行各种计算。

呈现模块211控制例如图像用户接口的用户接口的显示,以经 由接口传达信息并且允许用户与UE101进行交互。例如,通过将姓 名标记到图像中的人物,呈现模块211可以允许用户向特定的图像 添加识别信息。此后,如早些所讨论的,可以向识别模块205发送 识别信息,以更新数据库中的其他图像。进一步,呈现模块211与 控制器201、捕获模块203、识别模块205、以及通信模块207交互, 以显示在它们的操作期间所产生的任意信息。

图3是根据一个实施例的用于识别媒体内容中的对象的过程的 流程图。在一个实施例中,捕获管理器107执行过程300并且其实 现在例如芯片组中,该芯片组包括如图12中所示出的处理器和存储 器。在步骤301中,捕获管理器107确定在装置处检测内容流中的 一个或多个对象。该检测可以在内容流的实例被捕获之前、之后和/ 或同时执行。通过这种方式,如果在内容流的实例被捕获的时刻不 能轻易地检测到对象,则对象也可以在实例被捕获之前或之后来检 测。捕获管理器107可以在关于对象的情况改变(例如,人员四周 移动、脸部背离照相机、照明改变等)时持续跟踪对象。

在步骤303中,捕获管理器107确定捕获内容流中的一个或多 个对象的一个或多个表征。如先前所讨论的,捕获管理器107也可 以在内容流的实例被捕获之前、之后和/或同时,如在步骤305中那 样,也捕获内容流中的一个或多个对象的一个或多个其他表征。例 如,UE101可以令照相机模块配置成无论何时照相机模块起作用时, 自动地检测、识别和捕获在其取景器图像内可见的对象以及脸部的 表征(例如,将用于识别的最佳图像)。UE101可以接着持续地处 理在取景器处捕获(例如,持续地或周期性地)的一系列图像(例 如,内容流)。在一个实施例中,即使用户没有指示UE101来捕获 图像,该内容流也被捕获。通过这种方式,随着用户正在构建用于 捕获的图像,UE101可以识别和捕获在取景器场景中存在的对象或 脸部的最佳图像(例如,当脸部或对象正在直视照相机时,不模糊、 具有最佳照明等)、跟踪识别的对象或脸部,并且将最佳图像或表 征与内容流的捕获实例(例如,捕获的相片)关联。关联的表征接 着可以用于捕获的实例中的相应对象或脸部的识别。

例如,用户可以激活UE101的照相机模块(例如,通过执行照 相机应用或打开照相机模块)以开始捕获取景器或照相机视野内的 图像的内容流。捕获管理器107接着可以发起图像上的对象和/或面 部检测。捕获管理器107保持每个检测的对象和/或脸部的记录并且 开始跟踪每个检测的脸部。在一个实施例中,跟踪包括识别和记录 捕获的内容流内的每个对象/脸部的相对位置。在该过程期间,捕获 管理器107不需要识别或确定对象或脸部的特定标识。相反,捕获 管理器107仅需要检测和跟踪各个对象/脸部,从而它们各个不同于 其他的对象或脸部。换句话说,捕获管理器107检测内容流中的特 定对象或脸部,存储对象或脸部,跟踪对象或脸部,并且持续地跟 随内容流中的捕获对象或脸部的移动。相应地,当用户拍摄一幅图 像时,图像中的跟踪对象和/或脸部的任意最佳表征可以与图像链接 或否则关联(例如,如元数据信息与图像关联)。

在一个样本用例中,用户可以设置照相机、使用照相机的定时 器功能(例如,十秒钟定时器)来对用户以及用户的朋友拍摄照片。 随着他们对于相片做好准备,在相片被实际拍摄之前,对于照相机 的取景器所检测的每个人,照相机的捕获管理器107可以捕获若干 个面部表征。在相片被捕获后,捕获管理器107可以持续地捕获相 片中的人的脸部表征以识别出最佳的图像。如果在捕获后找到最佳 的表征,则捕获管理器107可以倒行地将表征与捕获的实例关联。 这样,捕获管理器107并不需要依赖于捕获的相片中的特定脸部表 征,但是可以选择捕获的任意脸部表征来代表相片中的人。举例而 言,图8A-8B演示了这样的一种情形,其中在特定的图像实例之前 捕获的对象表征可以代表在稍后时间捕获的其他图像实例中的对 象。类似地,在图像实例捕获之间或在所有的图像实例已经被捕获 之后的对象表征可以代表多个图像实例中的对象。

在另一实施例中,捕获管理器107可以接着如在步骤S307中选 择一个或多个表征或一个或多个其他表征,以便至少部分地基于一 个或多个准则(例如,位置、角度、照明、清晰度、模糊强度、噪 声、分辨率等)来与一个或多个实例关联。在进一步的实施例中, 捕获管理器107可以如步骤309中持续地、周期性地,或在预定的 调度处捕获一个或多个表征或一个或多个其他表征,直到一个或多 个表征满足预定的质量阈值。尽管表征可以被持续地捕获,预定的 质量阈值条件允许捕获至少满足预定质量阈值的表征,并且允许例 如UE101通过避免不必要地捕获多余的表征来保持电池寿命。此后, 如步骤311中,捕获管理器107将选择(例如,一个或多个表征, 一个或多个其他表征等)与内容流的一个或多个实例关联。如先前 所讨论的,选择的表征可以作为元数据附接到捕获的实例,这是捕 获管理器107可以将表征与内容流的实例关联的一种方式。此外, 如图8A-8B中所示出的,捕获管理器107可以将单个的表征与多个 实例关联。

图4是根据一个实施例的用于将识别信息与内容流的实例关联 的过程的流程图。在一个实施例中,捕获管理器107执行过程400 并且实现在例如包括如图12中所示的处理器和存储器的芯片组中。 在步骤401中,捕获管理器107至少部分地基于一个或多个表征来 确定一个或多个表征的识别信息。例如,图像中的人物可以通过与 图像关联的脸部表征来识别。可以从脸部表征来确定识别信息(例 如,个人的姓名),因为如果例如个人已经先前在存在于数据库中 的另一图像中被标识或识别,则脸部表征可能已经具有与其关联的 识别信息。在步骤403中,捕获管理器107将识别信息与一个或多 个实例关联。如图10中所示,加标记可以是将识别信息与一个或多 个实例关联的一种方式。

图5是根据一个实施例的用于将最佳脸部表征与内容流的图像 实例关联的过程的流程图。在一个实施例中,捕获管理器107执行 过程500并且实现在例如包括如图12中所示的处理器和存储器的芯 片组中。在图5中,当例如照相机被打开时,过程500也演示可以 由捕获管理器107所执行的步骤。照相机可以经由捕获管理器107 的呈现模块211来在照相机的显示器上向用户显示内容流,例如直 播视频流。同时,捕获管理器107可以开始运行代表过程500的算 法。这样,在步骤501中,捕获管理器107通过确定脸部是否已经 被检测而开始。注意到在该步骤中,捕获管理器107仅尝试检测脸 部;其并不尝试识别其是谁的脸部。在已经检测到脸部后,在步骤 503中,捕获管理器107捕获脸部的表征。进一步注意到在过程500 期间,在照相机的取景器上示出的人可能四周移动,从而他们的脸 部可能不再位于朝着照相机(例如,头部的后部朝着取景器)。即 使在此类的情形下,捕获管理器107可以仍将捕获脸部表征,因为 捕获管理器107可以记录脸部(或个人),使得捕获管理器107知 道他们在哪,即使他们不可以被直接检测到。

进一步,在步骤505中,捕获管理器107确定表征是否是新的 脸部或表征是否是已存在于数据库中的脸部的更好质量表征。如果 脸部表征是易于稍后用于基于一个或多个准则(例如,位置、角度、 照明、清晰度、模糊强度、噪声、分辨率等)来识别的目的,则该 脸部表征是更好的质量表征。如果表征是新的脸部或表征是现存的 脸部的更好的质量表征,则捕获管理器107经由步骤507存储表征 以及与表征关联的质量值。捕获管理器107可以例如临时地在缓冲 器或数据库中存储数据。否则,捕获管理器107在步骤509中确定 是否已经捕获图像实例。如果已经捕获图像实例,则在步骤511中, 捕获管理器107存储具有链接为数据库中的元数据的脸部的最佳表 征的图像实例。

注意到当图像实例被捕获时,可能出现其中当图像实例被捕获 的时刻脸部方位对于面部识别不是足够好的情形。然而,因为先前 捕获的脸部表征可以用于识别脸部,该类情形并不是问题。如果还 没有捕获图像实例,则捕获管理器107可以继续检测和捕获其他脸 部表征。

图6是根据一个实施例的用于将识别信息与图像实例/脸部表征 对关联的过程的流程图。在一个实施例中,捕获管理器107执行过 程600并且实现在例如包括如图12中所示的处理器和存储器的芯片 组中。在步骤601中,捕获管理器107将图像实例/脸部表征对的表 征与数据库中的识别的脸部表征进行比较。在步骤603中,捕获管 理器107基于比较确定表征是否被识别或已知。例如,如果表征匹 配具有与其关联的识别信息(例如个人的姓名)的另一个对的表征, 则捕获管理器107可以确定一个图像实例/脸部表征对的表征被识别 或已知。如果表征被识别,则在步骤605中,捕获管理器107将匹 配对的识别信息(例如,个人的姓名)与图像实例/脸部表征对关联。 否则,捕获管理器107将留下图像实例/脸部表征对的表征不识别。

图7是根据一个实施例的用于将识别信息与数据库中的图像实 例/脸部表征对关联的过程的流程图。在一个实施例中,捕获管理器 107执行过程700并且实现在例如包括在如图12中所示的处理器和 存储器的芯片组中。在步骤701中,与图像实例/脸部表征对关联的 新的识别信息(例如新的个人姓名)被添加到数据库(例如自动地 或由用户手动地)。类似地,也可以修改已经与数据库中的图像实 例/脸部表征对关联的现存识别信息。在步骤703中,图像实例/脸部 表征对的表征与数据库中的另一图像实例/脸部表征对的表征比较。 在步骤705中,捕获管理器确定是否找到任何的匹配。如果存在一 个或多个匹配,则在步骤707中,捕获管理器107将新的识别信息 (例如,个人的姓名)与包含匹配表征的图像实例/脸部表征对关联。

图8A-8B是根据各种实施例的在图3的过程中捕获的内容流的 实例中的对象的表征的视图。如先前所述的,捕获管理器107可以 捕获一个或多个表征,并且也捕获一个或多个其他的表征。此后, 捕获管理器107可以基于一个或多个准则(例如,位置、角度、照 明、清晰度、模糊强度、噪声、分辨率等)来选择与一个或多个实 例关联的一个或多个表征或一个或多个其他的表征。

图8A-8B示出内容流的两个时间实例:在时间A处实例801, 具有最佳的表征803、805、807、809和811;以及在时间B处实例 851,具有最佳的表征853、855、857、859和861。在图8A中,检 测的对象是弗兰克、杰里、苏和哈里森。迄今为止,在时间A处捕 获弗兰克、杰里、苏和哈里森的表征是最佳表征。相应地,示出对 于在时间A处的实例的迄今为目在时间A处的最佳表征(例如,最 佳表征803、805、807、809和811)。

在图8B中,检测到的对象仍是弗兰克、玛丽、杰里、苏和哈里 森。在该例子中,然而,在时间B处捕获的弗兰克、玛丽、杰里、 苏和哈里森的表征并不必然是迄今的最佳表征。例如,捕获管理器 107确定(例如,基于位置和角度)在时间B处的弗兰克的表征比 在时间A处的弗兰克的表征更优,因为在时间B处的弗兰克的表征 示出弗兰克的整个脸部,而在时间A处的表征仅示出弗兰克脸部的 侧面。因此,在图8B中,捕获管理器107选择在时间B处的弗兰克 的表征作为由最佳表征853所示出的迄今的最佳表征。

在另一例子中,在图8B中,捕获管理器107确定在时间A处的 玛丽的表征比在时间B处的玛丽的表征更佳,因为在时间A处的玛 丽的表征示出了玛丽脸部的大部分而在时间B处的玛丽的表征仅示 出玛丽脸部的侧面。因此,在图8B中,捕获管理器107选择在时间 A处的玛丽的表征作为由最佳表征855所示出的迄今的最佳表征。 类似地,在图8B中,捕获管理器107也对如由最佳表征857、859 和861所示出的杰里、苏和哈里森执行确定和选择功能。

图9A-9B是根据各种实施例的从图3的过程中的不同角度捕获 的内容流的实例中的对象的表征的图。如先前所述,捕获管理器107 可以捕获一个或多个表征以及也捕获一个或多个其他表征。此后, 捕获管理器107可以基于一个或多个准则(例如,位置、角度、照 明、清晰度、模糊强度、噪声、分辨率等)来选择一个或多个表征 或一个或多个其他表征来与一个或多个实例关联。此外,如图9A-9B 中所示,可以从一个或多个内容流捕获一个或多个表征或一个或多 个其他表征。

图9A-9B示出两个实例:在时间X处从角度A捕获的内容流的 实例901,具有最佳表征903、905和907;以及在时间X处从角度 B捕获的另一内容流的实例951,具有最佳表征953、955和957。 在该例子中,一个设备(例如UE101)可以包括两个捕获装置(例 如,多个照相机、多个摄像机等),-每个捕获装置分别进行内容中 的流处理(streaming)。然而,在该例子中,也可能两个装置(例 如,UE101a-101n)每个分别地在内容中进行流处理-一个装置从角 度A在内容中进行流处理而另一个装置从角度B在内容中进行流处 理。在图9A中,捕获管理器107检测对象,玛丽、杰里和苏,并且 从角度A捕获他们的表征。类似地,在图9B中,捕获管理器107 检测对象,玛丽、杰里和苏,并且从角度B捕获他们的表征。如先 前所提到的,装置可以从一个或多个其他装置接收一个或多个表征。 例如,如果一个装置在角度A而一个装置在角度B,则两个装置可 以从它们各自的角度无线地共享它们捕获的表征。相应地,每个装 置的捕获管理器107基于一个或多个准则来在从角度A捕获的表征 或在从角度B捕获的表征之间做出选择,以便与实例关联。如图A 中所示,选择与实例901关联的表征是最佳表征903、905和907。 同样地,在图B中,选择与实例951关联的表征是最佳表征953、 955和957。最佳表征901和951是从角度B捕获的玛丽的表征,而 最佳表征903和953是从角度A捕获的杰里的表征,而最佳表征905 和955是从角度A捕获的苏的表征。

图10是根据一个实施例的使用图4、6和7的过程的用户接口 的图。UE101可以并入用户接口1001以允许用户与系统100交互。 在图10中,捕获管理器107实现若干个人在图片中并且以矩形突出 显示他们中的每个。因为用户可能已经在另一个图像中标记了弗兰 克和苏,捕获管理器107能够在图10中示出的图像被捕获之前、之 后和/或同时确定他们的识别信息(例如,他们的姓名)。当图像被 捕获时,捕获管理器107可以通过例如标记图像来将识别信息与图 像关联。如所示出的,基于包括最佳表征1005的一个或多个表征来 确定弗兰克的识别信息1003。类似地,基于包括最佳表征1009的一 个或多个表征来确定苏的识别信息1007。然而,如所示出的,图像 中的其他人还未被标记。这样,捕获管理器107并不能够基于它们 的表征(例如,最佳表征1011和1013)来确定它们的识别信息,因 为它们的表征还未与任何的识别信息关联。因此,对于由最佳表征 1011和1013所代表的两个人,没有显示识别信息或标签。

此外,用户接口1001显示若干个与用户选项关联的图标,以执 行特定的接口功能(例如,从左到右的选项:观看主视图菜单,观 看图片库中的图像列表,共享图像、作为收藏保存、编辑图像实例、 删除图像实例以及返回到先前的屏幕)。例如,用户接口1001可以 允许用户来编辑图像实例,包括对象、表征、以及与图像实例关联 的识别信息。使用编辑选项,用户可以通过例如点击绕对象的矩形 内的任意位置并且键入识别信息来添加新的识别信息(例如,新的 人的姓名)。用户接口1001接着可以将新的识别信息与对象表征关 联。随后,可以自动地或手动地使得图7的过程运行,由此更新数 据库中的其他图像实例。类似地,编辑选项也可以用于修改已经与 图像实例关联的识别信息。

此处描述的用于识别媒体内容中的对象的过程可以有利地经由 软件、硬件、固件或软件和/或固件和/或硬件的组合来实施。例如, 此处描述的过程可以有利地经由(多个)处理器、数字信号处理器 (DSP)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA) 等实施。下面详细描述用于执行所述功能的这种示例性硬件。

图11图示了本发明实施例可以在其上实现的计算机系统1100。 尽管针对特定设备或装置描述了计算机系统1100,可以预期图11 内的其他设备或装置(例如,网元、服务器等)可以部署系统1100 的示出硬件和部件。计算机系统1100被编程(例如,经由计算机程 序代码或指令)以如此处所述的识别媒体内容中的对象,并且包括 诸如用于在计算机系统1100的其他内部组件和外部组件之间传递信 息的总线1110的通信机制。信息(也称为数据)表示为可测量现象 (典型为电压)的物理表示,但在其他实施例中,这种现象包括磁 的、电磁的、压力的、化学的、生物的、分子的、原子的、亚原子 和量子交互的现象。例如,北磁场和南磁场,或零电压和非零电压, 表示二进制数位(比特)的两种状态(0,1)。其他现象可以表示 更高基数的数位。多个同时量子态在测量前的叠加表示量子比特 (qubit)。一个或更多数位的序列构成用于表示字符的编号或代码 的数字数据。在一些实施例中,称为模拟数据的信息由特定范围内 近连续的可测量值来表示。计算机系统1100或其部分构成用于执行 识别媒体内容中的对象的一个或多个步骤的装置。

总线1110包括一个或更多并联的信息导线,从而信息在耦合到 总线1110的设备之间快速传输。一个或更多处理信息的处理器1102 与总线1110耦合。

处理器(或多个处理器)1102对信息执行与识别媒体内容中的 对象有关的计算机程序代码所指定的操作集。计算机程序代码是指 令或语句的集合,其为处理器和/或计算机系统的操作提供指令以执 行指定功能。例如,可以用编译为处理器本机指令集的计算机编程 语言来编写代码。还可以直接用本机指令集(例如,机器语言)编 写代码。操作集包括从总线1110导入信息和置入信息到总线1110 上。操作集典型地还包括比较两个或更多的信息单元、移动信息单 元的位置和组合两个或更多的信息单元,诸如通过加法或乘法或诸 如或(OR)、异或(XOR)和与(AND)的逻辑操作。操作集中每 个可由处理器执行的操作通过称为指令的信息(诸如一或多位的操 作代码)表现给处理器。将由处理器1102执行的操作序列(诸如操 作代码序列)构成处理器指令,也称为计算机系统指令或简单称为 计算机指令。除了别的之外,处理器可以单独或者结合地实施为机 械的、电的、磁的、光学的、化学的或量子的组件。

计算机系统1100还包括耦合到总线1110的存储器1104。存储 器1104,诸如随机访问存储器(RAM)或其他动态存储设备,存有 包括用于识别媒体内容中的对象的处理器指令的信息。动态存储器 允许计算机系统1100改变存储于其中的信息。RAM允许存储在称 为存储器地址的位置处的信息单元独立于临近地址处的信息而被储 存和检索。存储器1104还被处理器1102使用,以存储执行处理器 指令过程中的临时值。计算机系统1100还包括耦合到总线1110的 只读存储器(ROM)1106或任意其他静态存储设备,用于存储静态 包括指令的信息,其不被计算机系统1100所改变。一些存储器由掉 电时会失去存储于其上的信息的易失性存储组成。非易失性(永久) 存储设备1108也耦合到总线1110,诸如磁盘、光盘或快闪卡,用于 存储包括指令的信息,该信息即使当计算机系统1100关闭或以其他 方式断电时也存留。

包括用于识别媒体内容中的对象的指令的信息从诸如传感器或 包含由人类用户操作的字母数字键的键盘之类的外部输入设备1112 提供到总线1110,以供处理器使用。传感器检测其附近的状况,而 且将这些检测转化为与用于表示计算机系统1100中的信息的可测量 现象相兼容的物理表示。耦合到总线1110的其他外部设备主要用于 与人交互,包括诸如阴极射线管(CRT)、液晶显示器(LCD)、 发光二极管(LED)显示器、有机LED(OLED)显示器、等离子屏 的显示设备1114,或用于呈现文本或图像的打印机,以及诸如鼠标、 轨迹球或光标导向键的指点设备1116,用于控制呈现在显示器1114 上的小光标图像位置和发布与呈现在显示器1114上图形元件相关联 的命令的运动传感器。在一些实施例中,例如,在计算机系统1100 无需人工输入而自动执行所有功能的实施例中,外部输入设备1112、 显示设备1114和指点设备1116中的一个或更多被省略。

在示出的实施例中,专用硬件,诸如专用集成电路(ASIC)1120 耦合到总线1110。专用硬件配置用于执行处理器1102针对特定目的 不能足够快地执行的操作。ASIC的示例包括用于为显示器1114生 成图像的图形加速卡、加密和解密通过网络发送的消息的密码板、 语音识别和到诸如机器臂和医疗扫描装备等特殊外部设备的接口, 这些特殊外部设备重复执行由硬件实施的更为有效的一些复杂操作 序列。

计算机系统1100还包括耦合到总线1110的通信接口1170的一 个或更多实例。通信接口1170提供耦合到利用自身处理器操作的多 样外部设备的单向或双向通信,这些外部设备诸如是打印机、扫描 仪和外部磁盘。一般地,该耦合是利用连接到本地网络1180的网络 链路1178,其中多种利用自身处理器的外部设备连接到本地网络 1180。例如,通信接口1170可以是个人计算机上的并口、串口或通 用串行总线(USB)端口。在一些实施例中,通信接口1170是提供 到相应类型电话线的信息通信连接的综合业务数字网(ISDN)卡、 数字用户线路(DSL)卡或电话调制解调器。在一些实施例中,通 信接口1170是电缆调制解调器,其将总线1110上的信号转化为用 于同轴电缆上通信连接的信号,或转化为用于在光缆上通信连接的 光学信号。作为另外示例,通信接口1170可以是提供到诸如以太网 的兼容LAN的数据通信连接的局域网(LAN)卡。还可以实施无线 链路。对于无线链路,通信接口1170发送或接收或者既发送又接收 承载诸如数字数据等信息流的电的、声学的或者电磁的信号,包括 红外和光学信号。例如,在无线手持设备中,诸如比如蜂窝电话的 移动电话,通信接口1170包括称为无线收发信机的无线电频段电磁 发射器和接收器。在某些实施例中,通信接口1170支持到通信网络 105的连接,以用于在到UE101的媒体内容中识别对象。

这里使用术语“计算机可读介质”是指参与向处理器1102提供 信息的任意介质,包括用于执行的指令。这样的介质可以采取许多 形式,包括但是不局限于:计算机可读存储介质(例如,非易失性 介质、易失性介质)和传输介质。非瞬态介质(诸如,非易失性介 质)例如包括光盘或磁盘,诸如存储设备1108。易失性介质包括例 如动态存储器1104。传输介质例如包括双绞线电缆、同轴电缆、铜 线、光缆和无需线和缆在空间穿行的载波,诸如声波和电磁波,包 括无线电波、光波和红外波。信号包括幅度、频率、相位、极化的 人为瞬时变化或通过传输介质传播的其他物理属性。计算机可读介 质的通常形式例如包括软盘、柔性盘、硬盘、磁带、任意其他磁介 质、CD-ROM、CDRW、DVD、任意其他光介质、打孔卡、纸带、 光符板、具有孔样式或其他光学可识别标记的任意其他物理介质、 RAM、PROM、EPROM、FLASH-EPROM、EEPROM、闪存存储器、 任意其他的存储器芯片或盒式磁盘、载波或计算机可读的任意其他 介质。这里使用术语计算机可读存储介质是指除了传输介质之外的 任意计算机可读介质。

编码在一个或更多有形介质中的逻辑包括计算机可读存储介质 和专用硬件(诸如,ASIC1120)中之一或二者上的处理器指令。

网络链路1178典型地使用通过一个或更多网络的传输介质向使 用或处理信息的其他设备提供信息通信。例如,网络链路1178可以 通过本地网络1180提供去往由因特网服务提供者(ISP)操作的设 备1184或主机计算机1182的连接。ISP设备1184转而通过现在称 为因特网1190的、网络的公共全球分组交换通信网络来提供数据通 信服务。

连接至因特网的、称为服务器主机1192的计算机主控响应于通 过因特网接收的信息而提供服务的过程。例如,服务器主机1192主 控提供代表呈现在显示器1114上的视频数据的信息的过程。预期系 统1100的部件可以以各种配置部署在其他计算机系统中,例如,主 机1182和服务器1192。

本发明的至少某些实施例涉及使用计算机系统1100来实现此处 描述的某些或全部技术。根据本发明的一个实施例,这些技术响应 于处理器1102执行存储器1104中包含的一个或更多处理器指令的 一个或更多序列而由计算机系统1100执行。这种指令(也称为计算 机指令、软件和程序代码)可以从诸如存储设备1108或网络链路 1178的另一计算机可读介质读取至存储器1104中。包含在存储器 1104中的指令序列的执行引起处理器1102执行此处描述的一个或 更多方法步骤。在备选实施例中,诸如ASIC1120的硬件可以替代 或结合软件使用,以实现本发明。由此,本发明的实施例不限于任 何特定的硬件和软件组合,除非以其他方式在此明确表明。

在网络链路1178和其他网络上通过通信接口1170传输的信号 携带去往和来自计算机系统1100的信息。除了其他之外,计算机系 统1100可以通过网络1180、1190,经由网络链路1178和通信接口 1170发送和接收信息,包括程序代码。在使用因特网1190的示例中, 服务器主机1192通过因特网1190、ISP设备1184、本地网络1180 和通信接口1170传输从计算机1100发送的消息所请求的特定应用 的程序代码。所接收的代码可以在接收时由处理器1102执行,或者 可以存储在存储器1104或存储设备1108或其他非易失性存储中以 供后续执行,或者二者皆可实现。以此方式,计算机系统1100可以 获取载波上信号形式的应用程序代码。

各种形式的计算机可读介质可以用于将指令或数据或二者的一 个或更多序列携带至处理器1102以供执行。例如,指令和数据最初 可以承载在远程计算机(诸如,主机1182)的磁盘上。远程计算机 将指令和数据加载至其动态存储器,并使用调制解调器通过电话线 来发送指令和数据。计算机系统1100本地的调制解调器在电话线上 接收指令和数据,并且使用红外发射器来将这些指令和数据转换为 用作网络链路1178的红外载波上的信号。用作通信接口1170的红 外检测器接收在红外信号中携带的指令和数据,并将代表指令和数 据的信息放置在总线1110上。总线1110将这些信息携带至存储器 1104,处理器1102从存储器1104处获取指令并使用与指令一起发 送的某些数据来执行指令。在存储器1104中接收的指令和数据可以 可选地存储在存储设备1108上,或者在由处理器1102执行之前, 或者在其执行之后。

图12示出本发明实施例可以在其上实施的芯片组或芯片1200。 芯片组1200被编程以如这里描述的识别媒体内容中的对象,而且例 如包括参照图12描述的、结合到一个或更多物理封装(例如,芯片) 中的处理器和存储器部件。通过示例方式,物理封装包括一个或更 多物质、部件、和/或电线在结构组件(例如,基板)上的布置,以 提供诸如物理强度、保存尺寸和/或电交互局限的一个或更多特征。 可以预期在某些实施例中,芯片组1200可以实施为单芯片。还可以 预期,在某些实施例中,芯片组或者芯片1200可以实施为单个“片 上系统”。还可以预期,在某些实施例中,例如不使用分离的ASIC, 且如此处讨论的所有相关功能将通过一个处理器或多个处理器执 行。芯片组或芯片1200或其一部分构成了用于执行提供与服务可用 性相关的用户接口导航信息的一个或更多步骤的方式。芯片组或芯 片1200或其部分构成用于执行识别媒体内容中的对象的一个或更多 步骤的装置。

在一个实施例中,芯片组或芯片1200包括诸如用于在芯片组 1200的部件之间传送信息的总线1201之类的通信机制。处理器1203 具有到总线1201的连通性,以执行指令和处理存储在例如存储器 1205中的信息。处理器1203可以包括一个或更多处理核,每个核配 置为独立操作。多核处理器支持单个物理封装中的多处理。多核处 理器的示例包括两个、四个、八个或更多数目的处理核。可替换地 或附加地,处理器1203可以包括一个或更多经由总线1201串联的 微处理器,以支持独立执行指令、流水线和多线程。处理器1203还 可以与诸如一个或更多数字信号处理器(DSP)1207,或者一个或更 多专用集成电路(ASIC)1209之类的一个或更多专用部件相互协同, 以执行某些处理功能和任务。DSP1207典型地配置为独立于处理器 1203实时处理现实世界信号(例如,声音)。类似地,ASIC1209 可以配置为执行更加通用处理器难以执行的专用功能。其他有助于 执行这里描述的本发明功能的专用部件可以包括一个或更多现场可 编程门阵列(FPGA)(未示出),一个或更多控制器(未示出)或 一个或更多其他专用计算机芯片。

在一个实施例中,芯片组或芯片1200仅包括一个或更多处理器 以及支持和/或涉及和/或用于该一个或更多处理器的一些软件和/或 固件。

处理器1203和协同部件具有经由总线1201到存储器1205的连 通性。存储器1205包括用于存储可执行指令的动态存储器(例如, RAM、磁盘、可写光盘等)和静态存储器(例如,ROM、CD-ROM 等),当指令被运行时执行这里描述的发明步骤以识别媒体内容中 的对象。存储器1205还存储与执行本发明步骤相关联的数据或执行 本发明步骤所产生的数据。

图13是根据一个实施例、能够在图1系统中操作的用于通信的 移动终端(例如,手机)的示例性部件图示。在某些实施例中,移 动终端1301或其部分构成用于识别媒体内容中的对象的一个或更多 步骤的装置。通常,依据前端和后端特征来定义无线电接收器。接 收器的前端涵盖所有射频(RF)电路,而后端涵盖所有基带处理电 路。如此申请中使用的,术语“电路”涉及以下二者:(1)仅硬件 实现(诸如以模拟和/或数字电路实现),和(2)电路和软件(和/ 或固件)的组合(诸如,如果适用于特定上下文,则涉及处理器(多 个)(包括数字信号处理器(多个))、软件和存储器(多个)的 组合,这些部件一起工作以引起诸如移动电话或服务器之类的设备 执行各种功能)。“电路”的这一定义在此申请中适用于此术语的 所有使用,包括在任何权利要求中也是如此。作为另一示例,如在 此申请中使用的以及如果适用于特定上下文,术语“电路”也将覆 盖仅处理器(或多个处理器)及其随附软件和/或固件的实现。如果 适用于特定上下文,术语“电路”也将覆盖例如移动电话中的基带 集成电路或应用处理器集成电路,或者蜂窝网络设备或其他网络设 备中类似的集成电路。

电话的有关内部部件包括主控单元(MCU)1303、数字信号处 理器(DSP)1305和包括麦克风增益控制单元和扬声器增益控制单 元的接收器/发射器单元。主显示单元1307向用户提供显示以支持各 种应用和移动终端功能,该各种应用和移动终端功能执行或支持在 媒体内容中识别对象的步骤。显示器1307包括配置用于显示移动终 端(例如,移动电话)用户界面的至少一部分的显示电路。附加地, 显示器1307和显示电路配置用于促进用户对移动终端至少某些功能 的控制。音频功能电路1309包括麦克风1311和放大从麦克风1311 输出的语音信号的麦克风放大器。放大的语音信号从麦克风1311输 出,馈送到编码器/解码器(CODEC)1313。

无线电部分1315放大功率并转化频率以经由天线1317与基站 通信,其中基站包含在移动通信系统中。如现有技术已知,功率放 大器(PA)1319和发射器/调制电路可操作地响应于MCU1303,从 PA1319的输出耦合到双工器1321或循环器或天线开关。PA1319 还耦合到电池接口和功率控制单元1320。

在使用中,移动终端1301的用户对着麦克风1311讲话,而且 他或她的语音连同任何检测到的背景噪音被转换为模拟电压。模拟 电压继而通过模拟到数字转换器(ADC)1323转换为数字信号。控 制单元1303将数字信号路由到DSP1305以在其中处理,诸如语音 编码、信道编码、解密和交织。在一个实施例中,处理后的语音信 号由没有单独示出的单元进行编码,其使用蜂窝传输协议,诸如全 球演进(EDGE)、通用分组无线服务(GPRS)、全球移动通信系 统(GSM)、因特网协议多媒体子系统(IMS)、通用移动通信系 统(UMTS)等,以及例如微波接入(WiMAX)、长期演进(LTE) 网络、码分多址(CDMA)、宽带码分多址(WCDMA)、无线保真 (WiFi)、卫星及类似的其他任意合适的无线介质。

编码信号接着路由到均衡器1325,以补偿在穿过空气而传输的 过程中发生的、与频率相关的任意损失,诸如相位和幅度失真。均 衡比特流之后,调制器1327将该信号与RF接口1329中产生的RF 信号结合。调制器1327通过频率或相位调制产生正弦波。为了准备 传输信号,上变频器1331将调制器1327输出的正弦波与合成器1333 产生的另一正弦波相结合,以达到传输期望频率。接着经过PA1319 发送信号,以将该信号增加到恰当的功率级别。在实际系统中,PA 1319作为可变增益放大器,其增益由DSP1305根据从网络基站接收 的信息进行控制。信号接着在双工器1321内滤波,而且可选地发送 到天线耦合器1335以匹配阻抗,从而提供最大功率传输。最后,信 号经由天线1317发射到本地基站。可以提供自动增益控制(AGC), 以控制接收器最后级的增益。信号可以从那里转发至可以是另一蜂 窝电话、其他移动电话或连接到公共交换电话网络(PSTN)或其他 电话网络的陆上通讯线的远程电话。

发射到移动终端1301的语音信号经由天线1317被接收,而且 立刻被低噪放大器(LNA)1337放大。下变频器1339降低载波频率, 而解调器1341将RF剥离为只剩下数字比特流。信号接着穿过均衡 器1325且被DSP1305处理。数字到模拟转换器(DAC)1343转换 该信号,而且得到的输出通过扬声器1345被发送到用户,这都在可 以实施为中央处理单元(CPU)(没有示出)的主控单元(MCU) 1303的控制之下。

MCU1303接收包括来自键盘1347的输入信号的各种信号。与 其他用户输入部件(例如,麦克风1311)结合的键盘1347和/或MCU 1303包括用于管理用户输入的用户接口电路。MCU1303运行用户 接口软件以促进用户控制移动终端1301的至少一些功能,以识别媒 体内容中的对象。MCU1303还分别递送显示命令和切换命令到显示 器1307以及到语音输出切换控制器。此外,MCU1303与DSP1305 交换信息,而且能够访问可选并入的SIM卡1349和存储器1351。 另外,MCU1303执行该终端所需要的各种控制功能。取决于具体实 施,DSP1305可以执行关于语音信号的许多传统数字处理功能中的 任意。另外地,DSP1305根据麦克风1311检测的信号确定本地环境 的背景噪声水平,而且将麦克风1311的增益设置到补偿移动终端 1301用户的自然趋势的选定级别。

CODEC1313包括ADC1323和DAC1343。存储器1351存储包 括呼入音数据的各种数据,而且能够存储其他数据,包括经由例如 全球因特网接收到的音乐数据。软件模块可以驻留在RAM存储器、 闪存、寄存器或其他任意形式的本领域公知的可写存储介质中。存 储设备1351可以是,但是不局限于:单存储器、CD、DVD、ROM、 RAM、EEPROM、光存储、磁盘存储器、闪存存储器或任意其他能 够存储数字数据的非易失性存储介质。

例如,可选并入的SIM卡1349承载诸如蜂窝电话号码、载波提 供服务、订阅细节和安全信息的重要信息。SIM卡1349主要服务于 在无线电网络中标识移动终端1301。卡1349还包含用于存储个人电 话号码登记簿、文本消息和用户特定移动台设置的存储器。

尽管结合许多实施例和实现对本发明进行了描述,本发明却并 不如此局限,而应该覆盖落入所附权利要求范围内的许多明显修改 和等同布置。虽然在权利要求中以某种组合表述了本发明的特征, 可以预期到能够按照任意组合和顺序布置这些特征。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号