首页> 中国专利> 基于多模元数据和结构化语义描述符来产生注释标签

基于多模元数据和结构化语义描述符来产生注释标签

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

在一个实施例中，一种用于产生数字图像(22)的注释标签(28)的方法包括：维持对人类有意义的词或短语的库(16)，所述词或短语根据多个定义的图像描述类别(70)被组织为类别条目(72)；以及接收与给定数字图像(22)的捕捉相关联的上下文元数据(20)。所述方法还包括：通过将所述上下文元数据(20)映射至所述库(16)中，选择特定类别条目(72-1，72-2)作为所述数字图像(22)的词汇元数据(24)；以及通过根据定义的推导逻辑规则(30)的集合来对所述词汇元数据(24)进行逻辑组合，产生所述数字图像(22)的注释标签(28)，所述推导逻辑规则基于所述定义的图像描述类别(70)。在另一实施例中，一种处理设备(12)，如数字处理器(18、26)和支持存储器(14)等，被配置为执行上述方法，或者执行上述方法的变型。

著录项

公开/公告号CN102292722A

专利类型发明专利
公开/公告日2011-12-21

原文格式PDF
申请/专利权人瑞典爱立信有限公司;
展开▼

申请/专利号CN200980155103.2
发明设计人约金·索德博格;安德雷斯·法斯本德;尤纳斯·约克;
展开▼

申请日2009-01-21
分类号G06F17/24(20060101);G06F17/30(20060101);G06K9/00(20060101);H04N1/32(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人潘剑颖
地址瑞典斯德哥尔摩
入库时间 2023-12-18 04:12:59

法律信息

法律状态公告日

法律状态信息

法律状态
2014-09-03

授权

授权
2012-02-15

实质审查的生效 IPC(主分类):G06F17/24 申请日:20090121

实质审查的生效
2011-12-21

公开

公开

说明书

技术领域

本发明涉及数字图像及其捕捉，具体地，涉及产生数字图像的注释标签。

背景技术

过去近十年来，数字照相和视频的发展带来了许多新的和有趣的挑战，涉及人们如何组织、存储和检索其多媒体库。与文本数据不同，目前为止，用于描述、索引和检索视觉媒体(如图像和视频内容)的自动方法受到限制。现有多媒体搜索引擎典型地依赖于手动产生的基于文本的注释(最多由EXIF数据支持)，如进行捕捉的时间、所使用的摄像机型号等等。

照片博客站点(如Flickr)还利用了通过支持地图工具的位置标签处理，但是仍需要作者手动地将用户产生的内容放置在全球地图上，这在实际中对于用户而言是一项乏味的任务。一些专业摄像机集成了GPS 接收机以提供所捕捉图像的自动化地理标签处理。类似地，网络连接的捕捉设备可能连接至外部信息源(如GPS电话)以获得地理标签处理协助。

另外，针对给定数字图像数据而建议注释标签的现有方法包括基于组或协作数据(如公共的空间、时间和社会上下文)的方法。组信息可以用于推导针对给定媒体内容的描述符。其他方法包括：基于语音识别的内容标签处理，其中根据所选语音识别词典来识别和解码输入语音。在某种意义上，这种标签处理依赖于用户语音的接收与媒体的捕捉之间的紧密时间关系。

更广泛地，媒体标签处理的现有方法通常依赖于输入的低级图像或音频特征来注释或预测照片的标签。此外，已知方法通常依赖于来自用户团体的、网络提供的元数据(例如标签处理信息的聚合数据库)，这在用户隐私方面以及在潜在数据访问/传送延迟方面是不利的。

发明内容

在一个实施例中，一种用于产生数字图像的注释标签的方法包括：维持对人类有意义的词或短语的库，将词或短语根据多个定义的图像描述类别组织为类别条目。该方法还包括：接收与给定数字图像的捕捉相关联的上下文元数据；以及通过将上下文元数据映射至库中，选择特定类别条目作为数字图像的词汇元数据。另外，该方法包括：根据定义的推导逻辑规则的集合对词汇元数据进行逻辑组合，产生数字图像的注释标签，该推导逻辑规则基于定义的图像描述类别。

在另一实施例中，一种用于产生数字图像的注释标签的处理设备包括：存储器，用于维持对人类有意义的词或短语的库，词或短语根据多个定义的图像描述类别被组织为类别条目；以及抽象处理器，被配置为：接收数字图像的上下文元数据，该上下文元数据与数字图像的捕捉相关联；以及通过将上下文元数据映射至库中，选择特定类别条目作为数字图像的词汇元数据。该处理设备还包括：规则处理器，被配置为根据定义的推导逻辑规则的集合对词汇元数据进行逻辑组合，产生数字图像的注释标签，该推导逻辑规则基于定义的图像描述类别。

当然，本发明不限于上述特征和优点的简要概括。实际上，通过阅读以下详细描述以及通过查看附图，本领域技术人员可以认识到本发明的其他特征和优点。

附图说明

图1是图像捕捉设备和所包括的用于自动产生所捕捉数字图像的注释标签的处理设备的一个实施例的框图。

图2是对人类有意义的词或短语的库的一个实施例的图，所述词或短语根据多个定义的图像描述类别被组织为类别条目。

图3是可以包括在定义的推导逻辑规则的集合中的规则的一个实施例的图，所述推导逻辑规则基于例如图2所示的库中定义的图像描述类别。

图4和5是用于产生注释标记(图4)和用于将这种产生适配于用户反馈(图5)的方法实施例的逻辑流程图。

图6是使用示例数据的标签产生操作和数据流的一个实施例的图。

图7和8是在注释标签产生中使用的推导逻辑规则的示例实施例的图。

图9和10是用于确定在产生注释标签或对注释标签进行排序时使用的加权值的示例模糊逻辑或其他基于成员关系的实现的图。

具体实施方式

图1示意了电子设备10。在有利但非限制性实施例中，设备10包括具有图像捕捉能力的摄像机电话或其他移动终端。尽管设备10的具体架构和功能单元可以根据预期目的而变化，但是如本文所设想，设备10包括：处理设备12，用于产生数字图像的注释标签。本文使用的“数字图像”包含单独的静止图像和相关的图像序列(例如在MPEG电影文件中)。

处理设备12包括植入的电子电路，例如微处理器、数字信号处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件 (PLD)等等。处理设备12包括存储器14或与存储器14相关联，存储器 14用于维持对人类有意义的词或短语的库16，所述词或短语根据多个定义的图像描述类别被组织为类别条目。处理设备12还包括：抽象处理器 18，被配置为接收给定数字图像22的上下文元数据20。上下文元数据20 与数字图像22的捕捉相关联，抽象处理器18使用上下文元数据20(从库 16中)选择特定类别条目作为数字图像22的词汇元数据24。

抽象处理器18将上下文元数据20“映射”至库16中，从而抽象处理器18产生词汇元数据24。该映射过程的具体示例将在下文描述，但是映射可以被广义地理解为确定上下文元数据涉及哪些图像描述类别，以及更具体地，确定所涉及的类别内的哪些类别条目与上下文元数据相关。作为非限制示例，环境温度可以是上下文元数据的分量，“季节”可以是具有类别条目“夏”、“秋”、“冬”和“春”的图像描述类别。例如，-10℃ 的温度值与季节类别条目“冬”强相关，而+35℃的温度值与季节类别条目“夏”强相关。

在任何情况下，处理设备12还包括：规则处理器26，被配置为根据定义的推导逻辑规则30的集合对词汇元数据24进行逻辑组合，从而产生数字图像22的注释标签28。规则30基于定义的图像描述类别。例如，每个规则包括基于一个或多个图像描述类别的条件表达式，并且把来自词汇元数据24的对应类别条目代入这些条件表达式以进行逻辑评估。

有了这种基本理解，可以认识到，设备10可以用于捕捉数字图像22，处理设备12有利地产生所捕捉图像的一个或多个注释标签28，其中，所产生的注释标签28可以是相对复杂的、对人类有意义的词或短语，这些词或短语是根据从上下文元数据20抽象出的词汇元数据24、从与图像捕捉相关联的上下文元数据20逻辑推导出的抽象，并由规则30来处理。在处理设备12(和对应处理方法)的一个或多个实施例中，通过包括反馈处理器40和图像处理器42来进一步增强这种操作，反馈处理器40接收与用户对所产生的注释标签28的选择或修改相关的反馈，图像处理器42从数字图像22导出图像特征，以提取映射至库16中的图像特征。

在非限制操作示例中，设备10的用户与输入/输出和控制电路50交互，以执行设备10的图像捕捉操作。具体地，设备10的一个或多个实施例包括图像捕捉系统52，其可以在系统处理器54的控制之下操作。图像捕捉系统52包括图像传感器56(例如CCD传感器)以及相关联原始数据处理器58。处理器58对来自图像传感器56的低级强度/颜色数据进行处理，以获得数字图像22，数字图像22可以被保持在缓冲器60中以便后续处理(例如由处理设备12进行处理)。

有利地，设备10包括：一个或多个“上下文传感器”62，提供所捕捉的数字图像22的上下文元数据20。作为非限制示例，上下文传感器62 包括以下传感器中的一个或多个：GPS传感器64、时间/日期传感器66、环境温度传感器68、倾斜/位置传感器69、以及环境光传感器71。应当理解，本文使用的术语“传感器”广义上包含实际的数字传感器或模拟传感器(如针对环境温度和光照)以及更加复杂的电路(如针对日期/时间信息的数字时钟/计数器)以及处理子系统(如针对GPS位置数据)。在至少一个实施例中，抽象处理器18被配置为接收以下至少一项作为所述上下文元数据20：时间数据、位置数据、环境温度数据、图像捕捉设备朝向数据(例如倾斜)、环境光照数据以及环境噪声数据。可以直接或通过接口电路74将上下文传感器数据提供给处理设备12，接口电路74根据需要提供模数域转换、电平移动、格式化、缓冲等等。

因此，在至少一个实施例中，设备10捕捉数字图像22并从一个或多个上下文传感器62获得对应的上下文元数据20，其中，上下文元数据标识与图像捕捉相关联的上下文数据或参数，并且可以进行处理(抽象) 以获得更加丰富、更加复杂的图像注释信息。当然，在相同实施例中，或者在一个或多个其他实施例中，数字图像22和上下文元数据20可以通过通信收发机76传送到设备10中。在一个实施例中，收发机76是被配置为在蜂窝通信网络(如GSM、宽带CDMA、LTE等)中操作的蜂窝通信收发机。在其他实施例中，收发机76包括或包含本地数据接口(例如USB、蓝牙等等)。

当然，本领域技术人员可以认识到，本文提出的有利的注释标签产生不依赖于具体的图像捕捉/传送细节。对于注释标签产生更加感兴趣地，图2描述了库16的一个实施例。在所描述的实施例中，库16被维持(在存储器14中)作为针对每个定义的图像描述类别的词或短语的一个或多个分级集合。每个这种分级集合以递增的抽象等级表示一系列词或短语。更具体地，每个分级集合被描述为图像描述类别70(例如类别70-1至 70-N)，其中每个图像描述类别70具有类别条目72的集合(列入72-1至 72-M)。

作为非限制示例，给定图像描述类别70-1是“位置”，其下的类别条目72-1至72-M包括沿递增抽象的线表示位置概念的对人类有意义的词或短语。例如，类别条目72-1具有值“欧洲”，类别条目72-2具有值“法国”，类别条目72-3具有值“巴黎”，以此类推。实际上，在一个实施例中，给定类别条目72-x位于给定抽象等级，并且可以被实现为值的数组。以“巴黎”为例，类别条目72-3可以是能够基于上下文元数据20中的GPS 坐标信息或基于从数字图像22中提取的图像特征(例如地标特征识别) 来选择的城市名的数组。类似地，类别条目72-2可以是欧洲国家的数组。在备选实施例中，每个类别条目72-x是给定词或短语，而不是这种词或短语的数组，但是给定类别条目72-x可以单独表示类别分级中的给定等级，或者一组类别条目72-x、72-y等等可以表示给定的分级等级。

不论用于图像描述类别70和类别条目72的具体实现逻辑如何，图3 部分示意了规则30的一个实施例，规则30基于抽象处理器18基于库16产生的词汇元数据24。具体地，可以看到示例规则，其中两个变量“x”和 “y”的逻辑组合用于导出注释标签28。这里，为了规则评估的目的，“x” 取类别70-1的类别条目72-1的值，“y”取类别70-2的类别72-2的值。因此，该规则基于通过将上下文元数据20映射至库16中和/或通过将所提取的图像特征80映射至库16中而获得的词汇元数据24中所包含的类别条目 72。可以对附加规则进行评估，以进一步细化或扩展所产生的注释标签 28的集合。

更广义地，应当理解，定义的推导逻辑规则30的集合包括条件测试的集合，所述条件测试基于针对(来自任意数目的图像描述类别70的) 定义的图像描述类别72中的一个或多个类别72的变量条目。相应地，规则处理器26被配置为通过代入构成词汇元数据24的类别条目72作为变量条目中的对应条目的值，然后根据所代入的类别条目72对条件测试的集合进行逻辑评估，来产生给定数字图像22的注释标签28。

图4描述了实现上述处理的方法的一个实施例，应当注意，所示方法可以以硬件、软件或其任何组合来实现。在至少一个实施例中，处理设备12包括一个或多个基于微处理器的电路，基于执行存储在计算机可读介质(例如存储器14)中的对应的一系列计算机程序指令来实现注释标签的产生。优选地，存储器14(可以包括多于一个存储器件)包括非易失性存储器，如闪存或EEPROM，其可以用于以允许更新或其他修改的方式来存储库16。

所示的处理从在存储器中“维持”库16(框100)开始，这是基本功能，包括将库16存储在可访问的存储器中。在至少一个实施例中，维持库16意味着响应于用户或其他输入来保持库更新。在任意情况下，假定库16可用于抽象处理器18，该方法还包括：接收上下文元数据20，以及可选地，接收一个或多个图像特征80(图像处理器42从数字图像22中提取的图像特征，或针对数字图像22接收到的图像特征)(框102)。因此，在至少一个实施例中，抽象处理器18包括图像处理器42或与图像处理器 42相关联，图像处理器42被配置为从数字图像22中导出一个或多个图像特征。在这种实施例中，抽象处理器18被配置为，除了将上下文元数据 20映射至库16中之外，还将一个或多个(所提取的)图像特征映射至库 16，以选择特定类别条目72作为数字图像22的词汇元数据24。

因此，该方法继续进行，基于将上下文元数据20和/或图像特征80 映射至库16中而从库16中的图像描述类别70中选择类别条目72。这种映射需要对上下文元数据20或图像特征80直接或间接涉及的特定类别条目 72进行逻辑标识。作为非限制示例，“水”可以是所提取的图像特征；“位置类型”可以是给定图像描述类别70-x，具有包括“湖泊”、“海洋”、“海滩”等值的类别条目72。确定数字图像22包括指示水的存在的像素数据 (可以通过对颜色/反射率图案等等进行评估来确定)允许抽象处理器18 产生对图像合适的、对人类有意义的词汇元数据条目。具体地，这种处理允许抽象处理器18将数字图像22中的水特征的存在抽象为与水相关的位置的更加抽象的概念，如海滩、海岸、湖泊等等。在任意情况下，抽象处理器18从库16中的一个或多个图像描述类别中选择特定类别条目 72，以形成词汇元数据24(框104)。

处理继续进行，将词汇元数据24以及可选地将上下文元数据20的一个或多个元素馈送入规则30，以产生注释标签28(框106)。即，将所选择的类别条目72插入到构成规则30的集合的各个规则中的对应变量位置。有了这些代入值，规则处理器26对每个规则的逻辑条件进行评估，并基于这些条件评估的结果来产生注释标签28。如上所述，在至少一个实施例中，定义的推导逻辑规则30的集合中的至少一个规则附加地或备选地基于一项或多项上下文元数据20。例如，至少一个规则可以基于一天中的时间，一天中的时间可以直接从上下文元数据20中存在的时间/ 日期信息中取得。因此，在一个或多个实施例中，规则处理器26被配置为：根据定义的推导逻辑规则30的集合对词汇元数据24和上述一项或多项上下文元数据20进行逻辑组合，以产生数字图像22的注释标签28。

另外，图5示意了图4的处理的可选扩展，其在注释标签产生的一个或多个实施例中实现。更具体地，图5示意了基于用户反馈而动态地更新库16和/或规则30的一个实施例。这种更新允许库16和/或规则30适用于设备10的用户的特定偏好，并且随着时间推移，允许处理设备12定制注释标签产生，以适合用户所偏好的特定措词，并且适合用户经常所在的特定位置以及用户参与的特定活动。

在所示实施例中，如上所述，规则处理器26产生注释标签28。规则处理器26将所产生的注释标签28输出，例如通过将其提供给接口/控制电路50以在LCD显示器上向用户显示，或者提供给其他输出设备(框110)。接口/控制电路50包括例如触摸屏、键盘、或其他输入设备，允许用户指示所产生的注释标签28中的哪一些要用于注释数字图像22。此外，在至少一个实施例中，接口/控制电路50允许用户输入取代所产生的注释标签 28或与所产生的数字标签28相结合而使用的标签信息。例如，如果用户认为所产生的注释标签28都不合适，则用户可以输入具体所需的词或短语以用作注释标签，或者用户可以修改所建议的注释标签28之一，并指示应当使用修改后的标签。

因此，所示的处理接收与作为数字图像22的建议标签向用户输出的注释标签28有关的用户反馈(框112)，并检测用户是否修改建议注释标签28(包括替换)(框114)。例如，处理设备12可以例如通过记录建议注释标签28中的特定注释标签28的选择频率，来跟踪用户的选择历史(框 116)。处理还包括：更新库16和/或规则30，以反映用户修改(框118)。例如，如果用户校正或修改给定图像描述类别70-y的位置名称或其他类别条目72-x，则处理设备12可以基于用户输入，对针对该类别条目72-x 存储的词或短语进行更新或替换。附加地或备选地，处理设备12可以添加或修改规则30，以反映对所产生的注释标签28的用户修改。

更广义地，在一个或多个实施例中，处理设备12被配置为输出所产生的注释标签28中的一个或多个，以便用户检查，并基于记录或检测用户进行的对应注释标签选择或修改，对库16和定义的推导逻辑规则30的集合中的至少一个进行适配。例如，在一个实施例中，处理设备12被配置为：基于用户进行的对应注释标签选择或修改，通过(向类别7中的一个或多个)添加新的类别条目72和/或通过修改已有的类别条目72，对库 16和/或规则30进行适配。因此，在处理设备12的至少一个实施例中，处理设备12被配置为基于接收或存储缺省库以及响应于对处理设备12针对一个或多个数字图像22所建议的注释标签28的产生进行的用户选择和修改而向缺省库动态更新或添加类别条目72，来维持对人类有意义的词或短语的库16。在此方面，处理设备12被配置为向用户输出所产生的注释标签28中的一个或多个，作为针对给定数字图像22的建议注释标签，并与数字图像22相结合地记录用户的对应注释标签输入。即，处理设备12 被配置为例如在建议注释标签的列表中向用户提供所产生的注释标签 28，检测用户考虑到所建议的列表而进行的标签选择或修改，并与数字图像22相结合地记录所选择的和/或所修改的注释标签。

考虑到上述方法和设备示例，本领域技术人员可以认识到，图6示意了本文构想的注释标签产生的非限制性而是具体的示例。在该示意中，将上下文元数据20馈送入分类过程，该分类过程可以被实现为用于产生词汇元数据24的抽象步骤的预处理。在此方面，“分类”可以被理解为最初确定上下文元数据20涉及哪些类别70和类别条目72。例如，日期/时间信息可以被分类为“夏季”、“夜晚”等等，图像描述类别70中给定的一个可以是“时间”类别，该类别具有这些给定的类别条目值以及其他类别条目72(如公共假日)和可以从日期/时间信息中抽象出的其他与时间有关的词或短语。针对所提取的图像特征(例如风光相对于城市风光的识别、数字图像22中的组相对于个人等等)执行类似处理。

抽象处理器18通过将“原始”上下文元数据20和/或图像特征80转换为对于人类而言更好地描述数字图像22的语义含义的词语，来执行抽象步骤。即，抽象处理器18基于确定涉及任何一个或多个图像描述类别70 中的哪些特定的类别条目72，将上下文元数据20和/或图像特征80映射至库16中。得到的抽象词或短语包括词汇元数据24，词汇元数据24作为变量值被输入规则30，规则30基于词汇元数据24。

规则处理器26进行的规则处理可以被理解为在“抽象”步骤之后进行的“融合”步骤。术语“融合”描述规则处理器的操作，其中规则处理器将词汇元数据24中的对人类有意义的词语(在逻辑上)组合到“增强”元数据标签中，本文中表示为注释标签28。即，在一个或多个实施例中，规则处理器26通过根据规则30中实现的条件逻辑将词汇元数据中所选择的类别条目72进行组合，以产生复合词或短语。然后，将所产生的注释标签28输出至用户以进行选择和/或修改。把关于这些选择/修改的用户反馈返回至处理设备12的反馈处理器40，反馈处理器40使用该反馈来更新库16和/或规则30。在至少一个实施例中，与库16相结合地，或者作为库16的一部分，维持用户简档82，并根据反馈来更新用户简档82。用户简档82的非限制示例包括以下一个或多个：用户名、住所、工作以及假期位置、爱好/活动信息、家庭、朋友、熟人的姓名和对应面部识别数据、标签选择/修改历史等等。

图7和8示意了规则30的非限制示例。在图7中，具体地，可以看到第一条件规则，该规则基于定义为“位置”的图像描述类别70和定义为 “图像分类”的另一图像描述类别。规则处理器26通过评估词汇元数据 24中的对应类别条目72来测试该规则的逻辑真实性，以测试是否存在落在具有值“避暑房屋”的位置类别70之下的类别条目72，以及类似地，测试是否存在落在具有值“室内”的图像分类类别70之下的类别条目72。如果是，则第一规则的条件测试评估为“真”，执行该规则的动作，即将所建议短语“在避暑房屋内”添加至针对数字图像22产生的注释标签28。因此，可以看到，所建议的短语标签是词汇元数据24中的类别条目值的融合，例如将两个或更多类别条目72的字串值连接或者组合，或者根据从对词汇元数据24中取得的类别条目72的特定组合的评估来导出新的更丰富的短语。

显然可以看到，在图8中，另一图像描述类别可以是“视频分类”，该类别可以取针对各种类型的视频定义的任何一个或多个类别条目72 (假期、假日、体育赛事)。抽象处理器18可以评估针对给定视频类型的数字图像22提取的特征，例如人群、可识别的结构、设备等等，和/或评估日期/时间和位置信息，以确定给定数字图像22涉及视频分类类别的哪些类别条目72。

作为规则处理所提供的词和短语的逻辑融合的其他示例，考虑在一个或多个实施例中，规则30用于将基础(predicate)事实相关联以推断新的事实，即，使用词汇元数据24的项目和/或上下文元数据20的项目来推断新的事实，所述新的事实可以是复合表述。例如，根据给定规则，如果(位置＝＝“避暑房屋”)并且(图像分类＝＝“室内”)，则将“在避暑房屋内”添加至要建议的注释标签28的集合。(这里，“并且”表示条件测试的逻辑与运算，“＝＝”表示“等于”测试。)作为另一示例，如果 (位置＝＝“纽约城”)并且(图像分类＝＝“城市风光”)，则将“纽约城” 添加至要建议的注释标签28的集合。在又一示例中，如果(位置＝＝“避暑房屋”)并且(图像分类＝＝“脸部检测”)，则将“与朋友在避暑房屋内”添加至要建议的注释标签28的集合。另外，如果(捕捉时间＝＝ “2008-08-20”)并且(位置＝＝“避暑房屋”)并且(图像分类＝＝“组检测”)，则将“在避暑房屋内的仲夏聚会”添加至要向用户建议的注释标签28的集合。

作为另一改进，抽象处理器18被配置为使用模糊逻辑或其他成员关系确定逻辑，对给定上下文元数据20和/或给定图像特征80涉及特定类别条目72的程度进行加权估计。例如，较高的环境光水平可以指示白天室外位置，或者可以指示数字图像22是在光照良好的房间中捕捉的。因此，抽象处理器18不完全确信数字图像22是在室内捕捉的还是在室外捕捉的。作为响应，它可以指示在图像分类类别70之下针对“室内”类别条目72和针对“室外”类别条目72具有50/50的确信度权重。

当然，在这种实施例中，抽象处理器18被配置为将上下文元数据20 的给定项目进行相关或交叉检验，以关于针对给定数字图像22选择的最可能或合适的类别条目72做出更高确信度的猜测。例如，可以检测高环境光是与关于风光的图像特征相结合地检测到的，在这种情况下，可以将确信度值“1”赋予类别条目“室外”，或者至少“室外”的权重远大于“室内”(例如，室外类别条目的0.8权重对室内类别条目的0.2权重)。可以与其他数据相关，以进一步细化确信度权重。例如，所指示的高或低环境温度进一步表明了室外位置而不是室内位置。

因此，图9示意了针对词汇元数据24的加权类别条目产生的一个示例，其中，图像描述类别70之一是“季节”，具有“冬”、“春”、“夏”和 “秋”的类别条目72。即，从抽象处理器看来，图像描述类别“季节” 具有“冬”、“春”、“夏”和“秋”的定义值。抽象处理器18将这些值中的一个或多个包括在词汇元数据24中，可以根据图9中示出的基于日期的模糊成员关系规则来对这些值进行确信度加权。也许更感兴趣的是，图 10示出了可以从环境温度数据推断出针对季节值的类似的确信度加权。因此，即使可靠的日期信息对于给定的数字图像22来说不可用，抽象处理器18也可以对季节做出推断。(附加地或备选地，所提取的图像特征之一可以是“雪”等等，该信息可以用于计算季节值加权)。

继续该确信度加权示例，本领域技术人员可以认识到，在一个或多个实施例中，规则30和规则处理器26被配置为包含确信度加权以进行更复杂的规则评估和注释标签产生。例如，将词汇元数据24中包括的类别条目72的确信度值存储或维持作为词汇元数据24的一部分，并由规则处理器26在其随后的规则处理中使用。在一个这种方法中，在每个规则的实际条件测试中使用确信度值，而在其他实施例中，利用完全加权值(例如完全真或假)条件测试来评估规则，但是然后使用确信度权重，根据所产生的注释标签28的概率来对其进行排序，即，根据产生特定注释标签的规则以高确信度还是低确信度评估已知的词汇元数据24中的项目，来将该标签排序为较高或较低。

作为确信度加权的示例，假定包括6月6日的日期项和15℃的环境温度项的上下文元数据20。然后，基于日期的季节概率可以被确定为：春＝0.1；夏＝0.9；秋＝0.0；冬＝0.0。基于温度的季节概率可以被确定为：春＝0.3；夏＝0.4；秋＝0.3；冬＝0.0。对应的组合概率给出如下：春＝0.077；夏＝0.923；秋＝0.0；冬＝0.0。根据这些加权，规则处理器26确定最可能是夏季，因此在构成输出注释标签28的数值标签建议的排序列表中将与夏季相关的注释标签排序为较高。

然而，不论是否使用确信度加权，处理设备12及其相关联方法提供了描述对人类有意义的概念(如本地日历、地理地图、对象、风景、地标和人类活动/努力)的域本体的集合。这些本体被捕捉或实现在库16的结构之内，并且与规则30一起，用于产生针对任何给定数字图像22的复杂注释标签建议。此外，基于用户对给定建议注释标签的选择或者对该标签的修改，处理设备12及其相关联方法可以是自适应的，其中，例如通过向库16添加新的类别70和/或类别条目72(或修改已有的库数据)和 /或通过添加或修改规则30，来学习或推断新的事实。

建议的抽象和基于规则的融合包括：使用位置和日期来建议与已知的本地事件和假日相对应的注释标签。例如，检测位置为“慕尼黑”并检测日期为“十月”可以用于产生“十月啤酒节”作为建议注释标签。作为另一示例，检测季节为夏季，检测图像特征为水和/或海滩，可以用于产生“暑假在海岸”或“游泳/划船”作为建议的注释标签。

广义地讲，处理设备12的一个或多个实施例包括：抽象处理器18，被配置为将确信度或模糊逻辑加权值分配给构成词汇元数据的每个所选择的类别条目72。基于能够根据上下文元数据20(或者类似地，根据图像特征80)可靠地推导出每个特定类别条目72的程度来分配加权。相应地，规则处理器26被配置为对词汇元数据24进行逻辑组合(即，将词汇元数据24中的所选项目与词汇元数据24和/或上下文元数据20中的其他所选项目进行逻辑组合)。对于使用确信度加权的实施例，可以通过基于确信度或模糊逻辑加权值来执行对条件测试的真实性的加权评估，从而执行该组合，或者可以在规则中评估完全加权值，其中用于对各个标签进行排序的加权包括得到的建议注释标签28的集合。

此外，在一个或多个实施例中，可以将特定地理坐标映射至著名的地标，例如将S41°27.4658，E173°57.2819’识别为埃菲尔铁塔的坐标。然而，根据本文的教导，可以处理其他数据，如面部图像识别数据、温度、季节、光照等等，以产生复杂得多的注释标签，如“7月温暖的夜晚在埃菲尔铁塔”或者“巴黎的春天”。作为另一改进点，还可以基于用户与家距离多远来建议(或不建议)例如针对著名地标的标签。如果用户居住在巴黎中距离埃菲尔铁塔附近的地方，则可能不建议如埃菲尔铁塔之类的风景，因为它很可能不是用户所感兴趣的。

此外，如上所述，在一个或多个实施例中，处理设备12包含历史观点。例如，用户针对系列(假期系列、图像中的人等等)中的先前数字图像22或针对类似捕捉(例如总是以其喜爱的队伍来对照片进行标签处理的爱好者)已经选择的注释标签可以用于建议特定的注释标签。例如，规则30可以包括以下规则：如果(位置＝＝“避暑房屋”)并且(注释之前＝＝“假期群岛2008”)并且(相同捕捉日)，则将“假期群岛2008”添加至要建议的注释标签28的集合。类似地，规则30可以包括以下规则：如果(视频_分类＝＝“足球比赛”)并且(位置＝＝“伦敦”)并且(足球历史＝＝“阿森纳”)，则将“阿森纳伦敦”添加至要建议的注释标签28的集合。

考虑到这些和其他示例，本领域技术人员可以认识到处理设备12及其相关联的产生注释标签的方法所提供的许多优点。这些发明的非限制示例包括更加自动化地产生更加复杂的注释标签，在摄像机电话成为一类快速变得普及的新的联网媒体捕捉设备并且可以实际上成为用于捕捉数字图像的最常用设备的情况下，这尤其有用。作为另一优点，处理设备12及其相关联方法的全部或部分可以在摄像机电话中包括的通常重要的处理资源中实现(例如，参照图1，系统处理器54可以包括相对复杂的嵌入式处理器，例如提供操作系统或其他主机环境，以实现处理系统12)。在至少一个实施例中，使用主机设备10的CPU和存储器全部或部分地实现处理设备12。

此外，本文教导的注释标签产生为电信运营商提供了例如在提供支持内容管理特征(例如图片和/或标签存储)方面的机会。在其他实施例中，处理设备12被实现为基于网络的处理系统的一部分，从而允许网络运营商将注释标签产生作为服务来提供。在这种实施例中，移动终端的用户捕捉的数字图像可以传送至网络以进行处理，或者可以在终端中通过下载的小应用程序(applet)或其他这种软件来进行处理。

当然，本发明不限于上述讨论中详细描述的示例，也不限于所附示意图中示意的实施例。相反，本发明仅由所附权利要求及其法律等效物来限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多模元数据和结构化语义描述符来产生注释标签 [P] . 中国专利： CN102292722B . 2014.09.03
2. 基于多模元数据和结构化语义描述符来产生注释标签 [P] . 中国专利： CN102292722A . 2011-12-21
3. Generation of annotation tags based on multimodal metadata and structured semantic descriptors [P] . 美国专利： US8572086B2 . 2013-10-29

机译：基于多模式元数据和结构化语义描述符的注释标签的生成
4. Generation of Annotation Tags Based on Multimodal Metadata and Structured Semantic Descriptors [P] . 美国专利： US2012023103A1 . 2012-01-26

机译：基于多模式元数据和结构化语义描述符的注释标签生成
5. GENERATION OF ANNOTATION TAGS BASED ON MULTIMODAL METADATA AND STRUCTURED SEMANTIC DESCRIPTORS [P] . 欧洲知识产权局专利： EP2380093B1 . 2016-07-20

机译：基于多模态元数据和结构化语义描述符的注释标记的生成