首页> 中国专利> 利用网络信息挖掘的视频内产品注释

利用网络信息挖掘的视频内产品注释

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种系统向一个或者多个用户提供视频中的产品注释。该系统从用户接收视频，其中该视频包括多个视频帧。该系统从视频提取多个关键帧并且生成关键帧的可视化表示。该系统将关键帧的可视化表示与多个产品可视签名进行比较，其中每个可视签名标识一个产品。基于关键帧的可视化表示和产品可视签名的比较，该系统确定关键帧是否包含由产品的可视签名所标识的产品。为了生成多个产品可视签名，该系统收集多个训练图像，这些训练图像包括从专家产品库获得的专家产品图像中的多个专家产品图像，每个专家产品图像与从多个网络资源获得的多个产品图像关联。

著录项

公开/公告号CN103608826A

专利类型发明专利
公开/公告日2014-02-26

原文格式PDF
申请/专利权人新加坡国立大学;
展开▼

申请/专利号CN201280027434.X
发明设计人蔡达成;李广达;卢正;汪萌;
展开▼

申请日2012-04-11
分类号G06K9/62(20060101);
代理机构11256 北京市金杜律师事务所;
代理人王茂华
地址新加坡新加坡
入库时间 2024-02-19 22:44:42

法律信息

法律状态公告日

法律状态信息

法律状态
2020-01-24

专利权的转移 IPC(主分类):G06K9/62 登记生效日:20200106 变更前: 变更后: 申请日:20120411

专利申请权、专利权的转移
2017-04-05

授权

授权
2014-03-26

实质审查的生效 IPC(主分类):G06K9/62 申请日:20120411

实质审查的生效
2014-02-26

公开

公开

说明书

相关申请的交叉引用

本申请要求对名称为“In-Video Product Annotation with WebInformation Mining”、于2011年4月12日提交的第61/474,328号美国临时申请的权益，其全部内容通过引用而并入于此。

技术领域

描述的实施例总体上涉及视频中的产品注释并且具体地涉及使用网络信息挖掘的视频内产品注释。

背景技术

随着存储设备、网络和压缩技术的迅速发展，来自不同领域的视频数据正在以爆炸速率增长。以向视频内容自动指派描述概念为目标的视频注释（也公知为视频概念检测或者高级特征提取）在既往数年内已经引起强烈的研究兴趣。然而关于自动视频注释的多数现有工作都聚焦于高级概念、比如事件（例如飞机碰撞和运行）、景象（例如日落和海滩）和对象类别（例如小汽车和屏幕）而很少有关于注释具体产品概念、比如iPhone视频广告中的iPhone的研究。

产品概念注释对许多应用、比如视频浏览、搜索和广告颇为重要。关于网络视频搜索的查询日志的研究表明用户比一般概念更频繁地使用具体查询。另外，产品注释能够显著提高视频广告的相关性。然而，自动化的产品注释由于训练数据不足和难以生成适当可视化表示而具有挑战。

自动化的产品注释的第一挑战在于用于注释的训练数据。现有的基于学习的视频注释方式大量依赖于训练数据的质量，但是人工收集训练样本耗费时间并且人力密集。具体而言，对于产品图像有多视图问题。具体产品通常具有不同视图、比如前视图、侧视图和后视图，并且这些视图可能视觉上大相径庭。因此需要收集描述产品的不同视图的训练数据。

第二挑战是有效可视化表示。视觉词袋（BoVW）特征是流行方式并且已经在许多应用、比如图像分类、集群和检索中展示它的有效性。为了生成图像的BoVW表示，对关于多个检测的关键点或者通过稠密采样产品图像的补片而获得的尺度不变特征转换（SIFT）描述符进行提取并且将这些描述符量化成可视词。生成BoVW直方图以描述产品图像。然而图像的描述符是关于整个图像而不是在图像中所包含的产品部分并且对于产品注释包含大量噪声。

发明内容

本发明的实施例使用来自网络挖掘的产品训练图像来向一个或者多个用户提供视频中的产品注释。

在一个实施例中，一种计算机系统向一个或者多个用户提供视频中的产品注释服务。系统从用户接收视频，其中视频包括多个视频帧。系统从视频提取多个关键帧并且生成关键帧的可视化表示。系统将关键帧的可视化表示与多个产品可视签名进行比较，其中每个可视签名标识一个产品。为了生成多个产品可视签名，系统收集多个训练图像，这些训练图像包括从专家产品库获得的专家产品图像中的多个专家产品图像，每个专家产品图像与从多个网络资源获得的多个产品图像关联。基于关键帧的可视化表示和产品可视签名的比较，系统确定关键帧是否包含由产品的可视签名所标识的产品。

在说明书中描述的特征和优点并非囊括，并且具体而言，许多附加特征和优点将鉴于附图、说明书和权利要求而为本领域普通技术人员所清楚。另外，应当注意，在说明书中使用的言语已经主要出于可读性和指导目的而加以选择并且可以未被选择用来界定或者限制公开的主题内容。

附图说明

图1是被配置用于向客户端提供视频内产品注释服务的计算环境的框图。

图2是用于生成产品可视签名并且对在视频流中检测到的产品进行注释的视频内产品注释模块的框图。

图3是根据本发明的一个实施例的收集用于视频内产品注释过程的训练图像的示例。

图4是用于共同生成产品可视签名的产品图像的示例。

图5是根据本发明的一个实施例的用于生成产品的可视签名的过程的流程图。

图6是根据本发明的一个实施例的用于在视频流的一个或者多个视频帧中检测产品并且对检测到的产品进行注释的过程的流程图。

图7是根据本发明的一个实施例的视频内产品注释系统的示例。

图8是根据本发明的一个实施例的视频内产品注释过程的示例结果。

附图仅出于示例的目的而描绘本发明的各种实施例。本领域技术人员将从以下讨论容易认识可以运用这里所示结构和方法的备选实施例而未脱离这里描述的本发明的原理。

具体实施方式

将理解已经简化本发明的附图和描述以举例说明对于清楚理解本发明的实施例而言相关的单元，而为了清楚起见消除在典型的基于网络的视频播放器及其使用方法中发现的许多其它单元。本领域普通技术人员可以认识在实施本发明时希望有和/或需要其它单元和/或步骤。然而，由于这样的单元和步骤在本领域中是熟知的并且由于它们无助于更好地理解本发明，所以这里未提供这样的单元和步骤的讨论。这里的公开内容涉及对本领域技术员已知的这样的单元和方法的所有这样的变化和修改。

图1是被配置用于向客户端110提供视频内产品注释的计算环境100的框图。多个用户/查看者使用客户端110A-N以向视频内产品注释服务120提供视频流并且请求视频内产品注释服务120注释在视频流的视频帧中所包含的产品。产品注释服务120存储视频流并且用产品检测和注释结果向客户端110做出对请求的响应。每个客户端110执行用于浏览视频流和来自产品注释服务120的产品注释结果的浏览器112。其它实施例可以具有不同配置。

转向图1上所图示的个体，每个客户端110由用户用来使用由视频内产品注释服务120所提供的服务。例如用户使用客户端110以浏览视频、请求在视频中所包含的产品的注释并且从产品注释服务120接收产品检测和注释结果。客户端110可以是任何类型的计算机设备、比如个人计算机（例如桌面型、笔记本和膝上型）计算机以及有能力记录视频内容的设备比如移动电话或者个人数字助理。客户端110通常包括处理器、显示设备（或者向显示设备的输出）、本地存储装置（比如硬驱动或者闪存设备，客户端110向该本地存储装置存储用户在执行任务时使用的数据）以及用于经由网络130耦合到视频内产品注释服务120的网络接口。

网络130使得能够在客户端110与视频内产品注释服务120之间通信。在一个实施例中，网络130是因特网并且使用使客户端110能够与视频内产品注释服务120通信的、现在已知或者随后将来开发的标准化联网通信技术和协议。在另一实施例中，网络130是云计算网络并且包括视频内产品注释服务120的一个或者多个部件。

在一个实施例中，有用于检测和注释视频内的产品的两个阶段：产品可视签名生成阶段和运行时间视频处理阶段。可视签名生成阶段包括三个组成：从库、例如AMAZON^TM收集产品的高质量可视示例、用因特网产品图像搜索结果扩展收集的可视示例以及从包括产品的高质量可视示例及其来自搜索结果的对应产品图像的训练示例生成可视签名。该多种已知产品的可视签名存储在产品可视签名文件中。

运行时间视频处理阶段包括特征提取和产品注释这两个组成。对于输入视频流，产品注释服务120标识视频流的关键帧集合，并且对于每个关键帧，产品注释服务120提取可视特征（例如尺度不变特征转换（SIFT）描述符）并且生成提取的特征的可视化表示（例如视觉词袋（BoVW）直方图）。产品注释服务120通过比较在可视签名文件中存储的每个产品的可视特征与输入视频的每个关键帧的BoVW直方图来执行产品注释。

在图1中所图示的实施例中，视频内产品注释服务120具有视频内产品注释模块102、视频服务器104和产品图像数据库106。视频内产品注释模块102包括用于产品可视签名生成的产品可视签名生成模块200和用于处理来自客户端110的输入视频的视频处理模块300。视频服务器104存储从客户端110所接收的视频流和视频流中的注释的视频帧。产品图像数据库106包括两个子数据库：数据库1（106A）和数据库2（106B），用以存储从一个或者多个在线产品商户、比如AMAZON^TM获得的高质量产品图像和通过因特网搜索收集的相关产品图像。

来自已知产品商户的产品图像一般具有高可视质量，但是它们用于给定的产品的数目可能有限。对于给定的产品，使用各种搜索引擎、比如GOOGLE^TM通过因特网搜索获得的相关的产品图像的数目可能庞大但是有噪声（例如包含与产品无关的文字信息）。产品注释服务120基于高质量产品图像过滤从因特网搜索结果获得的相关产品图像以生成产品可视签名，并且使用产品可视签名以检测和注释视频流中的产品。为了简化本发明的一个实施例，来自已知商户的高质量产品图像被称为“专家产品图像”，并且对于给定的专家产品图像，从因特网搜索获得的它的关联图像被称为“扩展产品图像”。

视频内产品注释-可视签名生成

图2是根据一个实施例的用于生成产品可视签名并且对在视频流中检测到的产品进行注释的视频内产品注释模块102的框图。产品注释模块102包括产品可视签名生成模块200和视频处理模块300。产品可视签名生成模块200包括专家产品图像模块210、扩展产品图像模块220和可视签名生成模块230。视频处理模块300包括帧提取模块310、特征提取和量化模块320和产品注释模块330。

产品可视签名生成模块200被配置用于生成产品可视签名。专家产品图像模块210被配置用于收集产品的高质量可视示例（例如在不同视图、比如前视图、侧视图和后视图中的专家产品图像）。在一个实施例中，专家产品图像模块210针对多种消费者产品、比如数码相机、汽车和数字电话从AMAZON^TM收集专家产品图像。

给定的产品的专家产品图像经常太少而无法构造用于产品的良好可视签名。例如针对产品从AMAZON^TM收集的专家产品图像数目从1至8变化。在另一方面，在因特网上有可用的可以通过图像搜索引擎容易访问的大量不同尺寸和视图的产品图像。在一个实施例中，扩展产品图像模块220被配置用于从因特网收集具有一个或者多个专家产品图像的产品的关联图像。例如，对于每个专家产品图像，将产品名称用作使用GOOGLE^TM搜索引擎在因特网中针对关联产品图像的搜索查询。该过程用于使用网络产品图像数据库来扩展专家产品图像。

来自因特网搜索的图像包含大量噪声、例如文字信息（比如围绕标题的文字，这些文字中的许多文字都与搜索查询无关）。在签名生成模块230生成产品的可视特征之前，签名生成模块230基于专家产品图像对来自因特网搜索结果的扩展产品图像重新排序。对于每个专家产品图像，选择与专家产品图像接近的预定数目的扩展产品图像作为过滤的结果。对于给定的产品，专家产品图像和过滤的扩展产品图像形成用于产品的正向训练图像集合，从该集合签名生成模块230生成用于产品的可视特征。已知产品的训练图像的收集可以是自动化的以提高视频内产品注释系统性能。

为了过滤与专家产品图像关联的扩展产品图像，签名生成模块230提取专家产品图像及其关联的扩展产品图像的可视特征。在一个实施例中，产品图像的可视特征是视觉词袋（BoVW）特征。签名生成模块230关于若干检测的关键点或者通过稠密采样每个产品图像的补片来提取一个或者多个SIFT描述符并且将SIFT描述符量化成多个可视词。从量化的SIFT描述符生成BoVW直方图以描述每个图像。例如签名生成模块230使用可视特征检测和提取方法、例如高斯差值方法以从产品图像提取128维SIFT特征并且将SIFT特征分组成具有分级K均值的160,000个集群。产品图像由160,000维BoVW直方图所代表。

对于每个专家产品图像，签名生成模块230基于在下式（1）中定义的相似度测量从与专家产品图像关联的扩展产品图像选择预定数目的最近近邻：

$> sim (x, y) = \frac{Σ_{d = 1}^{D} \min {(x_{d}), (y_{d})}}{\min {Σ_{d = 1}^{D} x_{d}, Σ_{d = 1}^{D} y_{d}}} - - - (1)$ >

其中x和y是两个BoVW直方图并且D是直方图的长度。以这一方式，签名生成模块230获得用于给定的产品的kn个正向训练图像，其中k是专家产品图像的数目并且n是专家产品图像的预定最近近邻（即扩展产品图像）。

为了进一步举例说明收集视频内产品注释训练图像，图3提供用于数码相机Canon40D的训练数据收集过程的示例。产品可视签名生成模块200从在线商户AMAZON^TM收集相机在不同视图中的五个专家产品图像302。对于每个专家产品图像，产品可视签名生成模块200使用GOOGLE^TM搜索引擎来搜索因特网以收集多个相关产品图像304。由于从因特网搜索所获得的产品图像可能有噪声（例如包含与产品无关的文字），所以产品可视签名生成模块200基于专家产品图像来过滤相关产品图像。例如对于每个专家产品图像，产品可视签名生成模块200应用以下描述的相关稀疏化以通过选择来自因特网搜索的产品图像中的预定数目的最近近邻来减少噪声。选择相关产品图像是基于在相关产品图像及其对应专家产品图像之间的相似度测量。作为过滤的结果，产品可视签名生成模块200获得用于数码相机Canon40D的训练示例集合306，其中产品可视签名生成模块200生成用于数码相机Canon40D的可视签名。

为了有效注释在高维特征空间中表示的产品图像中所包含的产品，签名生成模块230通过将产品的正向训练图像平均来生成用于注释的模板。在一个实施例中，签名生成模块230合并产品的多个训练图像的可视化表示以生成用于产品的累计直方图。由于有来自图像背景的描述符引起的许多噪声，所以在累计直方图中实际上有许多有噪声的仓。

一种用于减少噪声的方式是采用在等式（2）中描述的L1稀疏化，该L1稀疏化拟合L1规则化的最小平方优化问题，

$> \underset{v_{i}}{\arg \min} {| | v_{i} - {\overline{v}}_{i} | |}_{2}^{2} + λ_{1} {| | v_{i} | |}_{1} - - - (2)$ >

其中||.||₂和||.||₁分别指示2范数和1范数。参数λ₁调制L1范数的效果，是用于第i个乘积的原始累计BoVW直方图，并且v_i是待学习的可视签名。等式（2）的第一项保持获得的签名与原始签名接近，而第二项使获得的可视签名的1范数值最小化，这使签名稀疏。

注意相同类/类别的若干产品具有接近外观。例如产品Canon40D和Nikon D90具有很接近外观。因此，这两个产品的直方图表示应当很接近。为了反映同类产品的图像的接近度，签名生成模块230共同生成产品的可视签名。在一个实施例中，签名生成模块230通过向等式（2）添加图形拉普拉斯项来修改在等式（2）中定义的可视签名生成，如下所示：

$> \underset{{v_{1}, v_{2}, . . ., v_{n}}}{\arg \min} Σ_{i = 1}^{n} {| | v_{i} - {\overline{v}}_{i} | |}_{2}^{2} + λ_{1} Σ_{i = 1}^{n} {| | v_{i} | |}_{1} + λ_{2} Σ_{i = 1}^{n} Σ_{j = 1}^{n} w_{ij} {| | v_{i} - v_{j} | |}_{2}^{2} - - - (3)$ >

其中w_ij是在产品i与j之间的相似度，并且λ₂是对图形拉普拉斯项的效果进行调制的参数。图形拉普拉斯项连结所有产品的签名。

可以使用优化方式来求解等式（3）。假设除了v_i之外的所有可视签名固定。则等式（3）描述的问题可以重写为下式（4）：

$> \underset{v_{i}}{\arg \min} {| | v_{i} - {\overline{v}}_{i} | |}_{2}^{2} + λ_{1} {| | v_{i} | |}_{1} + λ_{2} Σ_{j = 1}^{n} w_{ij} {| | v_{i} - v_{j} | |}_{2}^{2} - - - (4)$ >

等式（5）所定义可视签名v_i为：

$> \underset{v_{i}}{\arg \min} | | {(\begin{matrix} I \\ \sqrt{λ_{2} w_{i 1}} I \\ \sqrt{λ_{2} w_{i 2}} I \\ . . . \\ \sqrt{λ_{2} w_{in}} I \end{matrix}) v_{i} - (\begin{matrix} \overline{v_{i}} \\ \sqrt{λ_{2} w_{i 1}} v_{1} \\ \sqrt{λ_{2} w_{i 2}} v_{2} \\ . . . \\ \sqrt{λ_{2} w_{in}} v_{n} \end{matrix}) | |}_{2}^{2} + λ_{1} {| | v_{i} | |}_{1} - - - (5)$ >

其中I是D*D单位矩阵，并且将可视签名生成表示为L1规则化的最小平方优化问题。在一个实施例中，签名生成模块230使用内部点方法以求解在等式（5）中定义的问题。产品的可视签名代表产品的实情，该实情可以用来在运行时间确定视频流的视频帧是否包含产品。

在两个产品图像集合之间的相似度由等式（6）定义为：

其中|p_i|和|p_j|是用于图像集合P_i和P_j的图像数目，并且指示集合P_i中的第k个产品，并且sim(.,.)是来自不同集合的图像对的相似度。在等式（6）中定义的相似度测量具有以下性质：

（1）w_ij=w_ji：相似度对称；

（2）如果P_i=P_j，则w_ij=1：如果两个产品的图像集合相同，则产品的相似度是1；

（3）对于每个p’∈P_i和p”∈P_j，如果并且只有sim(p',p")＝0，则w(p_i,p_j)＝0：如果并且只有由两个图像集合形成的每对具有相似度，则相似度是0。

在一个实施例中，根据在等式（1）中描述的用于图像对的直方图交集而计算来自不同集合的图像对的相似度sim(.,.)。为了简化相似度计算，将属于产品的两个不同子类别的两个产品（例如在相同产品类“电子装置”之下的视频游戏和便携音频/视频产品）的相似度设置成零。

图4是根据本发明的一个实施例的用于共同生成产品可视签名的三个产品图像集合的示例。图4中的示例包含用于三个产品的三个产品图像集合：产品图像集合410用于数码相机Canon40D；产品图像集合420用于数码相机Nikon D90；并且产品图像集合430用于视频游戏控制台Xbox。注意因为产品Canon40D和Nikon D90属于同类产品，所以它们具有很接近外观。共同生成产品的可视签名使产品的可视签名能够反映同类产品的图像的接近度。

根据等式（5）和等式（6），签名生成模块230可以推导通过反复更新每个v_i来求解v_i的迭代过程。用于迭代更新可视签名v_i的示例伪代码如下：

其中，

Input：输入

Original accumulated BoVW representation：原始累计BoVW表示

BoVW representation after optimization：在优化之后的BoVW表示

Process：过程

For each product i and j：对于每个产品i和j

Compute their similarity w_ij according to Eq.(6)：根据等式（6）来计算它们的相似度w_ij

End：结束

Initialization：初始化

Initializeto be将初始化为

Iterative until t=T：迭代直至t=T

For i=1,2,……,n：对于i=1,2,……,n

Update the signature of ith product according Eq.(5),and let the resultbe根据等式（5）更新第i个产品的签名并且令结果为

End：结束

END：结束

Return：返回

图5是根据本发明的一个实施例的用于生成产品的可视签名的过程的流程图。起初，产品可视签名生成模块200针对产品从库搜索510专家产品图像并且在存储地（例如图1的产品图像数据库106的数据库1）中存储520专家产品图像。对于每个专家产品图像，产品可视签名生成模块200通过网络挖掘（例如因特网搜索）来收集530多个相关产品图像。产品可视签名生成模块200基于相关产品图像的对应专家产品图像过滤相关产品图像并且根据该过滤生成540训练采样产品图像。使用训练采样产品图像，产品可视签名生成模块200生成550用于产品的可视签名。产品可视签名生成模块200编译560包含用于多种产品的可视签名的可视签名文件。

视频流产品注释-产品注释

回顾图2，视频内产品注释模块102具有用于注释视频流的一个或者多个视频帧中的产品的视频处理模块300。视频处理模块300从客户端110接收视频流并且处理视频流的一个或者多个选择的视频帧。对于每个选择的视频帧，视频处理模块300使用由产品可视签名生成模块200提供的产品可视签名来确定视频帧是否包含已知产品。

在一个实施例中，视频处理模块300包括视频帧提取模块310、特征提取和量化模块320和产品注释模块330。视频帧提取模块310接收由多个视频帧组成的视频流并且从视频流提取多个关键帧。一种用于从视频流提取关键帧的方式是在视频流的固定点选择视频帧、例如每5秒的视频流提取视频帧。帧提取模块310的其它实施例可以使用不同方法、例如选择视频流的每个图像组（GOP）的第一帧以获得关键帧。

特征提取和量化模块320用于从视频流的关键帧提取可视特征并且对所提取的可视帧进行量化以生成每个关键帧的可视化表示。在一个实施例中，特征提取和量化模块320使用高斯差值方法以检测关键帧中的关键点，并且模块320根据每个关键点来提取128维SIFT特征。模块320将SIFT特征分组成具有分级k均值的多个集群（例如160,000个集群）。关键帧由多维视觉词袋直方图（例如160,000维BoVW直方图）代表。

产品注释模块330通过比较产品可视签名与关键帧的可视化表示（例如160,000维BoVW直方图）来确定视频流的关键帧是否包含已知产品。在产品可视签名与关键帧的可视化表示之间的比较由在等式（7）中定义的产品相关度测量来测量：

$> s (f, v_{i}) = \frac{Σ_{d = 1}^{D} \min {(f_{d}), (v_{i, d})}}{\min {Σ_{d = 1}^{D} f_{d}, Σ_{d = 1}^{D} v_{i, d}}} - - - (7)$ >

其中f是关键帧的可视BoVW直方图，并且v_i是用于第i个产品的可视签名文件。基于关键帧和已知产品的可视产品特征的产品相关度测量，产品注释模块330确定关键帧是否包含已知产品。在一个实施例中，将所估计的产品相关度测量与阈值进行比较以确定关键帧是否包含已知产品。

图6是根据本发明的一个实施例的用于在视频流的一个或者多个视频帧中检测产品并且对所检测的产品进行注释的过程的流程图。视频处理模块300从客户端110接收610视频流并且从视频流提取620多个关键帧。对于每个关键帧，视频处理模块300提取630关键帧的可视特征（例如SIFT特征）并且生成620关键帧的可视化表示（例如多维BoVW直方图）。视频处理模块300将关键帧的可视化表示与已知产品的每个可视签名进行比较650。基于该比较，视频处理模块300确定660关键帧是否包含已知产品。

图7是根据本发明的一个实施例的视频内产品注释系统的示例。视频内产品注释系统700具有用于离线生成数码相机Canon G9702的可视签名的产品可视签名生成子系统701A和用于在运行时间针对产品注释来处理用于视频流712的所选择的视频帧的视频处理子系统710B。产品可视签名生成子系统701A从AMAZON^TM704收集在Canon G9的不同视图的一个或者多个专家产品图像作为产品可视示例706。对于Canon G9的每个专家产品图像，产品可视特征生成子系统701A从GOOGLE^TM710收集多个关联产品图像。由于来自因特网搜索的Canon G9的产品图像可能包含噪声，所以产品可视签名生成子系统701A通过相关稀疏化方法708过滤来自因特网搜索的产品图像以减少噪声。所过滤的产品图像和关联专家图像形成Canon G9的训练图像集合，并且产品可视签名生成子系统701A生成用于Canon G9的可视签名。

视频处理子系统701B接收视频流712并且从视频流提取714多个关键帧。对于每个关键帧，提取和量化716多个可视特征以生成关键帧的可视化表示（例如BoVW直方图）。对于每个关键帧，视频处理子系统701B比较关键帧的可视化表示与Canon G9的可视签名，并且基于该比较，视频处理子系统101B确定关键帧是否包含数码相机Canon G9。出于示例目的，假设由产品可视签名生成701A所编译的产品可视签名文件仅包含Canon G9的可视签名。如果产品可视签名文件包含更多产品的可视签名，则视频处理子系统701B将关键帧的可视化表示与可视签名中的每个可视签名进行比较以确定关键帧是否包含由可视签名所标识的产品。

实验

为了评估视频内产品注释系统的实施例的性能，选择了来自电子装置领域的20个产品用于评估，这些产品包括Canon40d、NikonD90、Canon G9、Xbox360和其它电子装置。收集了来自YOUTUBE^TM的与所选择的电子装置相关的1044个网络视频。对于每个视频，每5秒提取关键帧。提取共计52,941个关键帧。在所选择的电子装置的实情标签中使用三个标签。对于每个产品，经由表决来标注产品视频的帧的相关度。在关键帧之中，有与产品中的至少一个产品相关的16,329个关键帧和与任何产品无关的36,162个关键帧。对于特征表示，高斯差值方法用来检测关键点，并且从每个关键点提取128维SIFT特征。将SIFT特征分组成具有分级k均值的160,000个集群。每个产品图像由160,000维BoVW直方图所代表。

对于性能评估度量，采用平均精确度（AP）方案（等式（8））以测量检索有效性：

$> AP = \frac{1}{R} Σ_{j = 1}^{s} \frac{R_{j}}{j} I_{j} - - - (8)$ >

其中R是大小为S的集合中的真实相关帧的数目，R_j是在任何给定的索引j在前j个结果中的相关帧的数目，并且如果第j帧相关则j=1，否则j=0。均值平均精确度（MAP）是在所有产品内的平均精确度的平均值。考虑三类训练数据用于性能评估。

（1）仅使用AMAZON^TM示例。图像很少。

（2）仅使用前若干GOOGLE^TM图像搜索结果。有用于每个产品的300个图像。

（3）同时结合AMAZON^TM和GOOGLE^TM图像搜索引擎的所提出的方式。有用于每个产品的300个图像。

分别标注三类训练数据为“仅Amazon”、“仅Google”和“Amazon+Google”。对于产品注释算法，测试该算法的三个变化：

（1）非稀疏：直接使用所有正向训练图像的累计BoVW直方图；

（2）1范数稀疏化：使用如在等式（2）中定义的1范数稀疏化方法；

（3）相关稀疏化：使用如在等式（3）中定义的相关稀疏化方法。

对于第二种方法和第三种方法，凭经验设置参数λ₁和λ₂分别为5和0.05。在下表I中证明训练数据源和注释算法的不同组合的性能结果（例如MAP结果）。

表I.用于生成可视签名文件的不同图像源的比较

MAP仅Amazon仅GoogleAmazon+Google非稀疏0.160.20.181范数稀疏化0.170.310.35相关稀疏化0.280.320.38

表I中的结果表明：

-“仅Google”的性能优于“仅Amazon”的性能。这证明在AMAZON^TM上的示例图像不足以构造良好可视签名。“Amazon+Google”胜过“仅Google”，并且这确认提出的方式的至少一个实施例的有效性。

-“1范数稀疏化”的性能优于“非稀疏”的性能。这是因为稀疏化方式减少BoVW直方图的噪声。提出的“相关稀疏化”比“1范数稀疏化”进一步改进，并且这证明等式（3）的图形拉普拉斯项的有效性。

为了进一步举例说明表1中所示结果，图8是由产品注释算法的变化所处理的视频帧的示例及其在视频帧中的对应可视词。左列包含不同注释方法的可视签名（810A、820A和830A）。可视签名810A由“无稀疏”方法生成。可视签名820A由“1范数稀疏化”方法生成，并且可视签名830A由“相关稀疏化”方法生成。右列示出视频帧中的对应可视词（810B、820B和830B）。图8中的示例示出稀疏化方法能够去除若干有噪声仓，并且因此所获得的可视签名更好。“相关稀疏化”方式探索多个产品的相关性并且生成具有更好质量的可视签名。

以上描述的视频内产品注释的另一实施例是利用与视频流关联的文字信息的多模产品注释。与视频关联的文字信息包括视频名称、描述和标签。通过与视频帧的可视信息关联的文字信息进行结合，可以进一步提高视频内产品注释性能。例如实验结果表明用于视频内产品注释的纯基于文字的方法实现0.23的MAP测量，并且它比通过仅使用可视信息而实现的MAP0.39更差。通过将文字和可视信息进行结合，可以将MAP测量提升至0.55。

本发明的实施例使用产品可视签名的相关稀疏化来有利地提供视频内产品注释。使用专家产品图像和来自网络挖掘的关联产品图像来生成产品的稀疏可视签名。通过相关稀疏化来减少关联产品图像的噪声。来自网络挖掘的产品的扩展训练图像与专家产品图像一起使本发明的实施例能够生成可以用来在运行时间高效标识在视频流的视频帧中所包含产品的产品可视签名。

本发明的实施例的性能在计算上高效。例如在特征提取之后，针对视频帧的产品注释实际上随着可视签名的非零仓的数目而缩放。当注释大型数据集合时，可以通过考察产品可视签名的稀疏性来构建反转结构。因此，产品可视签名的稀疏化不仅提高注释性能而且减少计算成本。

在说明书中对“一个实施例”或者“一实施例”的引用意味着结合该实施例描述的具体特征、结构或者特性包含于本发明的至少一个实施例中。在说明书中的各处出现短语“一个实施例”或者“一优选实施例”未必都引用相同实施例。

在对计算机存储器内的数据位的操作的方法和符号表示方面呈现上述的一些部分。这些描述和表示是本领域技术人员用来向本领域其他技术人员最有效传达他们的工作实质的手段。这里并且总体上设想方法为促成期望结果的步骤（指令）的自一致序列。步骤是需要物理操纵物理数量的那些步骤。这些数量尽管未必、但是通常采用能够存储、传送、组合、比较和以其他方式操纵的电、磁或者光信号的形式。主要出于普遍用法的原因而将这些信号称为位、值、元素、符号、字符、项、数等已经证实有时是方便的。另外，将需要物理操纵物理数量的步骤布置称为模块或者代码设备而不失一般性有时也是方便的。

然而应当谨记，这些术语和相似术语中的所有术语将与适当物理量关联并且仅为应用于这些物理量的方便标记。除非如从以下讨论中清楚的那样另有具体明示，理解贯穿说明书利用诸如“处理”或者“计算”或者“运算”或者“确定”或者“显示”或者“确定”等术语的讨论是指计算机系统或者相似电子计算设备的动作和过程，该计算机系统或者电子计算设备操纵和变换在计算机系统存储器或者寄存器或者其它这样的信息存储、传输和显示设备内表示为物理（电子）量的数据。

本发明的某些方面包括这里以方法的形式描述的过程步骤和指令。应当注意，可以在软件、固件或者硬件中体现本发明的过程步骤和指令，并且当在软件中体现时可以下载这些过程步骤和指令以驻留于各种操作系统使用的不同平台上并且从这些不同平台操作这些过程步骤和指令。

本发明也涉及一种用于执行这里的操作的装置。这一装置可以被具体构造用于所需目的，或者它可以包括通用计算机，该通用计算机由计算机中存储的计算机程序有选择地激活或者重新配置。这样的计算机程序可以存储于计算机可读存储介质、比如但不限于包括软盘、光盘、CD-ROM、光磁盘的任何类型的磁盘、只读存储器（ROM）、随机存取存储器（RAM）、EPROM、EEPROM、磁卡或者光卡、专用集成电路（ASIC）或者适合于存储电子指令并且各自耦合到计算机系统总线的任何类型的介质中。另外，在说明书中引用的计算机可以包括单个处理器或者可以是为了增加计算能力而运用多处理器设计的架构。

这里呈现的算法和显示并非固有地与任何特定计算机或者其它装置相关。各种通用系统也可以与根据这里的教导的程序一起使用，或者构造更专门化的装置以执行所需方法步骤可以证实是方便的。用于多种这些系统的所需结构将从以下描述中显现。此外，未参照任何特定编程语言描述本发明。将理解多种编程语言可以用来实施如这里描述的实施例的教导，并且提供以下对具体言语的任何引用以便公开实现和最佳实施方式。

尽管已经参照优选实施例和若干备选实施例具体示出和描述本发明，但是本领域技术人员将理解可以在其中进行形式和细节上的各种改变而未脱离本发明的精神实质和范围。

最后应当注意，在说明书中使用的言语已经主要出于可读性和指导目的而加以选择并且可以尚未被选择用于界定或者限制发明主题内容。因而，本发明的公开内容旨在于举例说明而不是限制本发明的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 利用网络信息挖掘的视频内产品注释 [P] . 中国专利： CN103608826B . 2017.04.05
2. 利用网络信息挖掘的视频内产品注释 [P] . 中国专利： CN103608826A . 2014-02-26
3. In-video product annotation with web information mining [P] . 英国专利： GB2506028B . 2018-11-28

机译：具有网络信息挖掘功能的视频内产品注释
4. In-video product annotation with web information mining [P] . 美国专利： US9355330B2 . 2016-05-31

机译：具有网络信息挖掘功能的视频内产品注释
5. In-video product annotation with web information mining [P] . 英国专利： GB2506028A . 2014-03-19

机译：具有网络信息挖掘功能的视频内产品注释