首页> 中国专利> 利用观看者反应估计和视觉提示检测的视频索引

利用观看者反应估计和视觉提示检测的视频索引

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一般地，本公开提供用于利用基于视觉提示检测的观看者反应估计的视频索引系统的方法和系统。该方法可以包括检测由用户生成的视觉提示，该视觉提示响应于用户观看视频而生成；将视觉提示映射到与用户相关联的情感空间；基于该映射来估计用户的情感事件；以及利用元数据对视频进行索引，所述元数据包括所估计的情感事件和与所估计的情感事件相关联的定时数据。该方法还可以包括基于视频索引对视频进行概括、划分和搜索。

著录项

公开/公告号CN104541514A

专利类型发明专利
公开/公告日2015-04-22

原文格式PDF
申请/专利权人英特尔公司;
展开▼

申请/专利号CN201380044426.0
发明设计人 R.耶赫斯克尔;D.斯坦希尔;
展开▼

申请日2013-09-10
分类号H04N21/45;H04N21/25;
代理机构中国专利代理(香港)有限公司;
代理人张凌苗
地址美国加利福尼亚州
入库时间 2023-12-18 08:20:29

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-28

未缴年费专利权终止 IPC(主分类):H04N21/45 授权公告日:20180330 终止日期:20190910 申请日:20130910

专利权的终止
2018-03-30

授权

授权
2015-05-20

实质审查的生效 IPC(主分类):H04N21/45 申请日:20130910

实质审查的生效
2015-04-22

公开

公开

说明书

技术领域

本公开涉及视频索引系统，并且更具体地涉及利用观看者反应估计基于视觉提示检测的视频索引系统。

背景技术

用于视频库的管理（包括分类、搜索和检索）的现有系统典型地依赖于视频分析算法，其分析视频流以产生描述视频的内容的单个综合结果。然而，不同观看者可能具有对视频的变化或个性化响应，其可能不被分析算法所提供的单个综合结果捕获。

一些系统可能尝试通过询问用户反馈来计及观察者个性化的体验。然而，这样的系统由于用户错误和/或评级系统的误解而通常易于出错。反馈典型地还受限于涵盖整个视频的单个评级，这是由于贯穿视频流呈现请求用户响应的连续采用是不实际的。附加地，这些系统要求用户做出特别的努力，这可能减损用户体验的质量并且因此一般是不合期望的。

附图说明

所要求保护的主题的实施例的特征和优点将随着以下具体实施方式的进行并且在参照附图时变得清楚，其中相同附图标记描绘相同部分，并且在附图中：

图1图示与本公开相一致的一个示例性实施例的顶级系统图；

图2图示与本公开相一致的一个示例性实施例的框图；

图3图示与本公开的示例性实施例相一致的特征空间中的情感流形（manifold）的绘图；

图4图示与本公开的示例性实施例相一致的所估计的情感的绘图；

图5图示与本公开相一致的另一示例性实施例的框图；以及

图6图示与本公开相一致的示例性实施例的操作的流程图。

尽管将参照说明性实施例进行以下具体实施方式，但是其许多可替换形式、修改和变型对本领域技术人员而言将是清楚的。

具体实施方式

一般地，本公开提供用于基于所检测的视觉提示估计观看者情感反应并且利用元数据对视频进行索引的系统和方法，所述元数据包括关于情感的信息和这些情感相对于视频的帧的定时。索引系统可以用于基于这些情感事件来概括、划分和搜索视频。在一些实施例中，索引系统可以用于标识视频的流派和搜索视频库内的在流派方面类似的或者可能期望唤起来自用户的类似情感响应的其它视频。系统还可以基于响应于其它视频的观看而检测到的情感反应来学习用户的偏好并且基于这些学习的偏好来做出视频推荐。数据库可以存储多个用户的用户简档，其包括针对每一个用户所学习的偏好以及到经索引的视频的库的链接，由此使得视频推荐和搜索操作能够通过包括其他用户的情感响应而得以加强，这可以被称为人群讯源（crowd-sourcing）。

图1图示与本公开相一致的一个示例性实施例的顶级系统图100。用户104观看视频呈现102。在一些实施例中，视频呈现可以是流送视频或者任何适当类型的媒体呈现。情感估计模块106可以被配置成在观看视频时观察用户104并且检测视觉提示（例如，面部特征、头部位置/方位、注视点和眼睛移动模式等），从视觉提示可以估计用户情感反应，如在下文将更详细描述的。基于情感的视频处理模块108可以被配置成利用包括所估计的用户情感响应和相对于视频的帧的相关联的定时信息的元数据来对视频进行索引。基于情感的视频处理模块108还可以被配置成基于索引来概括、划分和/或搜索视频以及施行附加的操作，如在下文更详细描述的。

图2图示与本公开相一致的一个示例性实施例的框图200。情感估计模块106被示出为包括视觉提示检测模块202、情感流形学习/更新模块208、情感流形206和基于情感流形的估计模块204。

当用户104观看视频呈现102时，用户可以体验一系列情感状态。情感状态的示例可以包括开心、伤心、生气、恐惧、反感、惊奇和蔑视。响应于这些情感状态，用户104可以展现视觉提示，包括面部特征（例如，面部标志的位置、面部纹理）、头部位置和方位、眼睛注视和眼睛移动模式、或者可以与情感状态相关的任何其它可检测的视觉提示。并不是所有情感状态都可以从视觉提示来检测，并且一些不同的情感状态可能共享视觉提示而一些视觉提示可能不对应于具有通常定义或名称的情感状态（例如，多个情感的合成或者处于两个或更多情感之间的情感状态，诸如处于伤心和生气之间的状态或者由开心和惊奇二者合成的状态）。系统因此可以被配置成估计伪情感，其表示可以从视觉提示唯一地标识的情感状态的任何子集。

当视觉提示检测模块202检测到视觉提示时，它们被映射到特征空间，在图3中图示特征空间的示例，图3示出三维特征空间302。该特征空间的三个轴线可以例如表示眼睫毛的角落的位置、嘴巴的角落的位置以及头部的倾斜。在对应于观看者在该时间（或在时间间隔内）出现的任何给定时间处检测到的特征然后可以由特征空间中的坐标表示；在该情形中是三维坐标。坐标306、308、310的群簇可以被标识并且发现位于伪情感的流形206、304上。群簇可以对应于观看用户104在视频呈现102期间的特定时间处的不同情感状态。流形206、304可以通过学习过程来生成和/或更新，模块208可以被配置用于该学习过程。在一些实施例中，模块208可以是支持向量机（SVM）分类器或者任何其它适当的估计器或分类器。

如由特征空间302（在该示例中出于简单而被表示为三维空间）中的点表示的观看者的出现可以被投影到较低维度的空间上，例如二维情感空间或流形206、304上，从而表示情感状态的属性。在一些实施例中，观看者的出现可以被投影到二维情感状态属性空间上，其中两个维度例如表示配价（valence）和兴奋（arousal）。配价是情感的积极性或消极性的程度的度量（例如情感有多愉悦），而兴奋是情感的强度的度量。也可以使用包括主导/顺从和有压力/轻松的度量的其它属性。基于情感流形的估计模块204可以被配置成基于检测到的特征从特征空间302到属性空间（例如较低维度的流形206、304）的映射来估计用户104在给定时间处的情感（或伪情感）状态。这在图4中图示，图4示出所估计的情感类型402随时间的绘图，其可以与视频帧序号或帧时间戳相关联。

图5图示与本公开相一致的另一示例性实施例的框图500。基于情感的视频处理模块108被示出为包括描述符生成器模块502、索引模块504、视频和用户数据库506、518、用户简档生成/更新模块520、概括模块508、划分模块510、视频内搜索模块512、视频间搜索模块514和推荐生成模块522。

由情感估计模块106生成的估计的情感被描述符生成模块502接收，该描述符生成模块502可以被配置成将所估计的情感转换成可以包括例如流派分类、主导情感的标识、情感的最高点和最低点的持续时间的度量和/或情感峰之间的时间间隔的度量的描述符。索引模块504可以被配置成通过将可以具有元数据的形式的描述符信息集成到视频中来对视频进行索引或标记。索引可以使得能够高效地检索关于观看者在视频期间的各时间处的情感状态的信息。视频数据库506可以被创建和维护以包括一个或多个这样经索引的视频并且可以包括从这样的视频的其他用户/观看者的反应生成的索引信息。

概括模块508可以被配置成提取视频的片段，例如来自视频数据库506的视频的片段，所述片段与超出情感强度阈值的情感事件的增加的密度相关联。该密度可以从与视频相关联的视频索引或元数据确定。这样提取的片段可以组合以提供可针对用户定制的视频的概括。概括的长度可以基于强度阈值的设定来调整。

划分模块510可以被配置成将视频划分成片段，其中划分发生在与情感事件的相对较低密度相关联的时间处。密度再次可以从视频索引确定并且划分因而可以针对用户定制。

视频内搜索模块512可以被配置成响应于来自用户的查询而在视频内搜索片段或短剪辑。例如，用户可以请求“有趣”的片段，并且视频内搜索模块512可以基于标识与涉及幽默的情感响应相关联的视频帧的视频索引来提取这些片段。视频间搜索模块512可以以类似的方式操作，但是可以被配置成响应于用户查询而搜索其它视频，例如来自视频数据库506的视频。例如，针对“有趣”的请求可以导致搜索具有与幽默相关联的相对较大数目的情感事件的视频。

推荐生成模块522可以被配置成例如从视频数据库506推荐针对用户的喜好个性化的视频。推荐可以基于所学习的用户的偏好，该偏好继而可以基于响应于如在视频数据库506和用户数据库518中记录的其它视频的观看而检测到的情感反应。用户的情感反应可以与其他用户的情感反应比较以加强推荐过程。

用户简档生成/更新模块520可以被配置成基于由情感估计模块106生成的估计的情感来生成和维护用户简档。用户简档可以包括针对该用户所学习的情感状态206的流形。在一些实施例中，用户简档可以包括涉及针对该用户所学习的偏好的任何其它信息以及到视频数据库506中的经索引的视频的链接或引用。在一些实施例中，用户简档可以附加地包括关于用户的文化背景、性别和/或年龄的信息、或者可以被用来将用户分组成可出于人群讯源目的而有用的分类的任何其它信息，如以下所描述的。当情感状态206的流形更新时，例如当观看附加视频并且视觉提示被检测并与情感状态有关时，用户简档可以更新。用户简档可以连同其他用户的简档一起存储在用户数据库518中。多个用户的简档连同来自包括从多个用户生成的索引信息的视频数据库506的经索引的视频一起可以被提供到或以其它方式使其可用于概括模块508、划分模块510、搜索模块512、514和推荐生成模块522。通过提供从多个用户或用户的分组获得的这样的信息，概括、划分、搜索和推荐的操作可以通过包括其他用户的情感响应（例如人群讯源）而加强。例如，响应于用户请求而施行的视频搜索可以基于之前所记录的该用户对其它视频的情感反应或者其可以基于具有类似简档的其他用户的情感反应。在一些实施例中，来自多个用户的数据的可用性可以被用来对可能出现的误差进行平均或者过滤出该误差。

在一些实施例中，视频分析系统516可以被配置成提供视频流的附加综合分析，例如不计及用户的情感反应的分析。这些自动分析结果可以并入到由模块504施行的索引操作中，并且可以集成到用于该视频的元数据中，该元数据继而可以用于通过任何处理模块508、510、512、514和522而利用。

图6图示与本公开相一致的示例性实施例的操作600的流程图。在操作610处，由用户响应于观看视频而生成的视觉提示被检测。视频可以是视频流。在操作620处，视觉提示被映射到与用户（或者计及所有人类或人类的子分组的一般空间）相关联的情感流形（或者一些特征/属性空间）。在操作630处，基于该映射来估计用户的情感事件。在操作640处，利用元数据对视频进行索引，该元数据包括所估计的情感事件和与所估计的情感事件相关联的定时数据。定时数据可以涉及与视频流相关联的帧序号或者相对于视频的开头或相对于任何其它适当的参考时间所逝去的时间。定时数据因此可以是时间戳。经索引的视频然后可以被用来促进概括、划分、搜索和推荐操作。

本文所描述的方法的实施例可以在包括具有单独地或组合地存储于其上的指令的一个或多个存储介质的系统中实现，该指令在由一个或多个处理器执行时施行该方法。此处，处理器可以包括例如系统CPU（例如核处理器）和/或可编程电路系统。因而，根据本文所描述的方法的操作意图可以跨诸如若干不同物理位置处的处理结构之类的多个物理设备分布。另外，方法操作意图可以单独地或以子组合施行，如本领域技术人员将理解的。因而，并不是每一个流程图的所有操作都需要被施行，并且本公开在表述上意图能够实现这样的操作的所有子组合，如本领域普通技术人员将理解的。

存储介质可以包括任何类型的有形介质，例如包括软盘、光盘、致密盘只读存储器（CD-ROM）、可再写致密盘（CD-RW）、数字通用盘（DVD）和磁光盘的任何类型的盘，诸如只读存储器（ROM）、诸如动态和静态RAM之类的随机存取存储器（RAM）、可擦可编程只读存储器（EPROM）、电气可擦可编程只读存储器（EEPROM）、闪存、磁卡或光卡之类的半导体设备，或者适用于存储电子指令的任何类型的介质。

如在本文的任何实施例中所使用的，“电路系统”可以例如包括单个的或以任何组合的硬连线电路系统、可编程电路系统、状态机电路系统和/或存储由可编程电路系统执行的指令的固件。应用可以具体化为代码或指令，其可在诸如主机处理器之类的可编程电路系统或其它可编程电路系统上执行。如在本文的任何实施例中所使用的，模块可以具体化为电路系统。电路系统可以具体化为集成电路，诸如集成电路芯片。

因而，本公开提供用于基于检测到的视觉提示来估计观看者对视频的情感反应并且利用包括关于情感的信息和这些情感相对于视频的帧的定时的元数据来对视频进行索引的系统、方法和计算机可读存储介质。

系统可以包括被配置成检测由用户生成的视觉提示的视觉提示检测模块，该视觉提示响应于用户观看视频而生成。该示例的系统还可以包括情感估计模块，其被配置成将视觉提示映射到与用户相关联的情感空间并且基于该映射估计用户的情感事件。该示例的系统还可以包括被配置成利用元数据来对视频进行索引的视频索引模块，元数据包括所估计的情感事件和与所估计的情感事件相关联的定时数据。

另一示例系统包括前述组件并且视频索引模块还被配置成标识与情感事件相关联的视频帧时间戳，该标识基于定时数据。

另一示例系统包括前述组件并且还包括视频概括模块，其被配置成基于所提取的帧中的情感事件的密度超出阈值而提取视频的帧，并且该密度从索引确定。

另一示例系统包括前述组件并且还包括视频划分模块，其被配置成基于帧中的情感事件的密度降至阈值以下而在帧位置处将视频分段，并且该密度从索引确定。

另一示例系统包括前述组件并且还包括视频内搜索模块，其被配置成搜索与所请求的情感事件相关联的视频中的帧，该搜索基于索引。

另一示例系统包括前述组件并且还包括用户简档生成模块，其被配置成创建和维护用户简档的数据库，用户简档包括与该用户和一个或多个其他用户相关联的情感空间。

另一示例系统包括前述组件并且还包括经索引的视频数据库，其被配置成存储包括与该用户和一个或多个其他用户相关联的元数据的经索引的视频。

另一示例系统包括前述组件并且还包括视频间搜索模块，其被配置成搜索与来自用户的所请求的情感事件相关联的视频，该搜索基于经索引的视频数据库。

根据另一方面，提供一种方法。该方法可以包括检测由用户生成的视觉提示，该视觉提示响应于用户观看视频而生成。该示例的方法还可以包括将视觉提示映射到与用户相关联的情感空间。该示例的方法还可以包括基于映射估计用户的情感事件。该示例的方法还可以包括利用元数据对视频进行索引，该元数据包括所估计的情感事件和与所估计的情感事件相关联的定时数据。

另一示例方法包括前述操作并且还包括标识与情感事件相关联的视频帧时间戳，该标识基于定时数据。

另一示例方法包括前述操作并且还包括提取视频的帧以生成视频的概括，该提取基于所述帧中的情感事件的密度超出阈值，并且该密度从索引确定。

另一示例方法包括前述操作并且还包括基于帧中的情感事件的密度降至阈值以下而在帧位置处划分视频，并且该密度从索引确定。

另一示例方法包括前述操作并且还包括搜索与所请求的情感事件相关联的视频中的帧，该搜索基于索引。

另一示例方法包括前述操作并且还包括基于情感事件的频率、持续时间和类型来估计视频的流派。

另一示例方法包括前述操作并且还包括维护用户简档的数据库，用户简档包括与该用户和一个或多个其他用户相关联的情感空间；以及维护包括与该用户和一个或多个其他用户相关联的元数据的经索引的视频的数据库。

另一示例方法包括前述操作并且还包括搜索与来自用户的所请求的情感事件相关联的视频，该搜索基于经索引的视频的数据库。

另一示例方法包括前述操作并且还包括基于以下之间的比较来为用户推荐视频：与用户相关联的情感空间；与用户简档数据库中的其他用户相关联的情感空间；以及经索引的视频数据库中的元数据。

根据另一方面，提供具有存储于其上的指令的至少一个计算机可读存储介质，该指令在由处理器执行时使处理器施行如在以上示例中所描述的方法的操作。

已经在本文中采用的术语和表述被用作描述而非限制的术语，并且在使用这样的术语和表述时并不意图排除所示出和描述的特征（或其部分）的任何等同物，并且要认识到的是，在权利要求的范围内的各种修改是可能的。相应地，权利要求意图覆盖所有这样的等同物。已经在本文描述了各种特征、方面和实施例。这些特征、方面和实施例易于与彼此组合以及易于变型和修改，如本领域技术人员将理解的。本公开因此应当被视为涵盖这样的组合、变型和修改。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 利用观看者反应估计和视觉提示检测的视频索引 [P] . 中国专利： CN104541514B . 2018.03.30
2. 利用观看者反应估计和视觉提示检测的视频索引 [P] . 中国专利： CN104541514A . 2015-04-22
3. Video indexing based on reaction estimation of viewer and visual cue detection [P] . 日本专利： JP6141981B2 . 2017-06-07

机译：基于观众反应估计和视觉提示检测的视频索引
4. VIDEO INDEXING WITH VIEWER REACTION ESTIMATION AND VISUAL CUE DETECTION [P] . 韩国专利： KR20160075872A . 2016-06-29

机译：带有观众反应估计和视觉提示检测的视频索引
5. Video indexing with viewer reaction estimation and visual cue detection [P] . 美国专利： US9247225B2 . 2016-01-26

机译：带有观众反应估计和视觉提示检测的视频索引