首页> 中国专利> 具学习力的视觉注意预测系统及其方法

具学习力的视觉注意预测系统及其方法

摘要

本发明是有关于一种具学习力的视觉注意预测系统及其方法,其包含以下步骤:首先,借由训练来学习注视密度和至少一特征资讯之间的一相互关系;接着,接收一具有多个测试信息框的一测试影片;之后,基于特征资讯从每一个测试信息框产生至少一测试特征图;最后,根据相互关系将测试特征图对应出一显著图,用来表示所对应的测试信息框的注视强度。

著录项

  • 公开/公告号CN102915443A

    专利类型发明专利

  • 公开/公告日2013-02-06

    原文格式PDF

  • 申请/专利权人 陈宏铭;奇景光电股份有限公司;

    申请/专利号CN201110220523.3

  • 申请日2011-08-01

  • 分类号G06K9/62;

  • 代理机构北京中原华和知识产权代理有限责任公司;

  • 代理人寿宁

  • 地址 中国台湾台南县新市乡丰华村紫楝路26号

  • 入库时间 2024-02-19 17:23:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-30

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20110801

    实质审查的生效

  • 2013-02-06

    公开

    公开

说明书

技术领域

本发明涉及一种有关视觉注意预测系统及其方法,特别是涉及一种对 影片信号(video signal)具学习力(learning-based)的视觉注意预测系统 及其方法。

背景技术

视觉注意是人类视觉系统的一个重要特征,它帮助我们的大脑过滤掉 过多的视觉资讯,使我们的眼睛专注于特定有兴趣的区域。视觉注意一直 是神经科学,生理学,心理学和人类视觉研究的课题,这些研究除了能让 我们了解视觉注意的心理层面,也可应用于影片信号的处理。

通常影片中的注视点吸引最多的注意,若能预测到影片中被注意的区 域,便可只对此区域的影片信号进行较精细的影像处理或较好的编码程 序。传统视觉注意模型由两部分组成:特征撷取以及特征融合。从影片中 撷取特征后会产生特征图,之后再利用非线性融合或线性融合的方式来融 合特征图,以产生显著图。然而,由于在特征融合程序中不适当的权重分 配,或是只撷取低层级的特征资讯,如颜色、方向等,都会使得预测出的 显著图和实际人们注视位置之间在视觉上有无法配对的问题。

鉴于传统视觉注意模型无法有效预测视觉注意区域,因此亟需提出一 种新颖的视觉注意预测系统及方法,以忠实地且简易地预测视觉注意区域。

由此可见,上述现有的有关视觉注意预测系统及其方法在方法及使用 上,显然仍存在有不便与缺陷,而亟待加以进一步改进。为了解决上述存 在的问题,相关厂商莫不费尽心思来谋求解决之道,但长久以来一直未见 适用的设计被发展完成,而一般方法及方法又没有适切的方法能够解决上 述问题,此显然是相关业者急欲解决的问题。因此如何能创设一种新的具 学习力的视觉注意预测系统及其方法,实属当前重要研发课题之一,亦成 为当前业界极需改进的目标。

发明内容

本发明的目的在于,克服现有的有关视觉注意预测系统及其方法存在 的缺陷,而提供一种新的具学习力的视觉注意预测系统及其方法,所要解 决的技术问题是使其用以有效预测视觉注意区域,非常适于实用。

本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据 本发明提出的其包含:一特征撷取单元(feature extraction unit),用来 接收一具有多个测试信息框(test frame)的一测试影片(test video  sequence),并基于至少一特征资讯(feature information)从每一所述测 试信息框产生至少一测试特征图(tested feature map);及一回归模型 (regression model),具有一注视密度(fixation density)和该特征资讯 之间的相互关系(correlation relationship),该回归模型根据该相互关 系将该至少一测试特征图对应出一显著图(saliency map),用来表示所对 应的该测试信息框的注视强度(fixation strength)。

本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。

前述的具学习力的视觉注意预测系统,其中所述的其更包含:一训练单 元(training unit),用来训练该回归模型学习注视密度和该特征资讯之间 的该相互关系。

前述的具学习力的视觉注意预测系统,其中所述的其更包含:一注视数 据收集单元(fixation data collection unit),用来侦测多个训练影片 (training video sequence)中的每一训练信息框(training frame)所被注 意的多个注视点(fixation point),并收集所述注视点来对每一所述训练 信息框产生一注视图(fixation map);及一注视密度产生器(fixation  density generator),耦接于该注视数据收集单元,用来将每一所述注视 图转成一注视密度图(fixation density map),其记录所对应的该训练信 息框中每一像素的一注视密度值(fixation density value);其中,该特 征撷取单元接收所述训练影片,并基于该至少一特征资讯从所述训练影片 的每一所述训练信息框产生至少一训练特征图(training feature map),而 该训练单元根据所述注视密度图以及该训练特征图来训练该回归模型。

前述的具学习力的视觉注意预测系统,其中所述的其更包含:一训练样 本选取单元(training sample selection unit),耦接于该训练单元,用 来从每一所述训练影片的所述训练信息框中选出至少一样本信息框,其中 该样本信息框中的所述注视点的分布最为密集。

前述的具学习力的视觉注意预测系统,其中所述的该训练样本选取单 元从该样本信息框中选出多个样本像素,其中所述样本像素为该样本信息 框的该注视密度图中,位于相对密集处的所述注视点。

前述的具学习力的视觉注意预测系统,其中所述的该至少一训练特征 图记录所对应的该训练信息框中每一像素的一训练特征值(training  feature value),且该训练单元根据所述样本像素的所述注视密度值以及 所述样本像素的所述训练特征值的对应关系来训练该回归模型。

前述的具学习力的视觉注意预测系统,其中所述的其由多个观赏者 (viewer)进行实验来获得该相互关系,其中该注视数据收集单元包含:一 显示屏幕,用来显示所述训练影片;一支撑架,用来支撑所述观赏者来观 看该显示屏幕中显示的所述训练影片;一摄影机,面对所述观赏者,用来 追踪所述观赏者的眼睛活动(eye movement);及一主机,耦接于该显示屏 幕和该摄影机,用来控制该显示屏幕显示所述训练影片,并记录所述观赏 者注视所述训练信息框的位置;其中,所述观赏者注视所述训练信息框的 位置为该注视点。

前述的具学习力的视觉注意预测系统,其中所述的该训练单元使用支 持向量回归(support vector regression)算法来训练该回归模型。

前述的具学习力的视觉注意预测系统,其中所述的该特征资讯包含颜 色(color)、移动量(motion)、方向(orientation)、或脸部(face)。

前述的具学习力的视觉注意预测系统,其中所述的该显著图中具有至 少一显著区域,其具有相对大的注视强度。

本发明的目的及解决其技术问题还采用以下技术方案来实现。依据本 发明提出的其包含:借由训练来学习注视密度(fixation density)和至少 一特征资讯(feature information)之间的一相互关系(correlation  relationship);接收一具有多个测试信息框(test frame)的一测试影片 (test video sequence);基于该至少一特征资讯从每一所述测试信息框产 生至少一测试特征图(tested feature map);及根据该相互关系将该测试 特征图对应出一显著图(saliency map),用来表示所对应的该测试信息框 的注视强度(fixation strength)。

本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。

前述的具学习力的视觉注意预测方法,其中所述的其在学习该相互关 系步骤中包含:侦测多个训练影片(training video sequence)中的每一训 练信息框(training frame)所被注意的多个注视点(fixation point);收 集所述注视点来对每一所述训练信息框产生一注视图(fixation map);将 每一所述注视图转成一注视密度图(fixation density map);基于该至少 一特征资讯从所述训练影片的每一所述训练信息框产生至少一训练特征图 (training feature map);及根据所述注视密度图以及该训练特征图来学 习该相互关系。

前述的具学习力的视觉注意预测方法,其中所述的其在学习该相互关 系的步骤中更包含:从每一所述训练影片的所述训练信息框中选出至少一 样本信息框,其中该样本信息框中的所述注视点的分布最为密集;及从该 样本信息框中选出多个样本像素,其中所述样本像素为该样本信息框的该 注视密度图中,位于相对密集处的所述注视点。

前述的具学习力的视觉注意预测方法,其中所述的该注视密度图记录 所对应的该训练信息框中每一像素的一注视密度值(fixation density  value),且该训练特征图记录所对应的该训练信息框中每一像素的一训练 特征值(training feature value),且在学习该相互关系步骤中更包含:根 据所述样本像素的所述注视密度值以及所述样本像素的所述训练特征值的 对应关系来学习该相互关系。

前述的具学习力的视觉注意预测方法,其中所述的该相互关系由多个 观赏者(viewer)进行实验而获得,且在侦测所述注视点的步骤中包含:显 示所述训练影片;由所述观赏者观看所显示的所述训练影片;追踪所述观 赏者的眼睛活动(eye movement);及记录所述观赏者注视所述训练信息框 的位置;其中,所述观赏者注视所述训练信息框的位置为该注视点。

前述的具学习力的视觉注意预测方法,其中所述的其使用支持向量回 归(support vector regression)算法来训练并学习该相互关系。

前述的具学习力的视觉注意预测方法,其中所述的该特征资讯包含颜 色(color)、移动量(motion)、方向(orientation)、或脸部(face)。

前述的具学习力的视觉注意预测方法,其中所述的该显著图具有至少 一显著区域,其具有相对大的注视强度。

前述的具学习力的视觉注意预测方法,其中所述的其更包含:将对应于 该显著区域的该测试信息框部份进行相对精细的影像处理。

本发明与现有技术相比具有明显的优点和有益效果。由以上技术方案 可知,本发明的主要技术内容如下:

为达到上述目的,本发明提供了一种具学习力的视觉注意预测系统,其 包含一特征撷取单元(feature extraction unit)以及一回归模型 (regression model)。特征撷取单元用来接收一具有多个测试信息框(test  frame)的一测试影片(test video sequence),并基于至少一特征资讯 (feature information)从每一个测试信息框产生至少一测试特征图 (tested feature map)。回归模型具有一注视密度(fixation density)和 特征资讯之间的相互关系(correlation relationship),且回归模型根据 相互关系将测试特征图对应出一显著图(saliency map),用来表示所对应 的测试信息框的注视强度(fixation strength)。

此外,为达到上述目的,本发明还提供了一种具学习力的视觉注意预测 方法,包含以下步骤:首先,借由训练来学习注视密度(fixation density) 和至少一特征资讯(feature information)之间的一相互关系(correlation  relationship);接着,接收一具有多个测试信息框(test frame)的一测试 影片(test video sequence);之后,基于特征资讯从每一个测试信息框产 生至少一测试特征图(tested feature map);最后,根据相互关系将测试 特征图对应出一显著图(saliency map),用来表示所对应的测试信息框的 注视强度(fixation strength)。

借由上述技术方案,本发明具学习力的视觉注意预测系统及其方法至 少具有下列优点及有益效果:根据上述实施例,本发明所提出的学习力的 视觉注意预测系统及方法,先于训练阶段获得训练影片的注视密度和特征 资讯之间的相互关系,再于测试阶段时,使用相互关系训练回归模型,基 于机器自学来进行视觉注意预测,以能学习特征和视觉注意的关系,进而 避免所预测的显著图和实际人们注视位置之间在视觉上无法配对的问题。

综上所述,本发明具学习力的视觉注意预测系统及其方法,其包含以 下步骤:首先,借由训练来学习注视密度和至少一特征资讯之间的一相互 关系;接着,接收一具有多个测试信息框的一测试影片;之后,基于特征 资讯从每一个测试信息框产生至少一测试特征图;最后,根据相互关系将 测试特征图对应出一显著图,用来表示所对应的测试信息框的注视强度。本 发明在技术上有显着的进步,并具有明显的积极效果,诚为一新颖、进 步、实用的新设计。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的 技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和 其它目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附 图,详细说明如下。

附图说明

图1显示本发明实施例的学习力的视觉注意预测系统的方框图。

图2显示本发明实施例的眼追踪系统的架构示意图。

图3显示本发明实施例的训练影片。

图4例示本发明实施例的训练信息框及其对应的注视图。

图5例示本发明实施例的训练信息框及其对应的注视图及注视密度图。

图6显示本发明实施例的学习力的视觉注意预测方法的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功 效,以下结合附图及较佳实施例,对依据本发明提出的具学习力的视觉注意 预测系统及其方法其具体实施方式、方法、步骤、特征及其功效,详细说 明如后。

请参阅图1,显示本发明实施例的具学习力的视觉注意预测系统的方框 图。视觉注意预测系统1包含一注视数据收集单元(fixation data  collection unit)11、一特征撷取单元(feature extraction unit)13、一 注视密度产生器(fixation density generator)15、一训练样本选取单元 (training sample selection unit)17、一训练单元(training unit)18以 及一回归模型(regression model)19。视觉注意预测系统1所执行的算法 包含训练阶段和测试阶段。

在训练阶段时,须由给定的训练影片中获取训练样本以及注视数 据,并学习测试阶段所需的对应资讯。首先,注视数据收集单元11接收多 个训练影片(training video sequence)3a-3h,如图3所示,每个训练影 片3a-3h包含多个连续训练信息框(training frame)。注视数据收集单元 11侦测训练影片3a-3h中的每一训练信息框所被注意的多个注视点 (fixation point),以收集每一训练信息框的全部注视点来产生一注视图 (fixation map)。

具体来说,注视数据收集单元11包含一眼追踪系统(eye tracking  system),如图2所示,眼追踪系统包含一主机(host PC)111、一显示屏幕 (displayer)113、一支撑架(supporting rest)115以及一摄影机117。显 示屏幕113用来显示训练影片3a-3h;支撑架115用来支撑观赏者2来观看 显示屏幕113中显示的训练影片3a-3h;摄影机117面对着观赏者2,用来 追踪观赏者2的眼睛活动(eye movement);而主机111耦接于显示屏幕113 和摄影机117,用来控制显示屏幕113显示训练影片3a-3h,并记录观赏者 2注视训练信息框的位置。实作上,本发明邀请多个不同背景的观赏者 (viewer)2来进行眼追踪实验,由显示屏幕13依序显示所有的训练影片 3a-3h,一旦观赏者2的头部放置于支撑架115上时,摄影机117便侦测观 赏者2注视目前显示的训练信息框的位置,即注视点,再由主机111记录 下来。如此一来,对每个训练信息框,从所有观赏者2侦测到的注视点会 被收集起来成为注视图。

请参阅图4,为本发明实施例的训练信息框及其对应的注视图的示意 图。以训练影片3a为例,其由多个连续训练信息框3a1-3a5组成。所有观 赏者2注视到训练信息框3a1-3a5的位置被收集起来,以产生相对应的注 视图4a1-4a5。举例来说,注视图4a1中每个注视点就表示一个观赏者2所 注视到训练信息框3a1的位置。借由眼追踪系统从观赏者2收集的经验上 的注视资料,便可视为实况数据(ground truth)而被利用来训练回归模型 19。

注视密度产生器15耦接于注视数据收集单元11,用来将每一注视图转 成一注视密度图(fixation density map),其表示每个训练信息框会被注 意的位置或区域。具体来说,对任一训练影片(如3a)的每个训练信息框(如 3a1)所产生的注视图(如4a1)是一群离散的注视点{(xnf,ynf),n=1,…, N},其中N表示进行实验的观赏者2的数量,注视密度产生器15会对其进 行内插来产生出注视密度图。请参阅图5,为本发明实施例的训练信息框及 其对应的注视图及注视密度图的示意图。如图5所示,注视密度产生器15 使用一高斯分布函数(Gaussian distribution function)来过滤训练信息 框3a5的注视图4a5,如公式(1),进而产生一注视密度图5b。

s(x,y)=1NΣn=1N12πσs2·exp(-(x-xnf)2+(y-ynf)22σs2),---(1)

其中,s(x,y)表示注视密度图5b,其记录了训练信息框3a5中每一像 素相应的注视密度值(fixation density value)。σs表示高斯分布的标准 差,按照眼追踪系统的视觉角度正确性来决定。一具体实施例中, σs=Lxtan(0.5π/180),这里的L表示观赏者2和显示屏幕113之间的观 看距离。从公式(1)可看出借由注视值的高斯权重平均来估算注视密度,每 一像素会传递其注视密度值至邻近的像素,因此,在注视密度图5b中,在 被密集注视区域的像素会比不常注视区域的像素更具吸引力。而5a为注视 密度图5b的3D透视图,其显示每个像素的注视强度分布。

特征撷取单元13一一接收训练影片3a-3h,并撷取每个训练信息框的 特征。特征撷取考虑到影像中哪种特征会吸引人的注意。特征撷取单元13 基于三种低层级的特征资讯,如颜色(color)、移动量(motion)、方向 (orientation),以及一种高层级的特征资讯,如脸部(face),从训练影片 3a-3h的每一个训练信息框分别产生相对应的训练特征图(training  feature map),如颜色特征图、移动量特征图、方向特征图以及脸部特征 图。

训练特征图记录所对应的训练信息框中每一像素的训练特征值 (training feature value),具体来说,根据颜色对比,颜色特征图记录 了影像中各像素(或区块)的颜色吸引人注意的程度;移动量特征图记录了 影像中各像素(或区块)的相对移动量大小,移动量对比愈大,视神经接收 到的反应愈强。影片中的方向对比会借由计算前后两张影片的方向差异来 获得,进而记录于方向特征图中。而影片中出现的脸部区域会被侦测出 来,以产生脸部特征图。脸部侦测的实施可使用传统技术,例如Nilsson et  al.所揭露的“Face detection using local SMQT features and split up  SNoW classifier.”。

本发明的实施例中,对任一训练影片(如3a)的每个训练信息框(如 3a1),特征撷取单元13都会产生四个特征图,且注视密度产生器15会产 生相对应的注视密度图。有了上述训练阶段产生的资讯后,训练单元18便 利用每个像素的注视密度和特征资讯之间的相互关系来训练回归模型 19,以便之后进入测试阶段。然而,若使用全部且庞大的每个像素的相互 关系来训练回归模型19,会很耗时且没效率。因此在进入测试阶段之 前,训练样本选取单元17会选出用来训练回归模型19的训练样本 (training sample)。具体来说,每个训练样本都可视为五个一组的资 料,其包含每个像素的一注视密度值和四个相对应的特征值。

训练样本选取单元17耦接于训练单元18,用来从每一训练影片的训练 信息框中选出至少一样本信息框,其中样本信息框中的注视点的分布应最 为密集。具体来说,既然训练信息框的空间注视分布会直接反应注意程 度,训练样本选取单元17便从每一训练影片的每个训练信息框中,找出注 视点的中心(centroid)并计算每个注视点与中心位置之间的均值 (mean)。具有最小均值的训练信息框便被选为样本信息框,用来代表此训 练影片。除了对每个训练影片选择一个样本信息框,也可选择多个,不以 揭露者为限。

另一具体实施例中,训练样本选取单元17从每个样本信息框中选出相 对少数的像素作为样本像素,其中所选出的样本像素为样本信息框的注视 密度图中,位于相对密集处的注视点。一旦选出样本像素,训练单元18便 可根据样本像素的注视密度值以及样本像素的训练特征值的对应关系来训 练回归模型19。

获得训练样本后,可借由训练回归模型19来学习训练样本的注视密度 和特征资讯之间的相互关系(correlation relationship)。一具体实施例 中,训练单元18使用支持向量回归(support vector regression)算法来 训练回归模型19。除了实时接收多个训练影片来训练学习注视密度和特征 资讯之间的相互关系,此相互关系也可事先内建于回归模型19中。实 作上,特征撷取单元13接收一具有多个测试信息框(test frame)的一测试 影片(test video sequence),并基于上述四种特征资讯从每一测试信息框 产生相对应的测试特征图(tested feature map)。而回归模型19便可根据 训练到的相互关系将测试特征图对应出一显著图(saliency map),用来表 示所对应的测试信息框的注视强度(fixation strength)。显著图类似于注 视密度图5b,具有一显著区域,其具有相对大的注视强度,可预测为视觉 注意部份。因此,对应于显著区域的测试信息框部份须进行相对精细的影 像处理。

图6显示本发明实施例的学习力的视觉注意预测方法的流程图。首 先,须对多个观赏者2进行眼追踪实验来收集注视资料,在步骤S601,主 机111控制显示屏幕113依序显示训练影片3a-3h,由观赏者2观看显示屏 幕113中显示的训练影片3a-3h(步骤S603)。摄影机117同时追踪观赏者2 的眼睛活动(步骤S605),并在步骤S607中,主机111会记录观赏者2注视 每个训练信息框的位置。

接着,步骤S609中,对每个训练信息框,从所有观赏者2侦测到的注 视点会被收集起来成为注视图。之后,在步骤S611中,注视密度产生器15 将每个注视图转成一注视密度图。步骤S613中,特征撷取单元13基于四 种特征资讯从训练影片3a-3h的每个训练信息框产生相对应的训练特征图 (即颜色特征图、移动量特征图、方向特征图以及脸部特征图)。为了减少 运算量,训练样本选取单元17从每一训练影片的所有训练信息框中分另选 出一个样本信息框,并从样本信息框中选出数个样本像素,来做为训练回 归模型之用(步骤S615)。

获得训练样本后,根据样本像素的注视密度图以及训练特征图的对应 关系,训练单元18借由训练回归模型19来学习注视密度和特征资讯之间 的相互关系(步骤S617),如此便完成训练阶段了。值得一提的是,注视密 度和特征资讯之间的相互关系除了可经过上述步骤实时产生外,也可事先 内建于回归模型19中,以避免前置作业所耗费的时间。

获得注视密度和特征资讯之间的相互关系后,便可进入测试阶段,在 步骤S619中,特征撷取单元13接收一测试影片,并基于四种特征资讯从 每一测试信息框产生测试特征图(步骤S621)。最后,在步骤S623中,回归 模型19根据训练到的相互关系将测试特征图对应出一显著图,进而预测出 每一测试信息框的视觉注意部份。在步骤S625中,处理器便可将对应于显 著图的显著区域的测试信息框部份进行相对精细的影像处理。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式 上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发 明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利 用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但 凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所 作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号