首页> 中国专利> 一种基于多视图和半监督学习机制的图像标注方法

一种基于多视图和半监督学习机制的图像标注方法

摘要

本发明公开了一种基于多视图和半监督学习机制的图像标注方法,该方法包括以下步骤:基于不相关视觉特征的多视图分类器学习过程;基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程;基于最大熵投票原则和标注间相关性的多视图标注过程。本发明提出多视图半监督图像标注方法的性能明显优于之前提出的其它方案的性能,该方法的主要思想是:首先利用互不相关的视图来训练多个独立的分类器,然后利用初始标记样本和伪标记样本对视图分类器进行优化,最后基于最大熵投票原则以及各个标注间的相关性,为每幅未标记图像分配合适的语义标注。

著录项

  • 公开/公告号CN103955462A

    专利类型发明专利

  • 公开/公告日2014-07-30

    原文格式PDF

  • 申请/专利权人 南京邮电大学;

    申请/专利号CN201410108060.5

  • 发明设计人 朱松豪;陈玲玲;李向向;

    申请日2014-03-21

  • 分类号G06F17/30(20060101);G06K9/66(20060101);

  • 代理机构32207 南京知识律师事务所;

  • 代理人汪旭东

  • 地址 210023 江苏省南京市亚东新城区文苑路9号

  • 入库时间 2023-12-17 00:30:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-15

    授权

    授权

  • 2014-08-27

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140321

    实质审查的生效

  • 2014-07-30

    公开

    公开

说明书

技术领域

本发明涉及计算机图像处理技术领域,特别涉及一种基于多视图和半监督学习机制的图像 标注方法。

背景技术

随着越来越多的数字图像出现在网络、个人电脑和数字采集设备上,要求采用基于内容分 析技术实现有效组织和管理如此海量图像信息的愿望也愈来愈强烈。其中,图片标注是实现 基于内容的图像索引、检索及其它相关应用的最重要和最关键的一步,其目的是要在底层的 视觉信息和高层的语言描述间建立一种精确的对应关系。

近年来,研究者提出了各种各样解决图像标签方案。例如嵌入式深信度网络法、协方差 判别法、双线性深度学习法、局部与全局信息法、可分离主成分分析法、图论法、二维多标 签主动学习法、以及小波特征度量法、高阶统计法、稀疏编码法等等。这些现有的方法主要 研究如何给图像分配合适的标签,以描述出图像的语义内容。图片标注是实现基于内容的图 像索引、检索及其它相关应用的最重要和最关键的一步,其目的是要在底层的视觉信息和高 层的语言描述间建立一种精确的对应关系。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于克服现有图像标注方法的不足,提供一种基于多视图和半监督学习机制的 图像标注方法,该方法结合多视图学习和半监督学习理论,能更好的反映图像的视觉内容。

本发明解决其技术问题所采取的技术方案是:本发明提供了一种基于多视图学习机制和半 监督学习机制的图像标注方法,该方法包括以下步骤:

方法流程:

步骤1:基于不相关视觉特征的多视图分类器学习过程;

从图像中提取小波纹理、颜色直方图和边缘方向直方图等足够多的互不相关的视图;

使用基于标记图像集合训练视图分类器。

步骤2:基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程;

得到视图下伪标记样本属于某个标注的概率:

利用高斯距离得到不同视图分类器间标注性能的差异值;

在任意两视图分类器标注性能差异值度量的基础上,得到所有视图分类器标注性能的差异 值;

对于视图而言,当未标记样本间所有标注的一致度达到最大时,则基于视图的分类器集合 的性能达到最优。

步骤3:基于最大熵投票原则和标注间相关性的多视图标注过程。

在所有语义标注中,语义标注列表中的第一个语义标注---类别标注,它从语义上描述了图 像中主要的视觉内容;而标注列表上的其它标注则用以表示标注间的相关性。

因此,本发明的标注过程由如下两部分组成:1.类别标注的生成,它是在利用优化的多 视图分类器产生标注结果的基础上,利用最大熵投票得到;2.利用相关性,依次得到标注列 表中的其它标注。

附图说明

图1为本发明的方法流程图。

图2为Flickr图像集上的典型图像示意图。

图3为不同分类方法间的性能比较示意图。

图4为不同数量的标记样本和伪标记样本的组合下,不同分类方法间的性能比较示意图。

图5为本发明的实验结果示例图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

如图1所示,本发明提供了一种基于多视图和半监督学习机制的图像标注方法,该方法是 首先从图像提取类似小波纹理、颜色直方图和边缘方向直方图等互不相关的视图特征,然后 依据这些提取的视图进行视图分类器的训练,最后利用训练后的视图分类器对每个伪标记图 像进行标记。已标记样本和部分具有较高可信度的伪标记样本对视图分类器进行优化,以得 到标注性能优良的视图分类器;以优化后的视图分类器对未标记图像分配的标注为基础,使 用最大熵投票原则和标注间的相关性,得到优化的标注结果。

本发明的基于多视图学习机制和半监督学习机制的图像标注方法的一个优选实施方式,具 体包括以下步骤:

步骤1:基于不相关视觉特征的多视图分类器学习过程

1、像中提取小波纹理、颜色直方图和边缘方向直方图等足够多的互不相关的视图;

2、于标记图像集合{x1,x2,…,xl,…,xL}训练第V个视图分类器hv

hv:xlv→yk,l∈(1,L),v∈(1,V),yk∈Y      (1)

步骤2:基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程

设puvk表示第v个视图中伪标记样本x(L+u)属于第k个标注的概率值:

puvk=puk(hv)=p(yk=1|x(L+u)v)---(2)

使用下列公式计算出第v个视图中伪标记样本x(L+u)属于第k个类别的概率值:

yuvk=sgn(p(yk=1|x(L+u)v)-p(yk=-1|x(L+u)v))---(3)

本发明采用高斯距离度量不同视图分类器间标注性能的差异性。设puv={puv1,puv2,…, puvk,…,puvK}为伪标记图像x(L+u)属于第v个视图中各个类别的概率,则任意一伪标记图像 x(L+u)在两个视图分类器hv和hv'之间的差异值可由下式求得:

在任意两视图分类器标注性能差异值度量的基础上,所有视图分类器标注性能的差异值 可表示为:

对于视图v而言,当未标记样本间所有标注的一致度达到最大时,则基于视图v的分类器 集合h(v)}的性能达到最优,本发明提出的多视图半监督分类器的优化过程如下所述:利用标 记图像以及伪标记图像对每个视图分类器进行迭代训练,直到训练后伪标记图像集合间标注 的差异值不再减小。多视图半监督分类器优化过程如下所示:

由上述迭代优化训练过程而知,当成对的伪标记图像在视图分类器上具有明显的差异时, 则将这对伪标记图像加入到标记图像集合中;然后,再用新生成的标记图像集去训练视图分 类器,从而提高对未标注图像分配合适标签的预测性能。

步骤3:基于最大熵投票原则和标注间相关性的多视图标注过程。

对每幅图像,本发明依据图像内容分配语义标注。在所有语义标注中,语义标注列表中的 第一个语义标注---类别标注,它从语义上描述了图像中主要的视觉内容;而标注列表上的其 它标注则用以表示标注间的相关性。因此,本发明的标注过程由如下两部分组成:1.类别标 注的生成,它是在利用优化的多视图分类器产生标注结果的基础上,利用最大熵投票得到;

2.利用相关性,依次得到标注列表中的其它标注。

1.类别标注的生成过程

对每个未标注图像,采用最大熵投票原则产生第一个标注,即类别标注。

设lqvk表示在视图v中,将标注k分配给未标记图像集合{x1,x2,…,xq,…,xQ}的xq的情况, pqvk表示标注概率集合pqv中的最大值:

pqvk=argmkax(pqv1,pqv2,...,pqvk,...,pqvK)---(6)

本发明利用最大熵投票原则度量视图分类器标注结果的正确度:

VEq=Σk=1Kvt(lq(.)k)Vlogvt(lq(.)k)V---(7)

其中,vt(lq(.)k)表示在视图v中,将标注k分配给未标记图像xq的投票数目。

如果分配给未标记图像xq的标注是得票数最多的标注,则下面的不等式是正确的:

VEq≥μ-φ-1(α)×δ      (8)

其中,Φ表示分配给未标记图像标记结果的标准正态分布,如公式(9)所示;μ和σ分别 表示标准正态分布的期望和方差;β表示差异值的置信度。

VE:{(pq11,...,pq1K),...,(pqv1,...,pqvK),...,(pqV1,...,pqVK)}---(9)

2.其余标注的生成过程

在类别标注的基础上,利用如公式(10)所示的标注间的相关性依次得到标注列表中的其它 标注:

corr(yi,yj)=num(yi,yj)min(num(yi),num(yj))---(10)

其中,num(yi)和num(yj)分别表示包含标注yi和标注yj的图像数目,num(yi,yj)表示同时包含 标注yi和yj的图像数目。

为了更好反映图像的视觉内容,本发明所选用的图片集包含50,000张来自图像共享网站 Flickr的图片,这些图片均是通过关键字检索得到,如鸟、熊、猫、花、狐狸、飞机、树、火 车、天空和夕阳等。根据感兴趣的程度来对每幅检索图像的相关标注进行排名,把每种类型 检索标签的前5000幅图像和它们的相关信息(包括标签、上传时间、位置等)收集到一起。 图2显示了与“鸟”和“夕阳”这两个查询关键字相关的一些典型图像。由这两个例子可以看到 很多标注有拼写错误或有些标注无任何意义,因此有必要对标注进行优化:只有与维基百科 中的词汇匹配时,才能将对应的标注保留下来。本发明对50,000张图片的标注进一步优化后, 最终得到共计17226个标注。

从图像集中随机选择24000幅图像作为训练集,并将其余的26000幅图像作为测试集。 为得到每幅图像的真实标注集,本发明邀请了10位志愿者依次查看每幅图像,并给出每幅图 像的详尽标注;然后,每幅图像的真实标注集则为所有给定标注的交集。

由于特征选择将会对最终的标注结果产生很大影响,所以几十年来特征选择问题已成为 识别领域的研究热点。本发明提取包括颜色、纹理、语义描述和文本特征等在内的作为图像 的视觉描述符:

HSV空间的128维的颜色直方图,其中色调8个区、饱和度4个区和亮度个区; 来自HSV空间的44维的自相关图;

来自LAB空间的225维的颜色块矩阵,在将图像分为5×5网格的基础上,从每个块中提 取一个9维块矩阵描述符;

来自HSV空间的18维的边缘直方图,其中在水平和竖直方向分别提取一个9维边缘直 方图;

来自6级Harr变换的36维的金字塔小波纹理,其中每级由一个6维特征描述:系数在 高/高、高/低、和低/高频段的均值和方差;

来自尺度不变特征变换的词库。

本发明采用归一化的累积收益折扣(Normalized Discounted Cumulative Gain,NDCG@s) 作为图像标注质量的评估指标:

NDCG@s=1ΓΣi=1s2rel(i)-1log(1+i)---(11)

其中,Γ表示标注列表上标注s的归一化因子,用以确保NDCG@s的值为1;rel(i)表示标 注列表中第i处标注的关联性。

在本发明中,将NDCG@s相关性分为五个层次:最相关的是5,相关的是4,部分相关 的是3,弱相关的是2和不相关的是1。本发明的NDCG@s评价标准计算过程为:首先计算 每幅未标记图像的NDCG@s,然后将未标记图像集NDCG@s的均值作为性能评估的最终度 量标准。

为模拟半监督学习过程,本发明将训练集分为两个子集:一个子集为标注集,其标记为 已知的;另一子集为伪标注集,其标记为隐藏的。

随机地选择两个训练子集的数量,每次实验重复50次。本发明的标注训练子集的数量分 别选为1000、2000、5000和10000。在每次选择时,保持各个类别间的比例类似于训练集中 各个类别的比例。

图3给出了四种不同标注方法的实验对比结果,此时的训练集包含1000幅标记样本和 23000伪标记样本,NDCG@s的评价指标是在对训练样本进行50次随机分割和所有十个类别 的标注实验后得到的平均值。

从图3中可以清楚地看出,本发明所提的的多视图半监督标注方法优于有监督单视图的 标注方法SVS、半监督单视的标注方法SSVS以及半监督多视图的标注方法SSMV。这种改 进从下面两个方面印证了本发明所提方法的思路:1.通过将高可信度的伪标记图像对添加到 标记图像集中而生成新的标记图像集,对分类器进行迭代训练,以改善分类器的性能;2.在 训练阶段和测试阶段同时利用多视图的特征,有利于标注性能的改善。

图4给出了在不同数量的标记样本和伪标记样本的组合下,不同标注方法间的性能比较。 图5给出了上述实验结果的示例图。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号