首页> 中国专利> 一种基于大间隔分布学习的数字媒体对象分类方法

一种基于大间隔分布学习的数字媒体对象分类方法

摘要

本发明公开一种基于大间隔分布学习的数字媒体对象分类方法,为了克服数字媒体对象类别标记的噪声问题,通过最大化间隔均值同时最小化间隔方差,最终将数字媒体对象的分类问题形式化成一个凸二次优化问题,并根据是否使用非线性核函数以及训练数字媒体对象库本身的特征,给出了分别基于对偶坐标下降和基于平均随机梯度下降两种寻优算法的实现,用户可根据实际情况自行选择。若用户选择非线性核函数,则训练时选择DCD作为寻优算法;若用户选择线性核函数,且训练数字媒体对象库样本很多或特征很稀疏,则训练时选择ASGD作为寻优算法,否则依然选择DCD作为寻优算法。

著录项

  • 公开/公告号CN104102705A

    专利类型发明专利

  • 公开/公告日2014-10-15

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN201410326282.4

  • 发明设计人 周志华;张腾;

    申请日2014-07-09

  • 分类号

  • 代理机构南京苏高专利商标事务所(普通合伙);

  • 代理人李玉平

  • 地址 210046 江苏省南京市栖霞区仙林大道163号

  • 入库时间 2023-12-17 01:54:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-09

    授权

    授权

  • 2014-11-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140709

    实质审查的生效

  • 2014-10-15

    公开

    公开

说明书

技术领域

本发明涉及一种数字媒体对象分类方法,特别是一种基于大间隔分布学习的 数字媒体对象分类方法。

背景技术

当下的人类社会已经全面进入了数字化阶段,目前用来传播信息的图像、文 本、视频、音频等媒介均是以二进制编码的形式来记录、处理的,这些编码后的 图像、文本、视频、音频统称为数字媒体对象。数字媒体对象因其具有图、文、 声、像并茂的立体表现特点,已广泛应用于各行各业,如遥感测控、互联网站、 数字电视、电话通信等。这些行业每天都会积累大量的数据,因此随着数据量的 不断膨胀,如何对数字媒体对象进行有效地组织管理变得越来越重要,而其核心 问题就是数字媒体对象的分类。科学的分类既可以为存储这些数字媒体对象提供 便利;在之后的服务如数字媒体检索中,也可以更快速地给出效果更好的检索结 果。在数字媒体对象的分类任务中,每个数字媒体对象都会有一个对应的类别标 记,这些类别标记通常是由人进行手工标注得到的,因此不可避免地会引入一些 噪声。传统的基于大间隔的分类方法,如支持向量机(以下均简记为SVM),因其 只考虑了单个样本的间隔,因此对噪声比较敏感,不适合直接用来对数字媒体对 象进行分类。基于这一发现,本发明提出一种基于大间隔分布学习的数字媒体对 象分类方法,该方法通过利用整个间隔分布的信息,而不是单个样本的间隔,因 此避免了对噪声的敏感,很好地解决了数字媒体对象分类的问题。

发明内容

发明目的:考虑到数字媒体对象的类别标记通常含有不少噪声,本发明基于 大间隔分布学习的思想,提出了一种对噪声不敏感的数字媒体对象分类方法。该 方法通过充分利用整个间隔分布的信息,最大化间隔均值同时最小化间隔方差, 避免了对噪声的敏感,很好地解决了数字媒体对象分类的问题。

技术方案:一种基于大间隔分布学习的数字媒体对象分类方法,首先,用户 先准备好一个数字媒体对象库,其中每一个数字媒体对象都带有类别标记,这些 就是训练数据。接着,将训练数字媒体对象转换成特征表示,具体来说,将训练 数字媒体对象输入到特征提取算法中,得到数字媒体对象的特征向量。数字媒体 对象的特征提取方法有很多种,可以用一个方法对应一个特征,例如,对于一幅 图像,其亮度可以作为该对象的一个特征,对比度则可以作为另外一个特征。记 总的特征个数为d,那么就将每个数字媒体对象都对应到d维欧氏空间中的一个 向量了。然后将所有训练数字媒体对象对应的特征向量及其类别标记都输入进分 类模型的训练算法,训练完之后就可以得到分类模型。在预测阶段,用户将待预 测的数字媒体对象输入分类模型,分类模型即可输出其预测的类别标记。在训练 分类模型时,为了克服数字媒体对象类别标记的噪声问题,本发明基于大间隔分 布学习的思想,提出一种对噪声不敏感的数字媒体对象分类方法LDM,通过最 大化间隔均值同时最小化间隔方差,最终将数字媒体对象的分类问题形式化成一 个凸二次优化问题,并根据是否使用非线性核函数以及训练数字媒体对象库本身 的特征(如样本个数,特征稀疏性等),给出了分别基于对偶坐标下降(以下均简记 为DCD)和基于平均随机梯度下降(以下均简记为ASGD)两种寻优算法的实现, 用户可根据实际情况自行选择。若用户选择非线性核函数,则训练时选择DCD 作为寻优算法;若用户选择线性核函数,且训练数字媒体对象库样本很多或特征 很稀疏,则训练时选择ASGD作为寻优算法,否则依然选择DCD作为寻优算法。

有益效果:与现有技术相比,本发明充分利用训练数字媒体对象库的间隔分 布信息,通过最大化间隔均值同时最小化间隔方差,克服了数字媒体对象分类问 题中类别标记的噪声问题,同时还保持了SVM原有的优点,最终取得了很好的 分类效果。

附图说明

图1是本发明原理流程图;

图2是本发明的流程图;

图3是根据DCD寻优算法训练分类模型的流程图;

图4是根据ASGD寻优算法训练分类模型的流程图。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本 发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发 明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示,基于大间隔分布学习的数字媒体对象分类方法,首先,用户先 准备好一个数字媒体对象库,对于其中的每一个数字媒体对象,通过标注或众 包方法,获得对应的类别标记,形成训练数据。接着,将训练数字媒体对象转 换成特征表示,具体来说,将训练数字媒体对象输入到特征提取算法中,得到 数字媒体对象的特征向量。然后将所有训练数字媒体对象对应的特征向量及其 类别标记都输入进分类模型的训练算法,训练完之后就可以得到分类模型。在 预测阶段,用户将测试数字媒体对象库中的待预测的数字媒体对象输入分类模 型,分类模型输出分类结果。

本发明的主要流程如图2所示。步骤1是起始动作,步骤2获得所有训练数 字媒体对象的特征向量矩阵和类别标记向量其中X是d×m 的实数矩阵,第i列对应数字媒体对象xi,y是m维的实数向量。步骤3接受用户 输入,用户输入包括寻优算法的选择,间隔方差、间隔均值和总体损失的权重 系数λ1、λ2、C以及核函数参数(若选择线性核则无参数)。步骤4根据用户的输 入做判断,若选择DCD作为寻优算法,则转步骤5,其详细说明如图3所示; 若选择ASGD作为寻优算法,则转步骤6,其详细说明如图4所示。步骤7使用 训练好的分类模型对没有类别标记的数字媒体对象进行分类,步骤8输出分类 结果,最终结束于步骤9。

图3说明如何根据DCD寻优算法训练分类模型,步骤50为开始动作。步 骤51中,基于特征向量矩阵X计算核矩阵G,这里所用的核函数由用户指定, 常见的有RBF核、多项式核、Sigmoid核、线性核等,每一个数字媒体对象在G 中都对应着某一行和某一列。步骤52中,将优化问题的解β初始化为全0向 量,按(1)式计算矩阵H和向量p:

其中Y是以y为对角线元素的对角矩阵,e是m维全1向量。矩阵H中含有间隔 方差的信息,向量p也和间隔均值相关,同时它们也是最终要优化的目标函数 中的二次项和一次项。步骤53判断β是否已经收敛,判断的依据是当前的β与 上一轮的β的差值的某个范数(通常选择2-范数)是否小于预先设定的阈值。若β 已经收敛,则转步骤56,输出β,训练结束;否则转步骤54。步骤54和步骤55 是DCD的核心部分,由于LDM形式化后的目标函数是凸二次函数,约束是去 耦合的上下界约束,因此选用DCD作为寻优算法有个好处,每次选取一个变 量,保持其它变量不变,那么只优化该变量就是一个一维二次函数在指定区间 上取最小值的问题,这个问题是有解析解的。具体来说,设当前的解为β,随 机选取第i维作为优化变量,其它维固定不变,那么有如下的更新公式

βinew=min(max(βi-[+β]i/hii,0),C),---(6)

其中[Hβ+β]i是向量Hβ+β的第i维,hii是矩阵H对角线上的第i个元素。步骤 54随机选取βi作为优化变量,步骤55依据(2)式来更新βi,之后转回步骤53进行 迭代直至收敛。

图4说明如何根据ASGD寻优算法训练分类模型,步骤60为开始动作。步 骤61将优化问题的解w初始化为全0向量。步骤62判断w是否已经收敛,判断 依据是当前的w与上一轮的w的差值的某个范数(通常选择2-范数)是否小于预先 设定的阈值。若w已经收敛,则转步骤66,输出w,训练结束;否则转步骤 63。步骤63、步骤64和步骤65是ASGD的核心部分,ASGD的核心思想是用 目标函数梯度的无偏估计来替代梯度作为下降方向,这样可以避免数据量很大 时,计算梯度相当耗时的问题,因为梯度的无偏估计一般来说都是很容易计算 的。对于SVM,ASGD每轮只需随机采样一个样本就可以得到其目标函数梯度 的无偏估计,LDM在其基础上额外引入了间隔均值和间隔方差,其中间隔均值 梯度的无偏估计通过随机采样一个样本就可以得到,间隔方差梯度的无偏估计 则需要随机采样两个样本,这就是步骤63。假设随机采样出的样本为分别为xi和xj,就是通过式(3)就可以得到目标函数梯度的无偏估计,

其中λ1、λ2、C分别是间隔方差、间隔均值和总体损失的权重系数,集合 是有损失的样本的下标集合,这就是步骤64。之后设置步 长ηt=1/t,和梯度下降一样按式(4)更新w就可以了,

wt+1=wt-ηtg(w,xi,xj)---(8)

这就是步骤65,之后转回步骤62进行迭代直至收敛。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号