法律状态公告日
法律状态信息
法律状态
2019-03-01
授权
授权
2016-08-10
实质审查的生效 IPC(主分类):G06K9/46 申请日:20160310
实质审查的生效
2016-07-13
公开
公开
技术领域:
本发明涉及图像处理技术领域中的相似图像检索,特别涉及一种基于随机 森林算法的判别二进制图像特征相似实现方法。
背景技术:
随着大数据、云计算等互联网技术的快速发展,网络上存放的图像文档以 及相关资料迅速增加,目前已有数以亿计的网络图片,如何存储这些大规模的 图像、如何在如此大规模的图像数据库中快速准确的检索到用户想要的图片, 已经成为计算机视觉领域的一个重要研究方向。
传统的图像检索模型例如词袋模型(BoW)、局部聚合向量(VLAD),将图 像进行离线索引时,首先将图像的特征进行聚类,聚类中心作为视觉单词,然 后再将特征量化成视觉单词进行倒排索引。其中,特征的聚类要计算所有特征 之间的欧氏距离,特征量化时要计算所有特征与聚类中心的欧式距离,而128 维的欧式距离计算需要花费大量的时间,并且消耗大量的内存。更重要的是, 一旦加入新的图像库,必须重新计算视觉单词,可扩展性不好。并且,聚类中 心的个数不好确定,而聚类中心的好坏直接影响最终的检索结果。
利用二进制特征描述图像与传统的尺度不变特征转换浮点型描述符相比, 具有存储空间少、计算速度快的特点。另一方面二进制特征在匹配查找方面也 具有天然优势,可以使用汉明距离进行匹配计算,大大提高匹配速度。目前较 为流行的二进制特征例如ORB、FREAK、BRISK算法,这些方法描述符较为简 单,可以达到很好的实时处理性能,但是由于描述符简单,对噪声的鲁棒性不 够,匹配效果不佳。由于尺度不变特征转换特征可以适应图像缩放、旋转、平 移等变化,并且能克服噪声光照变化的影响等良好的性,因此可以得到最佳匹 配效果。如何把尺度不变特征转换特征映射成二进制特征以及二进制特征如何 有效的索引和匹配是目前研究的一个重要方向。现有二进制特征的匹配方法是 计算汉明距离,当距离小于某一阈值则认为匹配,否则认为不匹配。然而阈值 设置的小,部分匹配特征不会被匹配到,阈值设置的大,部分不匹配特征会被 匹配到,而匹配特征对最终检索结果至关重要。现在的大部分研究在只进行到 阈值的设置匹配,目前还没有为阈值匹配后的特征进行有监督的精确匹配。
发明内容:
本发明的目的在于克服上述现有系统中的缺陷,提出了一种基于随机森林 算法的判别二进制图像特征相似实现方法,与传统图像检索系统设计相比,该 方法可以有效的提高平均检索准确率。
为达到上述目的,本发明通过如下的技术方案予以实现:
基于随机森林算法的判别二进制图像特征相似实现方法,包括以下步骤:
1)离线索引阶段,提取图像的尺度不变特征转换特征,把所有尺度不变特 征转换特征的每一维当作一个向量用K均值方法聚类,得到5个聚类中心,然 后将尺度不变特征转换特征的每一维按汉明距离最近的聚类中心量化成4位的 二进制码,得到512维的二进制特征;把量化后的特征、特征索引、特征对应 的图像名称及其近邻特征写入数据库作为图像特征库;
2)取不少于图像库60%的图像用于有监督的训练,将图像的量化特征与图 像库中的特征进行匹配,如果两幅图像相似,则把类别1和量化特征与其匹配 特征的异或结果作为新的标签向量,若否,则把类别0和量化特征与其匹配特 征的异或结果作为新的标签向量;将这些标签向量用随机森林算法进行有监督 的学习和预测,选取最优参数生成随机森林判别模型;
3)在线检索阶段,提取图像的尺度不变特征转换特征,把特征量化成512 维的二进制特征,并与图像特征库中的特征匹配,得到量化特征的近邻特征, 并用步骤2)中生成的随机判别模型对近邻特征进行判别,投票机制检索出相似 图像。
本发明进一步的改进在于,步骤1)中,离线索引阶段,将128维的尺度不 变特征转换特征量化成512维的二进制特征,使特征间的汉明距离与欧式距离 更具有一致性、二进制特征间的汉明距离更具有判别力;并且把近邻特征一并 写入特征库,减少了部分特征不能被匹配到的概率。
本发明进一步的改进在于,步骤1)中,离线索引阶段,将提取出的尺度不 变特征转换特征f=(f1,f2,...,f128)T量化成512维的向量b=(b1,b2,...,b512)T,具体 量化方法如下:
把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据 库作为图像特征库,数据库存储方式如下:
其中,index作为索引,feature1存储前32位特征,用来作求检索特征的最 近邻,feature2存储后面480位特征,Image-name是特征对就的图像名称,NN 存储的是与特征的汉明距离小于d的特征的索引。
本发明进一步的改进在于,步骤2)中,生成一个基于随机森林算法的判别 模型,判别两个特征是否相似,若判别结果为1.0,则认为两个特征相似,若判 别结果为0.0,则认为两个特征不相似,此判别方法的具体实施步骤如下:
201)取不少于图像库60%的图像用于有监督的训练,提取图像的尺度不变 特征转换特征并量化,将量化后的特征与特征库中的特征匹配,得到量化后特 征的近邻特征;
202)比较图像与量化特征的近邻特征对应的图像是否相似,若相似,则把 类别1与量化特征与其近邻特征的异或结果作为新的标签向量,若不相似,则 把类别0与量化特征与其近邻特征的异或结果作为新的标签向量;
203)分别选取不同的决策树个数和最大层数进行学习和预测,选取预测错 误率最低的决策树个数和最大层次数作为参数,生成随机森林判别模型。
本发明进一步的改进在于,步骤3)中,对查询图像的量化特征的近邻特征 进行判别,若判别结果为1.0,则认为两个特征相似,若判别结果为0.0,则认 为两个特征不相似,把不相似的特征过滤,相似的特征采用投票机制得到检索 结果。
相对于现有技术,本发明具有如下技术效果:
本发明基于随机森林算法的判别二进制图像特征相似实现方法,该检索系 统采用二进制特征进行特征相似匹配,可以大大提高匹配速度,并且可以减少 特征存储空间;另外,本检索系统中,新增加一个有监督的基于随机森林算法 的特征相似判别模型,可以过滤大部分不匹配的特征。将二者结合,既可以提 高检索速度,也可以提高平均检索准确率。
附图说明:
图1为本发明基于随机森林算法的判别二进制图像特征相似实现方法的流 程图;
图2为本发明中随机森林算法的决策树树目仿真图;
图3为本发明中随机森林算法的最大层数数目仿真图。
具体实施方式:
下面结合附图和具体实施例对本发明作进一步说明。
在离线索引阶段,提取图像库中的特征,建立特征库;在线检索阶段,提 取查询图像的特征,与特征库中的特征进行匹配,把匹配的特征输入到随机森 林判别模型,对相似特征采用投票机制,输出检索结果。
参见图1,本发明基于随机森林算法的判别二进制图像特征相似实现方法, 包括以下步骤:
1)离线索引阶段,提取图像的尺度不变特征转换特征,把所有特征的每一 维当作一个向量用K均值方法聚类,得到5个聚类中心,然后将尺度不变特征 转换特征的每一维按汉明距离最近的聚类中心量化成4位的二进制码,得到512 维的二进制特征;把量化后的特征、特征索引、特征对应的图像名称及其近邻 特征写入数据库作为图像特征库。
2)取不少于图像库60%的图像用于有监督的训练,将图像的量化特征与图 像库中的特征进行匹配,如果两幅图像相似,则把类别1和量化特征与其近邻 特征的异或结果作为新的标签向量,若否,则把类别0和量化特征与其近邻特 征的异或结果作为新的标签向量。将这些标签向量用随机森林算法进行有监督 的学习和预测,选取最优参数生成随机森林判别模型。
3)在线检索阶段,提取图像的尺度不变特征转换特征,把特征量化成512 维的二进制特征,并与图像特征库中的特征匹配,得到量化特征的近邻特征, 并用步骤2中的判别模型对近邻特征进行判别,投票机制检索出相似图像。
其中,上述步骤1)中,离线索引阶段,将提取出的尺度不变特征转换特征 f=(f1,f2,...,f128)T量化成512维的向量b=(b1,b2,...,b512)T,具体量化方法如下:
把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据 库作为图像特征库,数据库存储方式如下:
其中,index作为索引,feature1存储前32位特征,用来作求检索特征的最 近邻,feature2存储后面480位特征,Image-name是特征对就的图像名称,NN 存储的是与特征的汉明距离小于d的特征的索引。
其中,上述步骤2)中,生成一个随机森林判别模型,判别两个特征是否相 似,若判别结果为1.0,则认为两个特征相似,若判别结果为0.0,则认为两个 特征不相似,此判别方法的具体实施步骤如下:
1)取不少于图像库60%的图像用于有监督的学习和预测,提取图像的尺度 不变特征转换特征并量化,将量化后的特征与特征库中的特征匹配,得到量化 特征的近邻特征;
2)比较图像与其量化特征的近邻特征对应的图像是否相似,若相似,则把 类别1和量化特征与其近邻特征的异或结果作为新的标签向量,若不相似,则 把类别0和量化特征与其近邻特征的异或结果作为新的标签向量;
3)分别选取不同的决策树个数和最大层数进行学习和预测,选取预测错误 率最低的决策树个数和最大层次数作为参数,生成随机森林判别模型。
其中,步骤3)中,对查询图像的量化特征的近邻特征进行判别,若判别结 果为1.0,则认为两个特征相似,若判别结果为0.0,则认为两个特征不相似, 把不相似的特征过滤,对相似的特征采用投票机制得到检索结果。
实验和效果分析
由图2可知,决策树个数为75时,预测错误率最小;由图3可知,训练层 数越大,预测错误率最小,但是训练层数越大,训练时间越长并且预测错误率 降低的越少。实验采用的模型参数为:numTrees=75,maxDepth=25。
结果分析,不同二进制特征方法下平均检索准确率如下表所示:
根据上表可以看出本发明提出的基于随机森林算法判别二进制特征相似的 相似图像检索系统的实现方法能够明显提高检索系统的平均检索准确率。
机译: 基于视点的相似度判别方法
机译: 图像验证方法,介质和设备,使用基于核的具有局部二进制模式(LBP)的判别分析
机译: 图像验证方法,介质和设备,使用基于核的具有局部二进制模式(LBP)的判别分析